dc.creator | Enríquez de Salamanca Ros, Fernando | es |
dc.creator | Cruz Mata, Fermín | es |
dc.creator | Ortega Rodríguez, Francisco Javier | es |
dc.creator | Troyano Jiménez, José Antonio | es |
dc.date.accessioned | 2020-08-05T08:41:53Z | |
dc.date.available | 2020-08-05T08:41:53Z | |
dc.date.issued | 2017 | |
dc.identifier.citation | Enríquez de Salamanca Ros, F., Cruz Mata, F., Ortega Rodríguez, F.J. y Troyano Jiménez, J.A. (2017). Similitud español-inglés a través de word embeddings. Procesamiento del Lenguaje Natural, 59, 31-38. | |
dc.identifier.issn | 1135-5948 | es |
dc.identifier.uri | https://hdl.handle.net/11441/100110 | |
dc.description.abstract | En este trabajo hemos afrontado la tarea de similitud de textos multilingüe mediante representaciones vectoriales de las palabras. Hemos experimentado con varias colecciones de textos con pares de frases en español e inglés, adaptando dos técnicas basadas en word embeddings que han mostrado su eficacia en la similitud de textos monolingüe: la agregación de vectores y el alineamiento. La agregación permite construir una representación vectorial de un texto a partir de los vectores de las palabras que lo componen, y el algoritmo de alineamiento aprovecha los word embeddigs para decidir el emparejamiento de palabras de los dos textos a comparar. En el proceso se han utilizado dos estrategias distintas: usar traductores automáticos para poder aplicar directamente las técnicas de similitud monolingüe, y aplicar una técnica de transformación de modelos para trasladar los vectores de un idioma al espacio del otro. Las dos estrategias han funcionado razonablemente bien por separado, y los resultados mejoran cuando las salidas de los dos tipos de sistemas se integran mediante técnicas de ensemble learning. | es |
dc.description.abstract | In this paper we have faced the cross-lingual text similarity task using
vector representations of words. We have experimented with several collections of
texts with pairs of sentences in Spanish and English, adapting two techniques based
on word embeddings that have shown their e ectiveness in the similarity of monolingual
texts: vector aggregation and vector-based text alignment. The aggregation
allows to construct a vector representation of a text from the vectors of the words
that compose it, and the algorithm of alignment takes advantage of word embeddigs
to decide the pairing of words of the two texts to be compared. Two di erent strategies
have been used in the process: using automatic translators to be able to directly
apply monolingual similarity techniques, and applying a model transformation technique
to translate the vectors of one language into the space of the other. Both
strategies have worked reasonably well separately, and the results improve when the
outputs of the two types of systems are integrated by means of ensemble learning
techniques. | es |
dc.format | application/pdf | es |
dc.format.extent | 8 | es |
dc.language.iso | spa | es |
dc.publisher | Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) | es |
dc.relation.ispartof | Procesamiento del Lenguaje Natural, 59, 31-38. | |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 Internacional | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Similitud bilingüe | es |
dc.subject | Cross-lingual similarity | es |
dc.subject | Word embeddings | es |
dc.subject | Alineamiento de textos | es |
dc.subject | Text alignment | es |
dc.subject | Transformación de modelos | es |
dc.subject | Model Transformations | es |
dc.title | Similitud español-inglés a través de word embeddings | es |
dc.title.alternative | Spanish-English similarity through word embeddings | es |
dc.type | info:eu-repo/semantics/article | es |
dc.type.version | info:eu-repo/semantics/publishedVersion | es |
dc.rights.accessRights | info:eu-repo/semantics/openAccess | es |
dc.contributor.affiliation | Universidad de Sevilla. Departamento de Lenguajes y Sistemas Informáticos | es |
dc.relation.publisherversion | http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5490 | es |
dc.journaltitle | Procesamiento del Lenguaje Natural | es |
dc.publication.issue | 59 | es |
dc.publication.initialPage | 31 | es |
dc.publication.endPage | 38 | es |
dc.identifier.sisius | 21481072 | es |