Una aproximación al uso de word embeddings en una tarea de similitud de textos en español

López Solaz, Tomás; Troyano Jiménez, José Antonio; Ortega Rodríguez, Francisco Javier; Enríquez de Salamanca Ros, Fernando

Artículo

dc.creator	López Solaz, Tomás	es
dc.creator	Troyano Jiménez, José Antonio	es
dc.creator	Ortega Rodríguez, Francisco Javier	es
dc.creator	Enríquez de Salamanca Ros, Fernando	es
dc.date.accessioned	2022-12-13T10:12:56Z
dc.date.available	2022-12-13T10:12:56Z
dc.date.issued	2016
dc.identifier.citation	López Solaz, T., Troyano Jiménez, J.A., Ortega Rodríguez, F.J. y Enríquez de Salamanca Ros, F. (2016). Una aproximación al uso de word embeddings en una tarea de similitud de textos en español. Procesamiento del Lenguaje Natural, 57, 67-74.
dc.identifier.issn	1135-5948	es
dc.identifier.issn	1989-7553	es
dc.identifier.uri	https://hdl.handle.net/11441/140387
dc.description.abstract	En este trabajo mostramos cómo una representación vectorial de palabras basada en word embeddings puede ayudar a mejorar los resultados en una tarea de similitud semántica de textos. Para ello hemos experimentado con dos métodos que se apoyan en la representación vectorial de palabras para calcular el grado de similitud de dos textos, uno basado en la agregación de vectores y otro basado en el cálculo de alineamientos. El método de alineamiento se apoya en la similitud de vectores de palabras para determinar la vinculación entre las mismas. El método de agregación nos permite construir representaciones vectoriales de los textos a partir de los vectores individuales de palabras. Estas representaciones son comparadas mediante dos distancias clásicas como son la euclídea y la del coseno. Hemos evaluado nuestros sistemas con el corpus basado en Wikipedia distribuido en la competición de similitud de textos en español de SemEval-2015. Nuestros experimentos muestran que el método basado en alineamiento se comporta mucho mejor, obteniendo resultados muy cercanos al mejor sistema de SemEval. El método basado en agregación de vectores se comporta sensiblemente peor. No obstante, esta segunda aproximación parece capturar aspectos de similitud no recogidos por la primera, ya que cuando se combinan las salidas de ambos sistemas se mejoran los resultados del método de alineamiento, superando incluso los resultados del mejor sistema de SemEval.	es
dc.description.sponsorship	Junta de Andalucía P11-TIC-7684 MO (AORESCU)	es
dc.format	application/pdf	es
dc.format.extent	8	es
dc.language.iso	spa	es
dc.publisher	Sociedad Española para el Procesamiento del Lenguaje Natural	es
dc.relation.ispartof	Procesamiento del Lenguaje Natural, 57, 67-74.
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.title	Una aproximación al uso de word embeddings en una tarea de similitud de textos en español	es
dc.type	info:eu-repo/semantics/article	es
dcterms.identifier	https://ror.org/03yxnpp24
dc.type.version	info:eu-repo/semantics/submittedVersion	es
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es
dc.contributor.affiliation	Universidad de Sevilla. Departamento de Lenguajes y Sistemas Informáticos	es
dc.relation.projectID	P11-TIC-7684 MO (AORESCU)	es
dc.relation.publisherversion	http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5338	es
dc.contributor.group	Universidad de Sevilla. TIC-134: Sistemas Informáticos	es
dc.journaltitle	Procesamiento del Lenguaje Natural	es
dc.publication.issue	57	es
dc.publication.initialPage	67	es
dc.publication.endPage	74	es
dc.contributor.funder	Junta de Andalucía	es

Ficheros	Tamaño	Formato	Ver	Descripción
5338-4674-1-PB.pdf	648.1Kb	[PDF]	Ver/Abrir

Este registro aparece en las siguientes colecciones

Artículos (Lenguajes y Sistemas Informáticos)

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como: Attribution-NonCommercial-NoDerivatives 4.0 Internacional