dc.creator | López Solaz, Tomás | es |
dc.creator | Troyano Jiménez, José Antonio | es |
dc.creator | Ortega Rodríguez, Francisco Javier | es |
dc.creator | Enríquez de Salamanca Ros, Fernando | es |
dc.date.accessioned | 2022-12-13T10:12:56Z | |
dc.date.available | 2022-12-13T10:12:56Z | |
dc.date.issued | 2016 | |
dc.identifier.citation | López Solaz, T., Troyano Jiménez, J.A., Ortega Rodríguez, F.J. y Enríquez de Salamanca Ros, F. (2016). Una aproximación al uso de word embeddings en una tarea de similitud de textos en español. Procesamiento del Lenguaje Natural, 57, 67-74. | |
dc.identifier.issn | 1135-5948 | es |
dc.identifier.issn | 1989-7553 | es |
dc.identifier.uri | https://hdl.handle.net/11441/140387 | |
dc.description.abstract | En este trabajo mostramos cómo una representación vectorial de palabras basada en word embeddings puede ayudar a mejorar los resultados en una tarea de similitud semántica de textos. Para ello hemos experimentado con dos métodos que se apoyan en la representación vectorial de palabras para calcular el grado de similitud de dos textos, uno basado en la agregación de vectores y otro basado en el cálculo de alineamientos. El método de alineamiento se apoya en la similitud de vectores de palabras para determinar la vinculación entre las mismas. El método de agregación nos permite construir representaciones vectoriales de los textos a partir de los vectores individuales de palabras. Estas representaciones son comparadas mediante dos distancias clásicas como son la euclídea y la del coseno. Hemos evaluado nuestros sistemas con el corpus basado en Wikipedia distribuido en la competición de similitud de textos en español de SemEval-2015. Nuestros experimentos muestran que el método basado en alineamiento se comporta mucho mejor, obteniendo resultados muy cercanos al mejor sistema de SemEval. El método basado en agregación de vectores se comporta sensiblemente peor. No obstante, esta segunda aproximación parece capturar aspectos de similitud no recogidos por la primera, ya que cuando se combinan las salidas de ambos sistemas se mejoran los resultados del método de alineamiento, superando incluso los resultados del mejor sistema de SemEval. | es |
dc.description.sponsorship | Junta de Andalucía P11-TIC-7684 MO (AORESCU) | es |
dc.format | application/pdf | es |
dc.format.extent | 8 | es |
dc.language.iso | spa | es |
dc.publisher | Sociedad Española para el Procesamiento del Lenguaje Natural | es |
dc.relation.ispartof | Procesamiento del Lenguaje Natural, 57, 67-74. | |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 Internacional | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.title | Una aproximación al uso de word embeddings en una tarea de similitud de textos en español | es |
dc.type | info:eu-repo/semantics/article | es |
dcterms.identifier | https://ror.org/03yxnpp24 | |
dc.type.version | info:eu-repo/semantics/submittedVersion | es |
dc.rights.accessRights | info:eu-repo/semantics/openAccess | es |
dc.contributor.affiliation | Universidad de Sevilla. Departamento de Lenguajes y Sistemas Informáticos | es |
dc.relation.projectID | P11-TIC-7684 MO (AORESCU) | es |
dc.relation.publisherversion | http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5338 | es |
dc.contributor.group | Universidad de Sevilla. TIC-134: Sistemas Informáticos | es |
dc.journaltitle | Procesamiento del Lenguaje Natural | es |
dc.publication.issue | 57 | es |
dc.publication.initialPage | 67 | es |
dc.publication.endPage | 74 | es |
dc.contributor.funder | Junta de Andalucía | es |