Explorando Twitter mediante la integración de información estructurada y no estructurada

Cotelo Moya, Juan Manuel; Cruz Mata, Fermín; Ortega Rodríguez, Francisco Javier; Troyano Jiménez, José Antonio

Artículo

dc.creator	Cotelo Moya, Juan Manuel	es
dc.creator	Cruz Mata, Fermín	es
dc.creator	Ortega Rodríguez, Francisco Javier	es
dc.creator	Troyano Jiménez, José Antonio	es
dc.date.accessioned	2020-07-19T07:55:39Z
dc.date.available	2020-07-19T07:55:39Z
dc.date.issued	2015
dc.identifier.citation	Cotelo Moya, J.M., Cruz Mata, F., Ortega Rodríguez, F.J. y Troyano Jiménez, J.A. (2015). Explorando Twitter mediante la integración de información estructurada y no estructurada. Procesamiento del lenguaje natural, 55, 75-82.
dc.identifier.issn	1135-5948	es
dc.identifier.uri	https://hdl.handle.net/11441/99641
dc.description.abstract	En este artículo mostramos cómo es posible sacar partido de la información estructurada que proporciona la red social Twitter. Los textos escritos en Twitter son cortos y de baja calidad, lo que dificulta la aplicación de técnicas y herramientas que tradicionalmente se han venido usando para procesar textos en lenguaje natural. Sin embargo, Twitter ofrece mucho más que los 140 caracteres de sus mensajes para trabajar. En el ecosistema Twitter hay muchos objetos (tweets, hashtags, usuarios, palabras, ...) y relaciones entre ellos (co-ocurrencia, menciones, re-tuiteos, ...) que ofrecen innumerables posiblidades de procesado alternativo a las técnicas clásicas de PLN. En este trabajo hemos puesto nuestra atención en la tarea de clasificación de tweets. Sólo usando la información de la relación Follow hemos conseguido un clasificador que iguala los resultados de un clasificador basado en bolsas de palabras. Cuando usamos las features de los dos modelos, el resultado de la clasificación mejora en más de 13 puntos porcentuales con respecto a los modelos originales lo que demuestra que ambos clasificadores aportan informaciones complementarias. También hemos aplicado la misma filosofía a la tarea de recopilación del corpus con el que hemos trabajado, usando una técnica de recuperación dinámica basada en relaciones entre entidades Twitter que nos ha permitido construir una colección de tweets más representativa.	es
dc.description.abstract	In this paper we show how it is possible to extract useful knowledge from Twitter structured information that can improve the results of a NLP task. Tweets are short and low quality and this makes it di cult to apply classical NLP techniques to this kind of texts. However, Twitter o ers more than 140 characters in their messages to work with. In Twitter ecosystem there are many objects (tweets, hashtags, users, words, ...) and relationships between them (co-occurrence, mentions, re-tweets, ...) that allow us to experiment with alternative processing techniques. In this paper we have worked with a tweet classi cation task. If we only use knowledge extracted from the relationship Follow we achieve similar results to those of a classi er based on bags of words. When we combine the knowledge from both sources we improve the results in more than 13 percentual points with respect to the original models. This shows that structured information is not only a good source of knowledge but is also complementary to the content of the messages. We also have applied the same philosophy to the task of collecting the corpus for our classi cation task. In this case we have use a dynamic retrieval technique based on relationships between Twitter entities that allows us to build a collection of more representative tweets.	es
dc.description.sponsorship	Ministerio de Economía y Competitividad TIN2012-38536-C03-02	es
dc.format	application/pdf	es
dc.format.extent	8	es
dc.language.iso	spa	es
dc.publisher	Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN)	es
dc.relation.ispartof	Procesamiento del lenguaje natural, 55, 75-82.
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Recuperación de tweets	es
dc.subject	Tweets retrieval	es
dc.subject	Clasificación de Tweets	es
dc.subject	Tweets categorization	es
dc.subject	Información estructurada y no estructurada	es
dc.subject	structured and unstructured information	es
dc.title	Explorando Twitter mediante la integración de información estructurada y no estructurada	es
dc.title.alternative	Exploring Twitter by Combining Structured and Unstructured Information	es
dc.type	info:eu-repo/semantics/article	es
dcterms.identifier	https://ror.org/03yxnpp24
dc.type.version	info:eu-repo/semantics/publishedVersion	es
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es
dc.contributor.affiliation	Universidad de Sevilla. Departamento de Lenguajes y Sistemas Informáticos	es
dc.relation.projectID	TIN2012-38536-C03-02	es
dc.relation.publisherversion	http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5218	es
dc.journaltitle	Procesamiento del lenguaje natural	es
dc.publication.volumen	55	es
dc.publication.initialPage	75	es
dc.publication.endPage	82	es
dc.identifier.sisius	20947069	es
dc.contributor.funder	Ministerio de Economía y Competitividad (MINECO). España	es

Ficheros	Tamaño	Formato	Ver	Descripción
Explorando Twitter.pdf	1.085Mb	[PDF]	Ver/Abrir

Este registro aparece en las siguientes colecciones

Artículos (Lenguajes y Sistemas Informáticos)

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como: Attribution-NonCommercial-NoDerivatives 4.0 Internacional