Trabajo Fin de Grado
Técnicas estadísticas en minería de textos
Autor/es | Valero Moreno, Ana Isabel |
Director | Pino Mejías, José Luis |
Departamento | Universidad de Sevilla. Departamento de Estadística e Investigación Operativa |
Fecha de publicación | 2017-06 |
Fecha de depósito | 2017-07-26 |
Titulación | Universidad de Sevilla. Grado en Matemáticas |
Resumen | Este trabajo presenta un análisis de distintas técnicas estadísticas existentes para la minería de textos, como son el Modelo de Espacio Vectorial Semántico, el Análisis de Semántica Latente y la Asignación de Dirichlet ... Este trabajo presenta un análisis de distintas técnicas estadísticas existentes para la minería de textos, como son el Modelo de Espacio Vectorial Semántico, el Análisis de Semántica Latente y la Asignación de Dirichlet Latente. Se explican técnicas relacionadas con el análisis de datos no estructurados como la minería de datos, el análisis de sentimientos, la extracción de información, la clasificación de documentos y la creación de resúmenes. Así como las etapas que hay que seguir para su realización y algunas áreas en las que se usa. Se añade también, una lista de software que permite estudiar datos en forma de texto. Finalmente, se desarrollan dos casos prácticos, donde se aplican algunos de los modelos introducidos a datos reales. El primero es una pequeña aplicación usando el Análisis semántico latente para ver a qué documentos pertenece una consulta. El segundo, se trata de una aplicación real de análisis de sentimientos para conocer las opiniones que tienen los usuarios sobre un producto a través sus comentarios. El análisis de ambos se lleva a cabo mediante la aplicación informática estadística R. This paper presents an analysis of different statistical techniques for the text mining, like Semantic Vector Space Model, Latent Semantic Analysis and Latent Dirichlet Allocation. Techniques related to the analysis of ... This paper presents an analysis of different statistical techniques for the text mining, like Semantic Vector Space Model, Latent Semantic Analysis and Latent Dirichlet Allocation. Techniques related to the analysis of unstructured data such as data mining, sentiment analysis, feature extraction, clustering and creation of abstracts are explained. As well as the stages that must be followed for its realization and some areas in which it is used. It is also added, a list of software that allow to study text data. Finally, two practical cases are developed, where some of the introduced models are applied to real data. The first is a small application using Latent Semantic Analysis to see which documents a query belongs to. The second is a real application of sentiment analysis to know the opinions that users have about a product through their reviews. The analysis of both is carried out by the statistical computer application R. |
Cita | Valero Moreno, A.I. (2017). Técnicas estadísticas en minería de textos. (Trabajo Fin de Grado Inédito). Universidad de Sevilla, Sevilla. |
Ficheros | Tamaño | Formato | Ver | Descripción |
---|---|---|---|---|
Valero Moreno Ana Isabel TFG.pdf | 724.8Kb | [PDF] | Ver/ | |