Opened Access Técnicas estadísticas en minería de textos
Estadísticas
Icon
Exportar a
Autor: Valero Moreno, Ana Isabel
Director: Pino Mejías, José Luis
Departamento: Universidad de Sevilla. Departamento de Estadística e Investigación Operativa
Fecha: 2017-06
Tipo de documento: Trabajo Fin de Grado
Titulación: Universidad de Sevilla. Grado en Matemáticas
Resumen: Este trabajo presenta un análisis de distintas técnicas estadísticas existentes para la minería de textos, como son el Modelo de Espacio Vectorial Semántico, el Análisis de Semántica Latente y la Asignación de Dirichlet Latente. Se explican técnicas relacionadas con el análisis de datos no estructurados como la minería de datos, el análisis de sentimientos, la extracción de información, la clasificación de documentos y la creación de resúmenes. Así como las etapas que hay que seguir para su realización y algunas áreas en las que se usa. Se añade también, una lista de software que permite estudiar datos en forma de texto. Finalmente, se desarrollan dos casos prácticos, donde se aplican algunos de los modelos introducidos a datos reales. El primero es una pequeña aplicación usando el Análisis semántico latente para ver a qué documentos pertenece una consulta. El segundo, se trata de una aplicación real de análisis de sentimientos para conocer las opiniones que tienen los usuarios sobre...
[Ver más]
This paper presents an analysis of different statistical techniques for the text mining, like Semantic Vector Space Model, Latent Semantic Analysis and Latent Dirichlet Allocation. Techniques related to the analysis of unstructured data such as data mining, sentiment analysis, feature extraction, clustering and creation of abstracts are explained. As well as the stages that must be followed for its realization and some areas in which it is used. It is also added, a list of software that allow to study text data. Finally, two practical cases are developed, where some of the introduced models are applied to real data. The first is a small application using Latent Semantic Analysis to see which documents a query belongs to. The second is a real application of sentiment analysis to know the opinions that users have about a product through their reviews. The analysis of both is carried out by the statistical computer application R.
Tamaño: 724.8Kb
Formato: PDF

URI: http://hdl.handle.net/11441/63197

Mostrar el registro completo del ítem


Esta obra está bajo una Licencia Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 Internacional

Este registro aparece en las siguientes colecciones