Trabajo Fin de Máster
Implementación de asignación jerárquica latente de Dirichlet para modelado de temas
Autor/es | Silvestre Gómez, María |
Director | Murillo Fuentes, Juan José |
Departamento | Universidad de Sevilla. Departamento de Teoría de la Señal y Comunicaciones |
Fecha de publicación | 2018 |
Fecha de depósito | 2018-05-09 |
Titulación | Universidad de Sevilla. Máster Universitario en Ingeniería de Caminos, Canales y Puertos |
Resumen | Desde hace unos años, las técnicas de aprendizaje automático han ido evolucionando hasta alcanzar una gran
importancia en la vida diaria. En la era de la tecnología en la que se generan gran cantidad de datos
constantemente, ... Desde hace unos años, las técnicas de aprendizaje automático han ido evolucionando hasta alcanzar una gran importancia en la vida diaria. En la era de la tecnología en la que se generan gran cantidad de datos constantemente, se hace necesario el uso de técnicas automáticas que permitan el procesado de dichos datos y la extracción de la información para elaborar conclusiones. Por ejemplo, la información que se puede extraer de las redes sociales resulta de gran interés para las campañas de marketing, facilitando el acceso a un gran público y focalizando dichas campañas al sector que pueda estar interesado en ellas. Un campo de actuación del aprendizaje automático es la minería de datos que se encarga de extraer y procesar información de un conjunto de textos: libros, reseñas, artículos, tweets, … y dentro de la minería de datos, se encuentran las técnicas de topic modeling, que se encargan de obtener los temas presentes es los textos. Hay un gran número de algoritmos que se encargan de resolver este problema atendiendo a diversas fuentes de información. Este proyecto se centrará la investigación de las técnicas empleadas en la resolución de problemas de topic modeling presentes en el estado del arte y en la elección y desarrollo de una de éstas, HLDA, que elabora un árbol jerárquico de temas y cada documento seguirá una de las ramas de este árbol y los temas de los que trata se corresponderán con cada uno de los nodos de dicha rama. Dicho algoritmo empleará modelos complejos como son el proceso de restaurante chino anidado (nCRP), la distribución de Dirichlet y el muestreador de Gibbs, cuyos fundamentos se detallarán. Finalmente, se validará el algoritmo implementado haciendo uso de dos bases de datos: NIPS y CORA. |
Cita | Silvestre Gómez, M. (2018). Implementación de asignación jerárquica latente de Dirichlet para modelado de temas. (Trabajo Fin de Máster Inédito). Universidad de Sevilla, Sevilla. |
Ficheros | Tamaño | Formato | Ver | Descripción |
---|---|---|---|---|
MARÍA SILVESTRE GÓMEZ.pdf | 17.07Mb | [PDF] | Ver/ | |