Por motivos de mantenimiento se ha deshabilitado el inicio de sesión temporalmente. Rogamos disculpen las molestias.
Ponencia
Detecciòn de Spam en la Web mediante el análisis de texto y de grafos
Autor/es | Ortega Rodríguez, Francisco Javier
Troyano Jiménez, José Antonio Cruz Mata, Fermín Enríquez de Salamanca Ros, Fernando |
Departamento | Universidad de Sevilla. Departamento de Lenguajes y Sistemas Informáticos |
Fecha de publicación | 2011 |
Fecha de depósito | 2022-03-10 |
Publicado en |
|
Resumen | El spam en la web representa un grave problema para los
sistemas de Recuperación de Información, debido al perjuicio que puede
ocasionar en la calidad de los resultados de los mismos. En este trabajo
se presenta un ... El spam en la web representa un grave problema para los sistemas de Recuperación de Información, debido al perjuicio que puede ocasionar en la calidad de los resultados de los mismos. En este trabajo se presenta un sistema de detección de spam en la web basado en un algoritmo de ranking que ordena las páginas web de acuerdo a su reevancia, penalizando aquellas páginas susceptibles de ser consideradas spam. La novedad de este sistema reside en conjugar técnicas de procesamiento de textos con técnicas de análisis de grafos. Las técnicas de procesamiento de textos se utilizan para asignar a determinadas páginas una puntuación a priori, de acuerdo a la probabilidad de que sean spam o no, según su contenido. Nuestro algoritmo de ranking procesará el grafo de las páginas web y las puntuaciones a priori para obtener el ranking de webs. En los experimentos se comprueba que nuestro sistema mejora los resultados de otras técnicas muy utilizadas. |
Cita | Ortega Rodríguez, F.J., Troyano Jiménez, J.A., Cruz Mata, F. y Enríquez de Salamanca Ros, F. (2011). Detecciòn de Spam en la Web mediante el análisis de texto y de grafos. En TIMM 2011: IV Jornadas de Tratamiento de Información Multilingüe y Multimodal (13-16), Torres, Jaén, España: Escuela Politécnica Superior, Universidad de Jaén. |
Ficheros | Tamaño | Formato | Ver | Descripción |
---|---|---|---|---|
timm2011_submission_5.pdf | 214.2Kb | [PDF] | Ver/ | |