Resumen | En el contexto de los medios de comunicación, las noticias falsas (también conocidas como fake
news), son un tipo de noticia diseñada y emitida con la intención deliberada de engañar, inducir
a error, manipular decisiones ...
En el contexto de los medios de comunicación, las noticias falsas (también conocidas como fake
news), son un tipo de noticia diseñada y emitida con la intención deliberada de engañar, inducir
a error, manipular decisiones personales o desprestigiar a una determinada entidad o persona.
Al presentar hechos falsos como si fuesen reales, estas noticias constituyen una gran amenaza
para la credibilidad de los medios serios y los periodistas profesionales.
El objetivo de este proyecto es desarrollar un sistema de detección de fake news aplicando
diversos métodos de clasificación y realizando un estudio comparativo entre ellos, para así
determinar cuál es el más apropiado para resolver el problema, indicando siempre las ventajas
e inconvenientes de cada uno.
El método empleado para alcanzar el objetivo del proyecto ha consistido en aplicar un total de
nueve modelos que emplean las últimos avances en el campo del procesamiento del lenguaje
natural y las redes neuronales. Para realizar la clasificación, estas redes han sido entrenadas
utilizando el TI-CNN dataset [1], creado por un equipo de investigadores compuesto por
miembros de las universidades de Pekín (Beihang University), Chicago (University of Illinois) y
Florida (Florida State University), y que ya ha sido empleado en varias publicaciones científicas.
Además de aplicar modelos neuronales avanzados, también se emplearán otros métodos más
simples que permitirán obtener una mayor comprensión del conjunto de datos y realizar una
comparación con los resultados devueltos con respecto a las redes más complejas, cumpliendo
la función de baseline.
Para la implementación de estos algoritmos se han utilizado algunas de las librerías más
extendidas en el campo del Machine Learning, como TensorFlow, scikit-learn, nltk, numpy y
pandas, entre otras.
Como resultado de este proyecto, se ha logrado obtener un F1-Score del 96,66%, tras realizar la
optimización de los hiperparámetros de la red y preprocesar los datos. Estos resultados superan
a los de la publicación original, que obtuvo un F1-Score del 92,1%. La aplicación de métodos más
simples, además de cumplir la función de baseline, ha servido para detectar sesgos y limitaciones
en el conjunto de datos que explican hasta cierto punto los buenos resultados obtenidos por la
publicación original.
Como conclusión, se han cumplido todos los objetivos del proyecto con éxito, además de
mejorar los resultados de la publicación original. El empleo de la metodología Scrum para llevar
a cabo el proyecto ha sido un factor determinante para la finalización de este dentro de los
plazos acordados y ha permitido organizar las tareas a realizar en sprints. Gracias a la realización
del proyecto, se han adquirido conocimientos de análisis de datos, Machine Learning, Deep
Learning y procesamiento del lenguaje natural que son muy demandados en la actualidad y
pueden aplicarse para resolver una gran cantidad de problemas. También se ha obtenido
experiencia práctica en labores de investigación, ya que para la consecución del proyecto ha sido
necesario leer y analizar una gran cantidad de artículos científicos.
|