Datos de Investigación (Periodismo II)
URI permanente para esta colecciónhttps://hdl.handle.net/11441/150654
Examinar
Envíos recientes
Dataset Redefining Hallin and Mancini’s Media System: Cross-Border Investigative Networks in Europe [Dataset](2024-02-14) Romero-Domínguez, Lorena R.; Universidad de Sevilla. Departamento de Periodismo II; Romero-Domínguez, Lorena R.; Sánchez-Arnau, Claudia; Universidad de Sevilla. SEJ528: Medios, Políticas de Comunicación y Democracia en la Unión Europea (DEMOC-MEDIA)En este trabajo se han analizado un total de 1015 documentos relativos a los resúmenes de las conferencias celebradas por Dataharvest (the European Investigative Journalism Conference) durante el período 2014-2023. Para el análisis se ha utilizado Python con los paquetes pandas, spacy, sklearn, sentences_transformers y matplotlib, además de algunos otros paquetes auxiliares y R con el paquete ggplot2 para las representaciones. Las técnicas empleadas a lo largo del análisis han sido: • Análisis frecuentista de textos, que permite hacer el conteo de aparición en documentos de tamaño variable. Se consideran diferentes términos gramaticalmente relacionados y sinónimos, habiéndose eliminado las stopwords. Se han utilizado distintas matrices de frecuencias: BoW (Bag of Words) con los conteos por palabra sin ninguna transformación, y TF-IDF utilizando una reducción logarítmica de la frecuencia para resaltar palabras que pueden ser menos comunes, pero aun así relevantes. También se han utilizado n-gramas para detectar apariciones adyacentes de términos. • Análisis de asociaciones entre términos: se trata de detectar apariciones conjuntas de términos en documento, sin necesidad de que las palabras aparezcan de forma consecutiva en el texto. Se ha utilizado un índice de coincidencia para ordenar la relevancia de las parejas de términos según sus apariciones en documentos. • Análisis de agrupamiento: se ha utilizado transformers (redes neuronales) aplicadas a vectores de documentos con sBERT. Con los resultados obtenidos se ha realizado un agrupamiento utilizando el método métrico k-means. Este método establece, a partir de un número determinado de centros propuesto por el analista (con el apoyo de método elbow curve), el mismo número de grupos de documentos de forma que se minimiza la distancia cuadrática entre los vectores de documento y cada uno de los centros. Entre todas las posibles opciones, el resultado es el que sitúa esos centros y establece una partición de todos los documentos asociando cada uno de ellos a un centro de forma que se minimiza el error cuadrático medio.