Dataset
Redefining Hallin and Mancini’s Media System: Cross-Border Investigative Networks in Europe [Dataset]
Autor/es | Romero-Domínguez, Lorena R. |
Gestor de datos | Romero-Domínguez, Lorena R.
Sánchez-Arnau, Claudia |
Departamento | Universidad de Sevilla. Departamento de Periodismo II |
Idioma (ISO) | español (spa) , inglés (eng) |
Fecha de difusión | 2024-02-14 |
Fecha de depósito | 2024-02-14 |
Fecha de creación | 2023-08-17 |
Resumen | En este trabajo se han analizado un total de 1015 documentos relativos a los resúmenes de las conferencias celebradas por Dataharvest (the European Investigative Journalism Conference) durante el período 2014-2023. Para ... En este trabajo se han analizado un total de 1015 documentos relativos a los resúmenes de las conferencias celebradas por Dataharvest (the European Investigative Journalism Conference) durante el período 2014-2023. Para el análisis se ha utilizado Python con los paquetes pandas, spacy, sklearn, sentences_transformers y matplotlib, además de algunos otros paquetes auxiliares y R con el paquete ggplot2 para las representaciones. Las técnicas empleadas a lo largo del análisis han sido: • Análisis frecuentista de textos, que permite hacer el conteo de aparición en documentos de tamaño variable. Se consideran diferentes términos gramaticalmente relacionados y sinónimos, habiéndose eliminado las stopwords. Se han utilizado distintas matrices de frecuencias: BoW (Bag of Words) con los conteos por palabra sin ninguna transformación, y TF-IDF utilizando una reducción logarítmica de la frecuencia para resaltar palabras que pueden ser menos comunes, pero aun así relevantes. También se han utilizado n-gramas para detectar apariciones adyacentes de términos. • Análisis de asociaciones entre términos: se trata de detectar apariciones conjuntas de términos en documento, sin necesidad de que las palabras aparezcan de forma consecutiva en el texto. Se ha utilizado un índice de coincidencia para ordenar la relevancia de las parejas de términos según sus apariciones en documentos. • Análisis de agrupamiento: se ha utilizado transformers (redes neuronales) aplicadas a vectores de documentos con sBERT. Con los resultados obtenidos se ha realizado un agrupamiento utilizando el método métrico k-means. Este método establece, a partir de un número determinado de centros propuesto por el analista (con el apoyo de método elbow curve), el mismo número de grupos de documentos de forma que se minimiza la distancia cuadrática entre los vectores de documento y cada uno de los centros. Entre todas las posibles opciones, el resultado es el que sitúa esos centros y establece una partición de todos los documentos asociando cada uno de ellos a un centro de forma que se minimiza el error cuadrático medio. |
Contenido | Análisis por años (BoW y TF-IDF)
Análisis por secciones (BoW y TF-IDF)
Clustering
Kmeans_frecuencia Cluster 0
Kmeans_frecuencia Cluster 1
Kmeans_frecuencia Cluster 2
Kmeans_frecuencia Cluster 3
Pertenencia Clusters ... Análisis por años (BoW y TF-IDF) Análisis por secciones (BoW y TF-IDF) Clustering Kmeans_frecuencia Cluster 0 Kmeans_frecuencia Cluster 1 Kmeans_frecuencia Cluster 2 Kmeans_frecuencia Cluster 3 Pertenencia Clusters Kmeans N-gramas Frecuencia bigramas Frecuencia trigramas Asociaciones de palabras Frecuencia Total |
Tipo de dataset | Bases de datos |
Cita | Romero-Domínguez, L.R. (2024). Redefining Hallin and Mancini’s Media System: Cross-Border Investigative Networks in Europe [Dataset]. idUS (Depósito de Investigación de la Universidad de Sevilla). https://doi.org/10.12795/11441/155231. |
Ficheros | Tamaño | Formato | Ver | Descripción |
---|---|---|---|---|
BoW_years.xlsx | 344.6Kb | [Microsoft Excel 2007] | Ver/ | |
TFIDF_years.xlsx | 371.9Kb | [Microsoft Excel 2007] | Ver/ | |
BoW_secciones.xlsx | 1.171Mb | [Microsoft Excel 2007] | Ver/ | |
TFIDF_secciones.xlsx | 371.9Kb | [Microsoft Excel 2007] | Ver/ | |
kmeans_frecuencias_cluster_0.xlsx | 71.15Kb | [Microsoft Excel 2007] | Ver/ | |
kmeans_frecuencias_cluster_1.xlsx | 32.64Kb | [Microsoft Excel 2007] | Ver/ | |
kmeans_frecuencias_cluster_2.xlsx | 59.87Kb | [Microsoft Excel 2007] | Ver/ | |
kmeans_frecuencias_cluster_3.xlsx | 48.97Kb | [Microsoft Excel 2007] | Ver/ | |
pertenencia_clusters_kmeans.xlsx | 14.75Kb | [Microsoft Excel 2007] | Ver/ | |
frecuencia_bigramas.xlsx | 662.9Kb | [Microsoft Excel 2007] | Ver/ | |
frecuencia_trigramas.xlsx | 883.4Kb | [Microsoft Excel 2007] | Ver/ | |
asociaciones_palabras.xlsx | 215.3Kb | [Microsoft Excel 2007] | Ver/ | |
frecuencia_total.xlsx | 145.5Kb | [Microsoft Excel 2007] | Ver/ | |