Enterprise Data Integration: On Extracting Data from HTML Tables

Roldán Salvador, Juan Carlos

Tesis Doctoral

dc.contributor.advisor	Corchuelo Gil, Rafael	es
dc.contributor.advisor	Jiménez Aguirre, Patricia	es
dc.creator	Roldán Salvador, Juan Carlos	es
dc.date.accessioned	2021-02-26T08:51:13Z
dc.date.available	2021-02-26T08:51:13Z
dc.date.issued	2020-12-22
dc.identifier.citation	Roldán Salvador, J.C. (2020). Enterprise Data Integration: On Extracting Data from HTML Tables. (Tesis Doctoral Inédita). Universidad de Sevilla, Sevilla.
dc.identifier.uri	https://hdl.handle.net/11441/105486
dc.description.abstract	The Web is a universal communication channel that provides a vast amount of valuable data about a plethora of topics. In recent years, there has been a quick rise of data-hungry products and services that have motivated the need for ways to extract web to feed them with as little effort as possible. HTML tables are a source of up-to-date data that is not being extracted and loaded into major knowledge bases in an automated manner. Extracting them is challenging because there are several common layouts in which data are displayed and they present several encoding and formatting problems; furthermore, the available general-purpose data extractors ignore the particularities of HTML table encodings and do not suffice to deal with the intricacies of web tables. In this dissertation, we have studied the problem of extracting data from HTML tables with no supervision. After completing an extensive review of the literature, we realised that none of the available table-specific proposals provided a holistic approach to solve this problem. This motivated us to work on TOMATE, a table extraction proposal that encompasses every table extraction task with an emphasis in the crucial task of identifying cell functions. Our experimental analysis proved that we have advanced the state of the art with several proposals that are intended to help both researchers and practitioners. While working on this dissertation, we have developed a number of marginal contributions, namely: Aquila, a proposal to synthesise meta-data tags for HTML documents; Kizomba, a general extraction proposal that was called; and Romulo, a proposal to cluster data. Furthermore, we have collaborated on the inception of a start-up project called Stargazr where we hope to put much of the knowledge generated in this dissertation into practice.	es
dc.description.abstract	La Web es una vía universal de comunicación que contiene un volumen de datos extraordinario sobre una gran variedad de temas. En los últimos años se ha producido un rápido aumento de los productos y servicios que consumen gran cantidad de datos, lo que ha motivado la necesidad de encontrar formas de extraerlos automáticamente. Las tablas HTML son una fuente de datos actualizados que no se está integrando de forma automatizada a las principales bases de conocimiento. La extracción de tablas resulta compleja ya que existe una gran variedad de estructuras y formas de presentar y codificar los datos. Usar extractores de propósito general no es una solución al problema, dado que ignoran las particularidades del rico lenguaje que se usa para representar tablas. En esta tesis hemos estudiado el problema de extraer datos de tablas HTML sin supervisión. Al realizar un análisis exhaustivo de la literatura de extracción de tablas, hemos observado que ninguna de las propuestas disponibles resuelve el problema al completo. Esto nos ha motivado a desarrollar TOMATE, una propuesta de extracción de tablas que abarca todas las tareas involucradas, aunque pone el énfasis en la tarea crucial de identificar la función de las celdas. Nuestro análisis experimental ha demostrado que hemos dado un paso adelante en el estado del arte con varias propuestas que tienen por objeto ayudar a investigadores y profesionales del sector. Durante el desarrollo de esta tesis, hemos producido algunas contribuciones marginales, a saber: Aquila, una propuesta para sintetizar etiquetas de metadatos para ficheros HTML; Kizomba, un extractor general de datos de la Web; y Rómulo, una propuesta para clusterizar datos. Además, hemos colaborado internacionalmente en un proyecto start-up denominado Stargazr en el que tenemos como objetivo poner en práctica gran parte del conocimiento que hemos generado en esta tesis.	es
dc.format	application/pdf	es
dc.format.extent	145 p.	es
dc.language.iso	eng	es
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.title	Enterprise Data Integration: On Extracting Data from HTML Tables	es
dc.type	info:eu-repo/semantics/doctoralThesis	es
dcterms.identifier	https://ror.org/03yxnpp24
dc.type.version	info:eu-repo/semantics/publishedVersion	es
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es
dc.contributor.affiliation	Universidad de Sevilla. Departamento de Lenguajes y Sistemas Informáticos	es
dc.publication.endPage	122	es

Ficheros	Tamaño	Formato	Ver	Descripción
Roldán Salvador, Carlos tesis.pdf	2.073Mb	[PDF]	Ver/Abrir

Este registro aparece en las siguientes colecciones

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como: Attribution-NonCommercial-NoDerivatives 4.0 Internacional