A clustering approach to extract data from HTML tables

Autor/es	Jiménez Aguirre, Patricia Roldán Salvador, Juan Carlos Corchuelo Gil, Rafael
Departamento	Universidad de Sevilla. Departamento de Lenguajes y Sistemas Informáticos
Fecha de publicación	2021
Fecha de depósito	2022-04-07
Publicado en	Information Processing and Management, 58 (6, art.nº102683)
Resumen	HTML tables have become pervasive on the Web. Extracting their data automatically is difficult because finding the relationships between their cells is not trivial due to the many different layouts, encodings, and formats ...
Agencias financiadoras	Ministerio de Ciencia e Innovación (MICIN). España Ministerio de Economía y Competitividad (MINECO). España Junta de Andalucía
Identificador del proyecto	PID2020-112540RB-C44 TIN2016-75394-R P18-RT-1060
Cita	Jiménez Aguirre, P., Roldán Salvador, J.C. y Corchuelo Gil, R. (2021). A clustering approach to extract data from HTML tables. Information Processing and Management, 58 (6, art.nº102683)