PhD Thesis
Enterprise Information Integration: New Approaches to Web Information Extraction
Author/s | Jiménez Aguirre, Patricia
![]() ![]() ![]() ![]() ![]() ![]() ![]() |
Director | Corchuelo Gil, Rafael
![]() ![]() ![]() ![]() ![]() ![]() ![]() |
Department | Universidad de Sevilla. Departamento de Lenguajes y Sistemas Informáticos |
Date | 2015-10-19 |
Abstract | La manera de entender la información ha cambiado radicalmente en las últimas décadas gracias a la Web, que impulsa a las personas a hacer uso de Internet a un ritmo cada vez más vertiginoso. No es de extrañar, pues, que ... La manera de entender la información ha cambiado radicalmente en las últimas décadas gracias a la Web, que impulsa a las personas a hacer uso de Internet a un ritmo cada vez más vertiginoso. No es de extrañar, pues, que se haya convertido en uno de los canales de distribución de datos más usados y universalmente accesible. Sin embargo, los datos por sí solos no tienen suficiente valor; es necesario convertirlos en información a partir de la cual se pueda inferir conocimiento útil. Éste es el propósito de la inteligencia de negocio, que involucra un proceso de integración y transformación de datos en información y posterior obtención de conocimiento con el objetivo de llevar a cabo una toma de decisiones eficaz. Para que ese proceso de integración y transformación de datos tenga lugar, es necesario hacer uso de extractores de información, que son las herramientas que permiten extraer datos de la Web y dotarlos de estructura y semántica de modo que puedan ser interpretados por las personas o incorporados en procesos de negocios automáticos con el objetivo de explotarlos de una forma inteligente. En esta tesis nos centramos en el aprendizaje de reglas para extraer información de documentos web semi-estructurados y en cómo evaluar diferentes propuestas con el objetivo de obtener un ranking de una forma totalmente automática. Nuestras dos propuestas de extracción de información son TANGO y ROLLER; ambas están basadas en un catálogo abierto de características y en técnicas inductivas. Nuestra propuesta para obtener rankings se llama VENICE; proporciona un método automático, abierto y agnóstico que está basado en técnicas estadísticas. Esperamos que nuestras contribuciones en esta tesis puedan ser de utilidad tanto a investigadores como profesionales y que ayuden a reducir los costes en los proyectos que requieren extraer información de la Web. |
Citation | Jiménez Aguirre, P. (2015). Enterprise Information Integration: New Approaches to Web Information Extraction. (Tesis doctoral inédita). Universidad de Sevilla, Sevilla. |
Files | Size | Format | View | Description |
---|---|---|---|---|
Memoria Tesis - Patricia Jiménez ... | 2.921Mb | ![]() | View/ | |
This item appears in the following collection(s)
Except where otherwise noted, this item's license is described as: Atribución-NoComercial-SinDerivadas 4.0 España
Related items
Showing items related by title, author, creator and subject.
-
Chapter of Book
NLC: A Measure Based on Projections
Ruiz Sánchez, Roberto; Riquelme Santos, José Cristóbal; Aguilar Ruiz, Jesús Salvador (2003)In this paper, we propose a new feature selection criterion. It is based on the projections of data set elements onto each ...
-
Chapter of Book
Electricity Market Price Forecasting: Neural Networks versus Weighted-Distance k Nearest Neighbours
Troncoso Lora, Alicia; Riquelme Santos, José Cristóbal; Riquelme Santos, Jesús Manuel; Martínez Ramos, José Luis; Gómez Expósito, Antonio (2002)In today’s deregulated markets, forecasting energy prices is becoming more and more important. In the short term, expected ...