Mostrar el registro sencillo del ítem

Tesis Doctoral

dc.contributor.advisorCorchuelo Gil, Rafaeles
dc.contributor.advisorRuiz Cortés, Davides
dc.creatorHernández Salmerón, Inmaculada Concepciónes
dc.date.accessioned2016-11-23T08:11:45Z
dc.date.available2016-11-23T08:11:45Z
dc.date.issued2012-12-17
dc.identifier.citationHernández Salmerón, I.C. (2012). Enterprise information integration. An unsupervised proposal for web page classification. (Tesis doctoral inédita). Universidad de Sevilla, Sevilla.
dc.identifier.urihttp://hdl.handle.net/11441/49024
dc.description.abstractLa integración de aplicaciones web dentro de procesos automatizados de negocio requiere el diseño de wrappers que permitan ejecutar las consultas de un usuario usando los formularios de búsqueda que ofrece cada aplicación. Dichos wrappers se basan, entre otros componentes, en navegadores automáticos que se encargan de enviar los formularios de búsqueda rellenados previamente y navegar hacia las páginas que contienen la información necesaria para responder las consultas del usuario; posteriormente la información se extrae de dichas páginas mediante un extractor de información. Los navegadores hacen uso de clasificadores de páginas web que les permiten distinguir las páginas que son relevantes de las que no. En esta tesis, tratamos el problema de cómo diseñar un clasificador de páginas web no supervisado que utilice únicamente la información proporcionada por la URL de las páginas y que no requiere un crawling extensivo del sitio analizado. En la bibliografía, existen muchas propuestas de clasificación de páginas web, pero presentan diversos inconvenientes, concretamente: requieren realizar un crawling previo exhaustivo del sitio web, que es costoso e incluso inviable en algunos casos, son supervisados, lo que exige al usuario que proporcione información de entrenamiento, o usan características de dentro de las páginas para clasificarlas, lo que obliga a descargarlas previamente. Nuestra contribución es CALA, una nueva propuesta automática de generación de clasificadores de páginas web basados en la URL. CALA genera un conjunto de patrones de URL, que representan las distintas clases de páginas ofrecidas por un sitio web, de forma que una página puede ser clasificada comparando su URL con los patrones y encontrando aquél con el que coincide. Las principales características de CALA son que no tiene ninguno de los inconvenientes anteriores, que es computacionalmente tratable y que ha sido validada mediante experimentos sobre algunos de los sitios web reales más visitados. Nuestra validación sugiere que CALA es muy eficiente y efectiva en la práctica.es
dc.formatapplication/pdfes
dc.language.isospaes
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internacional*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectInformáticaes
dc.subjectDiseño y componentes de sistemas de informaciónes
dc.subjectSoftwarees
dc.subjectInteligencia artificiales
dc.titleEnterprise information integration. An unsupervised proposal for web page classificationes
dc.typeinfo:eu-repo/semantics/doctoralThesises
dc.type.versioninfo:eu-repo/semantics/publishedVersiones
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses
dc.contributor.affiliationUniversidad de Sevilla. Departamento de Lenguajes y Sistemas Informáticoses
dc.contributor.groupUniversidad de Sevilla. TIC134: Sistemas Informaticoses
idus.format.extent142 p.es
dc.identifier.idushttps://idus.us.es/xmlui/handle/11441/49024

FicherosTamañoFormatoVerDescripción
O_Tesis-PROV38.pdf3.468MbIcon   [PDF] Ver/Abrir  

Este registro aparece en las siguientes colecciones

Mostrar el registro sencillo del ítem

Attribution-NonCommercial-NoDerivatives 4.0 Internacional
Excepto si se señala otra cosa, la licencia del ítem se describe como: Attribution-NonCommercial-NoDerivatives 4.0 Internacional