Heurísticas de selección de atributos para datos de gran dimensionalidad

Ruiz Sánchez, Roberto

Tesis Doctoral

dc.contributor.advisor	Riquelme Santos, José Cristóbal	es
dc.contributor.advisor	Aguilar Ruiz, Jesús Salvador	es
dc.creator	Ruiz Sánchez, Roberto	es
dc.date.accessioned	2014-11-27T12:07:32Z
dc.date.available	2014-11-27T12:07:32Z
dc.date.issued	2006	es
dc.identifier.citation	Ruiz Sánchez, R. (2006). Heurísticas de selección de atributos para datos de gran dimensionalidad. (Tesis Doctoral Inédita). Universidad de Sevilla, Sevilla.
dc.identifier.uri	http://hdl.handle.net/11441/15876
dc.description.abstract	Esta tesis doctoral se enmarca en el campo del aprendizaje automático y aborda uno de sus principales problemas, como es el identificar un conjunto representativo de atributos para construir un modelo de clasificación. El objetivo de este trabajo es proponer algoritmos de selección de atributos que sean capaces de actuar sobre bases de datos de muy alta dimensión, es decir, a partir de miles de atributos. Existen en la literatura múltiples propuestas para el problema conocido como feature selection. Sin embargo, la búsqueda de subconjuntos óptimos de atributos para la clasificación de conjuntos de datos presenta el inconveniente de su complejidad temporal. Por ello, la utilización del clasificador final como medida para evaluar la bondad del subconjunto de atributos seleccionado (conocida como evaluación wrapper) está limitada por el tamaño de la base de datos. En las propuestas BIRS (Best Incremental Ranked Subset) y BARS (Best Agglomerative Ranked Subset), desarrolladas en este documento, se realiza una búsqueda guiada en el espacio de soluciones a partir de una ordenación inicial de los atributos. De esta manera, aunque evidentemente la búsqueda no es exhaustiva, reducimos lo suficiente este dominio para permitir una búsqueda eficiente y, por las pruebas realizadas, eficaz. Para la ordenación inicial, dada la elevada dimensión del destino final de estos algoritmos, se presenta el criterio de evaluación SOAP (Selection Of Attributes by Projections), un nuevo método más rápido que utiliza el número de cambios de etiqueta (o NLC-Number of Label Changes) como medida para la evaluación individual de atributos, calculada analizando las proyecciones de los elementos del conjunto de datos sobre cada dimensión o atributo. Un campo de aplicación de este tipo de algoritmos es la bioinformática, y más concretamente el análisis de la información presente en los conjuntos de datos de expresión genética procedentes de experimentos con microarrays. Como es conocido, cualquier ser vivo dispone de miles de genes y existe una evidente relación entre la información genética de un individuo y ciertas enfermedades. Sin embargo, establecer cuáles son los genes concretos que determinan la diferencia entre distintos individuos es una tarea que necesita unos algoritmos eficientes. Se presenta un exhaustivo conjunto de pruebas sobre datos reales que muestran la capacidad de las técnicas propuestas para determinar un conjunto mínimo de atributos con un poder clasificatorio incluso superior a los datos originales. Este computo es realizado con un coste en tiempo menor que el de propuestas recientes, lo que permite su aplicación a datos de enorme dimensión como son los provinientes de microarrays.	es
dc.format	application/pdf	es
dc.language.iso	spa	es
dc.rights	Atribución-NoComercial-SinDerivadas 4.0 España
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Aprendizaje automático	es
dc.subject	Algoritmos	es
dc.subject	Informática	es
dc.title	Heurísticas de selección de atributos para datos de gran dimensionalidad	es
dc.type	info:eu-repo/semantics/doctoralThesis	es
dcterms.identifier	https://ror.org/03yxnpp24
dc.rights.accessRights	info:eu-repo/semantics/openAccess
dc.contributor.affiliation	Universidad de Sevilla. Departamento de Lenguajes y Sistemas Informáticos	es
idus.format.extent	199 p.	es
dc.identifier.idus	https://idus.us.es/xmlui/handle/11441/15876

Ficheros	Tamaño	Formato	Ver	Descripción
Original_O_TESIS-41.pdf	1.947Mb	[PDF]	Ver/Abrir

Este registro aparece en las siguientes colecciones

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como: Atribución-NoComercial-SinDerivadas 4.0 España