Mostrar el registro sencillo del ítem

Tesis Doctoral

dc.contributor.advisorRiquelme Santos, José Cristóbales
dc.contributor.advisorAguilar Ruiz, Jesús Salvadores
dc.creatorRuiz Sánchez, Robertoes
dc.date.accessioned2014-11-27T12:07:32Z
dc.date.available2014-11-27T12:07:32Z
dc.date.issued2006es
dc.identifier.citationRuiz Sánchez, R. (2006). Heurísticas de selección de atributos para datos de gran dimensionalidad. (Tesis Doctoral Inédita). Universidad de Sevilla, Sevilla.
dc.identifier.urihttp://hdl.handle.net/11441/15876
dc.description.abstractEsta tesis doctoral se enmarca en el campo del aprendizaje automático y aborda uno de sus principales problemas, como es el identificar un conjunto representativo de atributos para construir un modelo de clasificación. El objetivo de este trabajo es proponer algoritmos de selección de atributos que sean capaces de actuar sobre bases de datos de muy alta dimensión, es decir, a partir de miles de atributos. Existen en la literatura múltiples propuestas para el problema conocido como feature selection. Sin embargo, la búsqueda de subconjuntos óptimos de atributos para la clasificación de conjuntos de datos presenta el inconveniente de su complejidad temporal. Por ello, la utilización del clasificador final como medida para evaluar la bondad del subconjunto de atributos seleccionado (conocida como evaluación wrapper) está limitada por el tamaño de la base de datos. En las propuestas BIRS (Best Incremental Ranked Subset) y BARS (Best Agglomerative Ranked Subset), desarrolladas en este documento, se realiza una búsqueda guiada en el espacio de soluciones a partir de una ordenación inicial de los atributos. De esta manera, aunque evidentemente la búsqueda no es exhaustiva, reducimos lo suficiente este dominio para permitir una búsqueda eficiente y, por las pruebas realizadas, eficaz. Para la ordenación inicial, dada la elevada dimensión del destino final de estos algoritmos, se presenta el criterio de evaluación SOAP (Selection Of Attributes by Projections), un nuevo método más rápido que utiliza el número de cambios de etiqueta (o NLC-Number of Label Changes) como medida para la evaluación individual de atributos, calculada analizando las proyecciones de los elementos del conjunto de datos sobre cada dimensión o atributo. Un campo de aplicación de este tipo de algoritmos es la bioinformática, y más concretamente el análisis de la información presente en los conjuntos de datos de expresión genética procedentes de experimentos con microarrays. Como es conocido, cualquier ser vivo dispone de miles de genes y existe una evidente relación entre la información genética de un individuo y ciertas enfermedades. Sin embargo, establecer cuáles son los genes concretos que determinan la diferencia entre distintos individuos es una tarea que necesita unos algoritmos eficientes. Se presenta un exhaustivo conjunto de pruebas sobre datos reales que muestran la capacidad de las técnicas propuestas para determinar un conjunto mínimo de atributos con un poder clasificatorio incluso superior a los datos originales. Este computo es realizado con un coste en tiempo menor que el de propuestas recientes, lo que permite su aplicación a datos de enorme dimensión como son los provinientes de microarrays.es
dc.formatapplication/pdfes
dc.language.isospaes
dc.rightsAtribución-NoComercial-SinDerivadas 4.0 España
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectAprendizaje automáticoes
dc.subjectAlgoritmoses
dc.subjectInformáticaes
dc.titleHeurísticas de selección de atributos para datos de gran dimensionalidades
dc.typeinfo:eu-repo/semantics/doctoralThesises
dcterms.identifierhttps://ror.org/03yxnpp24
dc.rights.accessRightsinfo:eu-repo/semantics/openAccess
dc.contributor.affiliationUniversidad de Sevilla. Departamento de Lenguajes y Sistemas Informáticoses
idus.format.extent199 p.es
dc.identifier.idushttps://idus.us.es/xmlui/handle/11441/15876

FicherosTamañoFormatoVerDescripción
Original_O_TESIS-41.pdf1.947MbIcon   [PDF] Ver/Abrir  

Este registro aparece en las siguientes colecciones

Mostrar el registro sencillo del ítem

Atribución-NoComercial-SinDerivadas 4.0 España
Excepto si se señala otra cosa, la licencia del ítem se describe como: Atribución-NoComercial-SinDerivadas 4.0 España