Trabajo Fin de Grado
Técnicas de selección de variables en minería estadística de datos
Autor/es | Guerra de la Corte, Adrián |
Director | Barranco Chamorro, Inmaculada |
Departamento | Universidad de Sevilla. Departamento de Estadística e Investigación Operativa |
Fecha de publicación | 2016-06 |
Fecha de depósito | 2016-07-19 |
Titulación | Universidad de Sevilla. Grado en Matemáticas |
Resumen | A common problem in data mining, when statistical regression models
are used, is to choose properly the variables to be included in the model.
Throughout this work the main statistical techniques for the selection ... A common problem in data mining, when statistical regression models are used, is to choose properly the variables to be included in the model. Throughout this work the main statistical techniques for the selection and regularization of variables will be reviewed. Also applications of these techniques will be performed by using R. The work is divided into four chapters. In Chapter 1, we review the linear regression model, and the different correlation coefficients. In this way we introduce the basic tools to study methods of selection and regularization of variables in linear regression models. In Chapter 2, we will see the most common criteria used for the selection of variables in classical linear models. So, we will deal with: Adjusted coefficient of determination, Mallow’s Coefficient, Cross Validation method, Akaike Information Criterion (AIC) and Bayesian Information Criterion (BIC). These criteria will be compared between them. Also, the main problems we may have in practice when using multiple linear regression techniques are studied. An application in R has been included to illustrate the performance of the different methods. In Chapter 3, we focus on the so-called heuristic methods, which are a first approach to the problem of selection of variables when we have a very large number of regressors. So, selection techniques such as forward, backward and step by step are studied. Their use is again illustrated with an application. In Chapter 4, we discuss the regularization techniques. We focus on ridge regression and LASSO regression. In this context, we show that by applying regularization techniques the problem becomes manageable, since a set of restrictions is imposed on the set of admissible solutions. As well, the geometric properties of the estimators are studied. As before, an application is included to illustrate the use of the discussed techniques in the field of medecine. Finally, the work is completed by an appendix, which contains the R and Mathematica codes implemented for the development of the figures, as well as the packages of R used, and the literature consulted. Al utilizar modelos de regresión en Minería Estadística de Datos, un problema común es elegir de forma adecuada las variables a incluir en el modelo. A lo largo de este trabajo se revisarán las técnicas estadísticas que ... Al utilizar modelos de regresión en Minería Estadística de Datos, un problema común es elegir de forma adecuada las variables a incluir en el modelo. A lo largo de este trabajo se revisarán las técnicas estadísticas que existen para la selección y regularización de variables. Así mismo se realizarán aplicaciones de dichas técnicas, básicamente con el software R. El trabajo se estructura en cuatro capítulos. En el Capítulo 1, revisamos el modelo de regresión lineal, así como los diferentes coeficientes de correlación. De esta forma introducimos las herramientas básicas para abordar el estudio de los métodos de selección y regularización de variables en los modelos de regresión lineal. En el Capítulo 2, veremos los criterios más usados para la selección de variables en modelos lineales clásicos. Se recogen así: el coeficiente de determinación corregido o ajustado, el coeficiente Cp de Mallows, el método de validación cruzada, el criterio de información de Akaike (AIC) y el criterio de información bayesiana (BIC). Se realizan comparaciones entre ellos, y se recogen los principales problemas que se nos pueden presentar en la práctica al utilizar las técnicas de regresión lineal mútiple. Así mismo, cabe destacar que se ha ilustrado el uso de las distintas técnicas expuestas con una aplicación realizada con R. En el Capítulo 3, nos centraremos en los llamados métodos heurísticos, los cuales son una primera aproximación al problema de selección de variables cuando tenemos un número muy grande de variables regresoras. Se recogen las denominadas técnicas de selección hacia adelante, hacia atrás y paso a paso. Su uso se ilustra de nuevo con una aplicación. En el Capítulo 4, trataremos las técnicas de regularización, principalmente el modelo de regresión contraída (ridge regression) y el modelo de regresión LASSO (LASSO regression). Estas técnicas permiten solventar las dificultades que surgen cuando se presentan problemas de colinealidad o soluciones numéricas inestables. En este contexto, mostramos que regularizar significa, hacer el problema tratable, imponiendo una serie de restricciones al conjunto de soluciones admisibles. Además se estudian las propiedades geométricas de los estimadores obtenidos. De nuevo se incluye una aplicación, en el campo de la Medicina, que ilustra el uso de las técnicas expuestas. Finalmente, el trabajo se completa con un anexo, en el que se recogen los códigos R y de Mathematica implementados para la elaboración de las figuras, así como los paquetes de R utilizados, y la bibliografía consultada. |
Cita | Guerra de la Corte, A. (2016). Técnicas de selección de variables en minería estadística de datos. (Trabajo fin de grado inédito). Universidad de Sevilla, Sevilla. |
Ficheros | Tamaño | Formato | Ver | Descripción |
---|---|---|---|---|
Guerra de la Corte, Adrián TFG.pdf | 1.118Mb | [PDF] | Ver/ | |