Trabajo Fin de Grado
Modelos de clasificación con datos no balanceados
Autor/es | Espinar Lara, Rocío |
Director | Pino Mejías, Rafael |
Departamento | Universidad de Sevilla. Departamento de Estadística e Investigación Operativa |
Fecha de publicación | 2018-06 |
Fecha de depósito | 2018-07-23 |
Titulación | Universidad de Sevilla. Grado en Matemáticas |
Resumen | El problema de las distribuciones de datos no balanceados entre clases, ha recibido una atención considerable en disciplinas como el Aprendizaje Automático o Machine Learning, en inglés y Minería de Datos, entre otros.
En ... El problema de las distribuciones de datos no balanceados entre clases, ha recibido una atención considerable en disciplinas como el Aprendizaje Automático o Machine Learning, en inglés y Minería de Datos, entre otros. En el contexto de problemas de clasificación, se dice que un conjunto de datos no está balanceado si una de las clases (mayoritaria) está sensiblemente más representada que el resto de clases. Esta problemática puede conducir, en términos de clasificación, a aprendizajes sesgados en perjuicio de la clase minoritaria, que usualmente, contiene los casos de mayor interés. En esta memoria se aborda el problema de clases no balanceadas, en la que se estudian diferentes técnicas de clasificación con las que solventar o disminuir dicho problema. En la introducción, se describe el problema de la distribución desigual de clases. En el capítulo 2, se presentan diversos conceptos del Aprendizaje Estadístico utilizados en este trabajo. Posteriormente, se hablará de los árboles de clasificación y los modelos Random Forests, describiendo sus principales características. En el capítulo 4, se verán algunas de las medidas de rendimiento que serán usadas para medir la eficiencia de un modelo de clasificación. En el capítulo 5, se proponen técnicas para solventar el problema descrito en este trabajo, como por ejemplo técnicas de remuestreo, para reducir/incrementar el tamaño muestral de la clase mayoritaria/minoritaria y ténicas basadas en costes que penalizan la clasificación eróonea, entre otros. Por último, se realiza una comparación empírica de los métodos descritos sobre un conjuntos de datos (insolvencias). Se ha utilizado para ello el entorno de programación estadístico R. |
Cita | Espinar Lara, R. (2018). Modelos de clasificación con datos no balanceados. (Trabajo Fin de Grado Inédito). Universidad de Sevilla, Sevilla. |
Ficheros | Tamaño | Formato | Ver | Descripción |
---|---|---|---|---|
Espinar Lara Rocío TFG.pdf | 1.320Mb | [PDF] | Ver/ | |