Final Degree Project
Técnicas boosting
Author/s | Pérez García, Manuel |
Director | Pino Mejías, Rafael |
Department | Universidad de Sevilla. Departamento de Estadística e Investigación Operativa |
Publication Date | 2018-12 |
Deposit Date | 2019-01-17 |
Academic Title | Universidad de Sevilla. Doble Grado en Matemáticas y Estadística |
Abstract | En este documento se tratará en un principio, de manera general, las principales características de los métodos basados en la combinación de modelos (Bagging, Random Forest y Boosting). Básicamente, los tres métodos se ... En este documento se tratará en un principio, de manera general, las principales características de los métodos basados en la combinación de modelos (Bagging, Random Forest y Boosting). Básicamente, los tres métodos se sustentan en la combinación de árboles de decisión. Los árboles de decisión son una manera muy simple y práctica de realizar predicciones, aunque cierto es que los resultados son muy mejorables. Es por ello por lo que surgen este tipo de métodos (combinación de modelos), para intentar mejorar los resultados de las predicciones. Los árboles de decisión, en función de la variable a predecir (variable objetivo), se pueden dividir en árboles de regresión y árboles de clasificación. En este documento se expondrán los procesos de creación de cada uno de ellos, como también se detallará la forma de predecir las distintas observaciones de las que dispongamos. Tras explicar los modelos (árboles) con los que suelen trabajar los métodos de combinación de modelos, se expondrán, de manera muy generalizada, los modelos de Bagging y Random Forest. Veremos sus principales similitudes y diferencias tanto entre ellos como con el Boosting, el cual es el principal componente de este documento. En cuanto al Boosting, se explicarán de manera muy detallada todas sus características, su procedencia y sus distintos tipos de técnicas y algoritmos, los cuales se expondrán uno a uno haciendo hincapié en sus diferencias y similitudes. Por último, se hará uso del software R para realizar dos ejemplos prácticos. Uno de ellos estará basado en la clasificación de incidencias de una de las mayores empresas de telecomunicaciones de España. Además, en él se llevará a cabo un atractivo proceso de preprocesamiento y limpieza de los datos. El otro ejemplo estará basado en el conjunto de datos “Carseats” contenido en la librería ISLR de R, el cual se basará en la clasificación de una variable binaria. In this document, the main characteristics of the ensemble models (Bagging, Random Forest and Boosting) will be discussed in a general way. Basically, all the three methods are based on the combination of decision trees. ... In this document, the main characteristics of the ensemble models (Bagging, Random Forest and Boosting) will be discussed in a general way. Basically, all the three methods are based on the combination of decision trees. Decision trees are a very simple and practical way to make predictions, although it is true that the results are very improvable. That is why this type of methods (ensemble models) arise. They try to improve the results of the predictions of a single decisión tree. Decision trees, depending on the variable to be predicted (target variable), can be divided into regression trees and classification trees. In this document the processes of creation of each of them will be exposed, as well as the way of predicting the different observations that we have. After explaining the models (trees) with which the ensemble models usually work, the models of Bagging and Random Forest will be exposed in a very general way. We will see their main similarities and differences both between them and with Boosting, which is the main component of this document. As for Boosting, all its characteristics, its origin and its different types of techniques and algorithms will be explained in a very detailed manner, which will be presented one by one, emphasizing their differences and similarities. Finally, the R software will be used to show two practical examples. One of them will be based on the classification of incidents of one of the largest telecommunications companies in Spain. In addition, an attractive process of preprocessing and data cleaning will be carried out on it. The other examples will be based on the "Carseats" data set contained in ISLR package of R, which will be based on the classification of a binary variable. |
Citation | Pérez García, M. (2018). Técnicas boosting. (Trabajo Fin de Grado Inédito). Universidad de Sevilla, Sevilla. |
Files | Size | Format | View | Description |
---|---|---|---|---|
Pérez García Manuel TFG.pdf | 883.6Kb | [PDF] | View/ | |