Técnicas boosting

Pérez García, Manuel

Trabajo Fin de Grado

dc.contributor.advisor	Pino Mejías, Rafael	es
dc.creator	Pérez García, Manuel	es
dc.date.accessioned	2019-01-17T09:50:34Z
dc.date.available	2019-01-17T09:50:34Z
dc.date.issued	2018-12
dc.identifier.citation	Pérez García, M. (2018). Técnicas boosting. (Trabajo Fin de Grado Inédito). Universidad de Sevilla, Sevilla.
dc.identifier.uri	https://hdl.handle.net/11441/81665
dc.description.abstract	En este documento se tratará en un principio, de manera general, las principales características de los métodos basados en la combinación de modelos (Bagging, Random Forest y Boosting). Básicamente, los tres métodos se sustentan en la combinación de árboles de decisión. Los árboles de decisión son una manera muy simple y práctica de realizar predicciones, aunque cierto es que los resultados son muy mejorables. Es por ello por lo que surgen este tipo de métodos (combinación de modelos), para intentar mejorar los resultados de las predicciones. Los árboles de decisión, en función de la variable a predecir (variable objetivo), se pueden dividir en árboles de regresión y árboles de clasificación. En este documento se expondrán los procesos de creación de cada uno de ellos, como también se detallará la forma de predecir las distintas observaciones de las que dispongamos. Tras explicar los modelos (árboles) con los que suelen trabajar los métodos de combinación de modelos, se expondrán, de manera muy generalizada, los modelos de Bagging y Random Forest. Veremos sus principales similitudes y diferencias tanto entre ellos como con el Boosting, el cual es el principal componente de este documento. En cuanto al Boosting, se explicarán de manera muy detallada todas sus características, su procedencia y sus distintos tipos de técnicas y algoritmos, los cuales se expondrán uno a uno haciendo hincapié en sus diferencias y similitudes. Por último, se hará uso del software R para realizar dos ejemplos prácticos. Uno de ellos estará basado en la clasificación de incidencias de una de las mayores empresas de telecomunicaciones de España. Además, en él se llevará a cabo un atractivo proceso de preprocesamiento y limpieza de los datos. El otro ejemplo estará basado en el conjunto de datos “Carseats” contenido en la librería ISLR de R, el cual se basará en la clasificación de una variable binaria.	es
dc.description.abstract	In this document, the main characteristics of the ensemble models (Bagging, Random Forest and Boosting) will be discussed in a general way. Basically, all the three methods are based on the combination of decision trees. Decision trees are a very simple and practical way to make predictions, although it is true that the results are very improvable. That is why this type of methods (ensemble models) arise. They try to improve the results of the predictions of a single decisión tree. Decision trees, depending on the variable to be predicted (target variable), can be divided into regression trees and classification trees. In this document the processes of creation of each of them will be exposed, as well as the way of predicting the different observations that we have. After explaining the models (trees) with which the ensemble models usually work, the models of Bagging and Random Forest will be exposed in a very general way. We will see their main similarities and differences both between them and with Boosting, which is the main component of this document. As for Boosting, all its characteristics, its origin and its different types of techniques and algorithms will be explained in a very detailed manner, which will be presented one by one, emphasizing their differences and similarities. Finally, the R software will be used to show two practical examples. One of them will be based on the classification of incidents of one of the largest telecommunications companies in Spain. In addition, an attractive process of preprocessing and data cleaning will be carried out on it. The other examples will be based on the "Carseats" data set contained in ISLR package of R, which will be based on the classification of a binary variable.	es
dc.format	application/pdf	es
dc.language.iso	spa	es
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Boosting	es
dc.title	Técnicas boosting	es
dc.type	info:eu-repo/semantics/bachelorThesis	es
dc.type.version	info:eu-repo/semantics/publishedVersion	es
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es
dc.contributor.affiliation	Universidad de Sevilla. Departamento de Estadística e Investigación Operativa	es
dc.description.degree	Universidad de Sevilla. Doble Grado en Matemáticas y Estadística	es
idus.format.extent	84 p.	es

Ficheros	Tamaño	Formato	Ver	Descripción
Pérez García Manuel TFG.pdf	883.6Kb	[PDF]	Ver/Abrir

Este registro aparece en las siguientes colecciones

Doble Grado en Matemáticas y Estadística

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como: Attribution-NonCommercial-NoDerivatives 4.0 Internacional