Mostrar el registro sencillo del ítem

Trabajo Fin de Máster

dc.contributor.advisorCaroni, Chryses
dc.contributor.advisorBarranco Chamorro, Inmaculadaes
dc.contributor.advisorMoreno Rebollo, Juan Luises
dc.creatorGrentzelos, Christoses
dc.date.accessioned2021-07-07T12:55:14Z
dc.date.available2021-07-07T12:55:14Z
dc.date.issued2020-06-18
dc.identifier.citationGrentzelos, C. (2020). Statistical techniques to identify and handle outliers in multivariate data. (Trabajo Fin de Máster Inédito). Universidad de Sevilla, Sevilla.
dc.identifier.urihttps://hdl.handle.net/11441/115316
dc.description.abstractIn this thesis, we focus on methods for detecting outliers in a multivariate setting. Outliers are also referred to as abnormalities, discordants, deviants, or anomalies in the data mining and statistics literature. It can be said that an outlier generally exhibits some abnormality or some kind of out of the way behavior. Understanding the nature of outliers gives us a better insight into the data generation process [2, 40]. Outlier detection is an integral part of the data analysis that sheds light on objects that do not conform with the rest of the data. After a brief Introduction, in Chapter 2 we illustrate some of the various methods that were devised to deal with univariate samples. Moreover, we state the masking and swamping effect that, as we will discuss, can be difficult to handle even in univariate samples. Finally, we apply these methods to a normally distributed sample in order to demonstrate the masking effect and to compare their results. In the following chapters, we present different methods for multivariate data based on various characteristics, which can be grouped into five big categories: Depth-based methods, Distance-based methods, Density-based methods, methods based on Mahalanobis distance and Distribution-based methods. In Chapter 3, different notions of depth are presented and some of their corresponding detection methods. Throughout the chapter, we discuss the notion of depth originated by Tukey that the ISODEPTH and FDC algorithms were based on and the notion of Liu that led to the Modified Band Depth which we will apply to multivariate samples. In Chapter 4, we present outlier detection methods based on the distance between objects. Moreover, we present the first notion of outliers based on their distance, the DB outliers as well as the one that is currently used based on the k nearest neighbor distance. Moreover, we present some of the basic pruning methods that distance-based methods use in order to handle bigger datasets. In addition, we present the definition of a reverse k-nearest neighbor by Hautamaki et al. Finally, we apply the method that is used to find DB outliers, two methods computing k nearest distances of the objects along with the method based on Hautamaki’s definition. In Chapter 5, density-based methods are listed, that take into account the local density of each observation. We present the Local Outlier Factor (LOF) method, that is the basis of the best-known density-based methods, along with a more robust extension of this notion known as the Robust Kernel Outlier Factor (RKOF) method. In the same chapter we apply these methods and compare their results. In Chapter 6 we develop methods that are based on the Mahalanobis distance. The classical Mahalanobis distance is presented as well as a more robust version of it. Their main difference is that the first computes each observation’s distance based on the estimators of the mean and scatter when all of the observations are taken into consideration while the second uses the the estimated mean and scatter from a specific subset of observations. Apart from the χ 2 quartile that is usually used as a cutoff for these methods, we present Filzmoser’s extension, the adaptive quartile. Finally, we test these methods and compare their results. In Chapter 7, we present methods that detect outliers based on a distributional assumption. Most of these methods are more efficient when normally distributed datasets are under examination. Moreover, we compare the methods that we present in this chapter with the help of package “OutliersO3”. Finally, in Chapters 8 and 9 we apply all these methods to the humus and dat datasets respectively. Testing these methods on different datasets gives us the opportunity to compare them and to build a more solid opinion about outlier detection, given in Chapter 10.es
dc.description.abstractEn este TFM, nos centramos en el estudio de outliers en un marco multivariante. A los outliers también se les denomina anormalidades, discordancias, desviaciones o anomalías en Minería de Datos y otra literatura estadística. Puede decirse que un outlier exhibe alguna anormalidad o tipo de comportamiento diferente al resto. Comprender la naturaleza de los outliers nos ayuda a comprender el proceso de generación de los datos. La detección de outliers es así una parte integral del análisis de datos que nos ayuda a identificar aquellos objetos que no están en consonancia con el resto de los datos. Tras una breve Introducción, en el Capítulo 2 ilustramos algunos de los métodos diseñados para tratar con muestras univariantes. Introducimos además los problemas de enmascaramiento y saturación que, como discutiremos, pueden ser difícil de solventar incluso en muestras univariantes. Finalmente, aplicamos estos datos a una muestra normalmente distribuida para dirigir el efecto de enmascaramiento y comparar los resultados que se obtienen. En los siguientes capítulos, se presentan diferentes métodos basados en características multivariantes, y que pueden agruparse en cinco grandes categorías: métodos basados en la profundidad, métodos basados en distancias, métodos basados en densidad, métodos basados en la distancia de Mahalanobis, y métodos basados en la distribución. En el Capítulo 3, se presentan diferentes definiciones de profundidad y sus correspondientes métodos de detección. A lo largo del capítulo, se estudian la noción de profundidad, debida originalmente a Tukey, y en la que se basan los algoritmos ISODEPTH y FDC, así como la noción de Liu, que condujo al concepto de profundidad de banda modificada, técnica que aplicaremos a muestras multivariantes. En el Capítulo 4, se presentan métodos de detección de outliers basados en la distancia entre objetos. Además, se presenta la primera noción de outliers basada en su distancia, los DB outliers, así como la que se usa actualmente, basada en la distancia a los k-vecinos más cercanos. Se presentan, además, algunos de los métodos de poda básicos que utilizan los métodos basados en distancias para manejar conjuntos de datos más grandes. Se incluye también la definición de inverso de k-vecinos más cercanos debida a Hautamaki y otros. Para finalizar, se aplica el métodos para encontrar DB outliers, dos métodos para calcular las k distancias más cercanas de los objetos, junto con método basado en la definición de Hautamaki. En el Capítulo 5, se estudian los métodos basados en la densidad, que tienen en cuenta la densidad local de cada observación. Presentamos el método Local Outlier Factor (LOF), que es la base de los métodos más conocidos basados en la densidad, junto con una extensión más robusta de esta noción, definida como método Robust Kernel Outlier Factor (RKOF). En el mismo capítulo se aplican estos métodos y se comparan sus resultados. En el Capítulo 6 se desarrollan métodos basados en la distancia de Mahalanobis. Se trata la distancia de Mahalanobis clásica, así como una versión más robusta de ella. Su principal diferencia es que, la primera calcula la distancia de cada observación basándose en las estimaciones de la media y la dispersión que se obtienen considerando todas las observaciones, mientras que la segunda utiliza las estimaciones de la media y dispersión basadas en un subconjunto específico de observaciones. Aparte de cuantiles χ 2 , que son usualmente utilizados como punto de corte en estos métodos, se presenta la extensión de Filzmoser, denominada cuantil adaptativo. Finalmente, se aplican estos métodos y se comparan sus resultados. En el Capítulo 7, se presentan métodos que detectan outliers basados en una hipótesis distribucional. La razón es que, la mayoría de estos métodos son más eficientes cuando los datos bajo consideración se distribuyen normalmente. Además, los métodos presentados en este capítulo se comparan con la ayuda del paquete OutliersO3. Para finalizar, en los Capítulos 8 y 9, se aplican todos estos métodos a los conjuntos de datos humus y dat, respectivamente. Contrastar estos métodos sobre diferentes conjuntos de datos nos da la oportunidad de compararlos y construir una opinión más sólida sobre la detección de outliers, la cuál se recoge en el Capítulo 10.es
dc.formatapplication/pdfes
dc.format.extent107vp.es
dc.language.isoenges
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internacional*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.titleStatistical techniques to identify and handle outliers in multivariate dataes
dc.typeinfo:eu-repo/semantics/masterThesises
dc.type.versioninfo:eu-repo/semantics/publishedVersiones
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses
dc.contributor.affiliationUniversidad de Sevilla. Departamento de Estadística e Investigación Operativaes
dc.description.degreeUniversidad de Sevilla. Máster Universitario en Matemáticases
idus.validador.notaNo sé si debe aparecer Juan Luis Moreno Rebollo como tutor también.es
dc.publication.endPage107es

FicherosTamañoFormatoVerDescripción
Grentzelos, Christos.pdf2.185MbIcon   [PDF] Ver/Abrir  

Este registro aparece en las siguientes colecciones

Mostrar el registro sencillo del ítem

Attribution-NonCommercial-NoDerivatives 4.0 Internacional
Excepto si se señala otra cosa, la licencia del ítem se describe como: Attribution-NonCommercial-NoDerivatives 4.0 Internacional