Mostrar el registro sencillo del ítem

Trabajo Fin de Grado

dc.contributor.advisorBarranco Chamorro, Inmaculadaes
dc.creatorMuñoz Armayones, Sandraes
dc.date.accessioned2016-07-20T07:10:23Z
dc.date.available2016-07-20T07:10:23Z
dc.date.issued2016
dc.identifier.citationMuñoz Armayones, S. (2016). Técnicas multivariantes para el análisis de datos ómicos. (Trabajo fin de grado inédito). Universidad de Sevilla, Sevilla.
dc.identifier.urihttp://hdl.handle.net/11441/43809
dc.description.abstractEl constante aumento en la generación de datos ómicos y el desarrollo de tecnologías que permiten su análisis han hecho que el interés por estudiar simultáneamente datos procedentes de distintas técnicas ómicas sea cada vez mayor, con el propósito de conocer las relaciones subyacentes entre ellos. Para ello se requieren herramientas matemáticas que puedan adaptarse al análisis de una gran cantidad de datos, reduciendo a su vez la complejidad de los mismos y facilitando así su interpretación. Esto nos lleva a considerar métodos de proyección, que serán descritos en el trabajo además de aplicarse en diferentes conjuntos de datos reales. En la introducción al trabajo, se han presentado las principales técnicas ómicas así como la tecnología de microarrays, además de explicar qué se entiende por integración de datos. Planteamos la necesidad de utilizar técnicas de Análisis Multivariante para analizar el tipo de datos que nos ocupa. En el primer capítulo del trabajo se explica con detalle el Análisis de Componentes Principales (ACP), una técnica capaz de crear un pequeño conjunto de variables que resuman la información de las originales y que permitan posteriores análisis más profundos de los datos. Comenzamos introduciendo la notación, además de definir componentes principales y componentes principales muestrales. Se presentan ejemplos para explicar el círculo de correlación y la utilidad del ACP para solucionar problemas de colinealidad en la regresión lineal múltiple. Se explican tres criterios para escoger las CP significativas. Por último, se ha realizado una aplicación a un conjunto de datos de expresión génica, en la que utilizamos ACP como una técnica exploratoria de datos. En el segundo capítulo vemos la Descomposición en Valores Singulares (DVS). Este será un paso intermedio en varias de las técnicas estadísticas expuestas a lo largo del trabajo y nos permite descomponer matrices rectangulares como producto de otras. Se detallan propiedades de la descomposición, la utilidad de la técnica para aproximar matrices y su representación gráfica como un biplot. En el tercer capítulo nos centramos en el Análisis de Correspondencias (AC). Esta técnica es aplicable tan sólo a variables categóricas y define unos índices. A estos índices se les denomina coordenadas principales y estándar y se obtienen a partir de la descomposición del estadístico chi-cuadrado, χ 2. Se realiza una aplicación a datos de expresión génica utilizando el paquete made4 de R. El cuarto capítulo trata sobre Análisis de Coinercia (ACoi). Se presenta un coeficiente que permite medir la correlación entre conjuntos de datos donde se trabaja con las mismas muestras. Con el propósito de realizar un análisis integrado, consideramos dos conjuntos de datos de expresión génica. Se realiza un Análisis de Correspondencias como paso previo al Análisis de Coinercia, el cuál nos permite cuantificar y visualizar la relación existente entre ambos conjuntos. La última técnica que trataremos se describe en el quinto capítulo y se conoce como Análisis de Correlación Canónica, que explora las relaciones de dependencia entre conjuntos de variables. Se ha resuelto detalladamente el problema que supone encontrar los dos primeros vectores de correlación canónica haciendo uso de la Descomposición en Valores Singulares. A partir de esto se han definido las variables de correlación canónica y se han planteado contrastes de significación para elegir las más relevantes. Se ilustra con un estudio de datos de expresión génica en grupos de ratones sometidos a distintas dietas. Para finalizar, se han detallado todos los paquetes de R empleados, describiendo cada paquete así como todas las funciones y argumentos que hemos usado.es
dc.description.abstractConstant growth in omics data generation and development of technology that allows this data analysis has resulted in an increasing interest in studying different kinds of omics techniques, in order to know the mutual interactions between these data sets. Mathematical tools to analyse large data sets are required. They must be able to reduce complexity and make the interpretation of these data easier. So we consider projection methods which will be described along this work. As illustrations, applications to different real data sets are included. In the Introduction, the main omics techniques are presented. Microarray technology and data integration are explained. The need for using multivariate analysis techniques is also contemplated. In Chapter 1, we focus on Principal Components Analysis (PCA). This technique is able to create a little set of variables which summarize information and permit deeper analysis of data. We introduce the appropriate notation, and define principal and sample principal components. Examples to explain the correlation circle are given. We show how useful this method can be to deal with highly correlated variables in linear regression. Three different options to choose important components are described. Finally, we apply PCA to explore microarray gene expression data. In Chapter 2, we study Singular Value Decomposition (SVD). This is a common tool in multivariate analysis used to decompose a rectangular matrix as product of other matrices. We highlight properties and biplot representation of this technique. In Chapter 3, Correspondence Analysis (CA) is presented as a technique applicable to categorical variables. Indexes, called principal and standard coordinates, are obtained from the decomposition of a χ2 statistic. An application is carried out by using made4 package of R. Chapter 4 is devoted to Coinertia Analysis (CIA). This technique allows us to obtain a coefficient which explains the existing correlation between two data sets containing the same samples. An application in which we perform an integrated analysis is given. Quantification and visualization of the relationships between the two data sets, under consideration, is possible thanks to Correspondence Analysis, which is a previous step in order to apply CIA. In Chapter 5, Canonical Correlation Analysis (CCA) is proposed as a technique to explore dependence between variable sets. A method to find the two first canonical correlation vectors is studied in detail. Canonical correlation variables are presented, and significance tests are proposed to choose the most relevant ones. CCA is applied to a nutritional study in mice. Finally, an Appendix is given with the R packages and functions used in this work.es
dc.formatapplication/pdfes
dc.language.isospaes
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internacional*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.titleTécnicas multivariantes para el análisis de datos ómicoses
dc.typeinfo:eu-repo/semantics/bachelorThesises
dc.type.versioninfo:eu-repo/semantics/publishedVersiones
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses
dc.contributor.affiliationUniversidad de Sevilla. Departamento de Estadística e Investigación Operativaes
dc.description.degreeUniversidad de Sevilla. Grado en Matemáticases
dc.contributor.groupUniversidad de Sevilla. FQM153: Estadística e Investigación Operativaes
idus.format.extent123 p.es
dc.identifier.idushttps://idus.us.es/xmlui/handle/11441/43809

FicherosTamañoFormatoVerDescripción
Muñoz Armayones, Sandra TFG.pdf1.481MbIcon   [PDF] Ver/Abrir  

Este registro aparece en las siguientes colecciones

Mostrar el registro sencillo del ítem

Attribution-NonCommercial-NoDerivatives 4.0 Internacional
Excepto si se señala otra cosa, la licencia del ítem se describe como: Attribution-NonCommercial-NoDerivatives 4.0 Internacional