Doble Grado en Matemáticas y Estadística

URI permanente para esta colecciónhttps://hdl.handle.net/11441/77614

Examinar

Envíos recientes

Mostrando 1 - 20 de 64
  • Acceso AbiertoTrabajo Fin de Grado
    Muestreo Doble (o muestreo bifásico): Procedimiento, estimación, eficiencia y aplicaciones
    (2025-06-03) Santos Bautista, Jaime; Muñoz Reyes, Ana María; Estadística e Investigación Operativa
    Este trabajo se centra en el estudio del muestreo doble, una técnica estadística orientada a mejorar la precisión de las estimaciones cuando la medición de la variable principal implica un coste elevado. La investigación parte del interés en métodos de muestreo más eficientes que el muestreo aleatorio simple, especialmente en contextos donde se dispone de variables auxiliares de obtención más sencilla. El objetivo es analizar las características teóricas y prácticas del muestreo doble, incluyendo aplicaciones a casos reales. Se plantea como hipótesis que, en presencia de una alta correlación entre la variable auxiliar y la variable de estudio, el uso del muestreo doble puede reducir significativamente la varianza del estimador. La metodología combina una revisión detallada de la teoría junto con el desarrollo de una aplicación práctica en R, en la que se implementa el cálculo de los distintos estimadores, así como la estimación de sus varianzas, siguiendo un esquema estratificado. Los resultados teóricos obtenidos confirman que el muestreo doble permiten obtener estimaciones más precisas y eficientes en las condiciones adecuadas. Este tipo de diseño puede resultar especialmente útil en estudios donde los recursos son limitados o donde el acceso a ciertas variables es costoso o complejo.
  • Acceso AbiertoTrabajo Fin de Grado
    Análisis y Desarrollo de Modelos Predictivos para el Diagnóstico de la Hipertensión Basado en sus Factores de Riesgo
    (2025-06-04) Salamanca Miñarro, Manuel Alejandro; Valencia Cabrera, Luis; Ciencias de la Computación e Inteligencia Artificial
    En el presente trabajo fin de estudios, se aborda el problema diario de la clasificación en el diagnóstico de la enfermedad de la hipertensión, haciendo uso de técnicas de procesamiento de datos y modelos de Machine Learning. Se fija el marco temporal del estudio en el año 2014, y nos centraremos en la población estadounidense. Se consideran 1829 variables, inicialmente correspondientes a 6 categorías: demografía, dieta, examen médico, laboratorio, medicamentos y cuestionario. Se usarán tan solo aquellas que consideremos significativas tras aplicarles diversas pruebas gráficas, numéricas y contrastes de hipótesis. Se implementan métodos para procesar los datos recopilados y generar conjuntos para entrenar modelos predictivos de clasificación, considerando validación cruzada. Los modelos empleados y analizados han sido: Análisis Discriminante Lineal, Regresión Logística, k-Nearest Neighbours, Naive-Bayes, SVM radial, Redes Neuronales, Árboles de Decisión y Random Forest. Se han ajustado los valores de los hiperparámetros evaluando la eficacia sobre el conjunto de entrenamiento y se ha comparado el rendimiento de los modelos construidos sobre el conjunto test considerando diversas métricas. Han destacado los modelos de Análisis Discriminante Lineal, Redes Neuronales y k-Nearest Neighbours, que han obtenido los mejores resultados en el conjunto test. Por último, simplemente matizar que este estudio trata de atacar un problema real, con todo lo que ello conlleva. Al tratarse de una situación auténtica, el interés es mayor, ya que puede ayudar a comprender mejor un problema existente que se está enfrentando. Por otro lado, implica un aumento en la dificultad debido a las limitaciones de los datos, frente a los conjuntos que suelen darse en problemas de clase, con datos sintéticos, ya preparados para realizar el estudio.
  • Acceso AbiertoTrabajo Fin de Grado
    Efecto del tratamiento en subgrupos en ensayos clínicos: métodos de estimación e implementación en R
    (2025-06-04) Praena Delgado, Marina; Muñoz Reyes, Ana María; Estadística e Investigación Operativa
    En el diseño de nuevos medicamentos dentro del ámbito de los ensayos clínicos, la identificación de subgrupos de pacientes que respondan mejor al tratamiento resulta esencial para avanzar hacia una medicina personalizada. Este trabajo de fin de grado tiene como objetivo evaluar distintos métodos para estimar el efecto del tratamiento en dichos subgrupos. A lo largo del trabajo se abordan diferentes enfoques que van desde la estimación naive, el más básico, hasta otros más elaborados como el model averaging o bagging, incluyendo también su implementación práctica en R mediante las librerías subtee y glmnet. En el capítulo 1 se introduce el contexto del problema, se presenta la estructura general del modelo y se desarrolla la estimación naive del efecto del tratamiento. El capítulo 2 está dedicado al desarrollo en profundidad de la técnica model averaging, de la que veremos dos variantes, junto con una simulación para evaluar su desempeño. De forma análoga, se presenta el método bootstrap en el capítulo 3, también acompañado de un estudio de simulación. El capítulo 4 está dedicado a dos enfoques adicionales: uno basado en técnicas de remuestreo y otro en regresión Lasso. En el capítulo 5 se implementan los métodos naive, model averaging y bootstrap a través de la librería subtee de R, y el método Lasso mediante la librería glmnet, sobre un conjunto de datos reales acerca del cáncer de mama. Se incluye además una comparación entre los resultados obtenidos con cada técnica. Finalmente, el capítulo 6 recoge las conclusiones del trabajo, destacando los aprendizajes obtenidos y el potencial de estos métodos para su aplicación práctica en el análisis de subgrupos en ensayos clínicos.
  • Acceso AbiertoTrabajo Fin de Grado
    Modelos de clasificación de imágenes con redes de aprendizaje profundo
    (2025-06-02) Infante Rodríguez, Joaquín; Cubiles de la Vega, María Dolores; Estadística e Investigación Operativa
    En la actualidad, la Inteligencia Artificial está presente en múltiples aspectos de la vida cotidiana, desde asistentes virtuales, traducción automática o sistemas de recomendación, hasta aplicaciones más especializadas como el diagnóstico médico por imagen. Este progreso ha sido impulsado, en gran medida, por los avances en el aprendizaje automático (Machine Learning) y, especialmente, en el aprendizaje profundo (Deep Learning), un subcampo del Machine Learning capaz de extraer representaciones jerárquicas y complejas a partir de grandes volúmenes de datos. El presente trabajo se centra en el estudio de modelos de clasificación de imágenes basados en redes de aprendizaje profundo, abordando tanto los fundamentos teóricos como su aplicación práctica. En primer lugar, se introducen los conceptos básicos del reconocimiento visual y se analizan métodos clásicos de extracción de características, junto con técnicas de selección y reducción de variables. A continuación, se presentan las Redes Neuronales Artificiales (ANN), explicando su arquitectura, funciones de activación, algoritmos de optimización y el proceso de entrenamiento mediante retropropagación del error (backpropagation). Posteriormente, se profundiza en las Redes Neuronales Convolucionales (CNN), que constituyen actualmente la aplicación más extendida del Deep Learning en tareas de clasificación de imágenes. Se describen su funcionamiento, sus ventajas estructurales y las principales arquitecturas conocidas. El estudio se completa con un análisis experimental desarrollado en lenguaje Python basado en dos conjuntos de datos, seleccionados con el fin de abordar distintos tipos de imágenes: un conjunto de imágenes en formato RGB de frutas, y otro en escala de grises de resonancias magnéticas cerebrales (MRI), clasificadas por tipo de tumor. En ambos casos, se entrenan y comparan modelos ANN y CNN con el objetivo de analizar hasta qué punto las redes convolucionales, por su diseño más especializado, ofrecen un rendimiento significativamente superior frente a arquitecturas más básicas en tareas de clasificación visual.
  • Acceso AbiertoTrabajo Fin de Grado
    Diagramas de Voronoi
    (2025-07-07) González Rodríguez, Fernando; Fernández Ternero, Desamparados; Márquez García, María del Carmen; Geometría y Topología
    Este Trabajo de Fin de Grado aborda el estudio de los diagramas de Voronoi. El interés de su estudio reside en sus interesantes propiedades matemáticas y en sus múltiples aplicaciones prácticas. Se presenta la definición formal de los diagramas de Voronoi en el plano euclídeo, con el objetivo de resolver el problema del vecino más cercano. A continuación, se detallan las propiedades matemáticas de esta construcción geométrica y se realiza una revisión de sus principales algoritmos de construcción, incluyendo un ejemplo de aplicación para estos algoritmos. Seguidamente, se evidencia la importancia de los diagramas de Voronoi como herramienta matemática y computacional, presentando algunas aplicaciones prácticas de estos en diversas disciplinas. Este trabajo concluye con una breve definición del concepto de diagrama de Voronoi de orden superior y su importancia dentro del Machine Learning, rama principal de la Inteligencia Artificial (IA).
  • Acceso AbiertoTrabajo Fin de Grado
    Métodos estadísticos aplicados a la predicción de resultados en el fútbol
    (2025-07-07) González Gómez, Pablo; Muñoz Reyes, Ana María; Estadística e Investigación Operativa
    El objetivo de este trabajo es el estudio de distintas técnicas estadísticas aplicadas a la predicción de resultados deportivos, con especial interés en su utilidad en el ámbito de las apuestas. Para ello, se analizan varios modelos, tanto clásicos como de aprendizaje automático, orientados a predecir aspectos fundamentales del resultado de un evento deportivo, como el número de goles o el signo final (1X2). Como aplicación concreta, se emplean datos reales de la primera división española de fútbol. Estos datos se utilizan para implementar y validar los modelos estudiados, aplicándolos al diseño de estrategias de apuestas en dos contextos distintos: por un lado, a partir de la predicción del resultado del partido en formato 1X2, y por otro, a través de la estimación del número total de goles en cada encuentro.
  • Acceso AbiertoTrabajo Fin de Grado
    Sistema de información y recomendación basada en técnicas de IA y ciencia de datos para el apoyo a la decisión nutricional guiada por objetivos
    (2025-06-04) Domínguez Gómez-Álvarez, María; Valencia Cabrera, Luis; Graciani Díaz, Carmen; Ciencias de la Computación e Inteligencia Artificial
    La motivación de este proyecto surge de la concienciación propia de la relevancia que la nutrición juega en diversos aspectos de nuestra vida, desde la salud hasta la calidad de vida que podemos tener y los que nos permite o impide hacer con la misma. Teniendo esto en cuenta, se ha desarrollado una aplicación con la intención de proporcionar al usuario que decida usarla, una forma de poder comprender y tener una mejor relación con la nutrición. La importancia de, no solo conocer los conceptos más básicos sobre la misma, sino también cómo funciona y cómo de grande puede ser su impacto sobre nuestro cuerpo, es algo que no todo el mundo tiene en cuenta. Para desarrollar toda esta idea, se han creado una serie de funcionalidades para poder ayudar al usuario a que se adentre en mayor profundidad en este tema. Con el uso de algoritmos como pueden ser bosques aleatorios (Random Forest), agrupación (Clustering) o Knn vecinos, se le proporcionan herramientas con las que pueda o bien conocer más sobre las características nutricionales de recetas en su totalidad, o bien conocer las distintas agrupaciones que pueden surgir dentro de un mismo grupo de alimentos, o bien sustituir un alimento por otro lo más similar posible.
  • Acceso AbiertoTrabajo Fin de Grado
    Inteligencia artificial en el mercado de valores: Aplicaciones del aprendizaje automático al análisis bursátil y a la clasificación en sectores industriales
    (2025-07-09) Costa Pérez, Alejandro; Orellana Martín, David; Rodríguez Gallego, José Antonio; Ciencias de la Computación e Inteligencia Artificial
    El problema de la clasificación de las empresas en sectores industriales se ha tratado hasta ahora de forma manual utilizando, habitualmente, conocimiento externos al desempeño de las empresas. La clasificación tiende a hacerse dependiendo de sus relaciones comerciales y los bienes o servicios que oferte. Una hipótesis razonable sería pensar que el desempeño de una empresa dada depende en gran medida de su coyuntura económica, y que esta a su vez es mayormente compartida entre empresas de un mismo sector industrial. En este trabajo, partiremos de la hipótesis de que esta coyuntura común tiene mayor peso sobre el desempeño de una entidad en el mercado de valores que la competitividad respectiva que surge de la competición intrasectorial y, consecuentemente, tendrán un comportamiento similar, que estimaremos a partir de los precios de apertura de una acción individual dentro del mercado NASDAQ. De acuerdo a este punto de partida, realizaremos un análisis descriptivo de los datos para las 500 empresas con mayor capitalización de mercado dentro del NASDAQ, a fecha de recogida de datos. Posteriormente, implementaremos distintos modelos de clasificación binaria asistidos de la validación cruzada para poder ofrecer una metodología de construcción de dichos modelos sólida. El desempeño de estos modelos ha sido divididos en dos capítulos, el primero, sobre una colección de modelos relacionados con el de Aprendizaje Automático o Machine Learning y el segundo, de Inteligencia Artificial o Deep Learning a través Redes Neuronales Long-Short Term Memory.
  • Acceso AbiertoTrabajo Fin de Grado
    Regularization for Linear Regression: The LASSO and variants
    (2025-06-04) Díaz-Trechuelo Sánchez-Moliní, Jaime; Sillero Denamiel, María de los Remedios; Estadística e Investigación Operativa
    The Least Absolute Shrinkage and Selection Operator (Lasso) is a cornerstone of highdimensional regression, combining variable selection with regularization through a convex but non-di erentiable optimization problem. This work rigorously analyzes the Lasso's mathematical structure, deriving its optimality conditions via subdi erential calculus and characterizing the uniqueness of solutions particularly when p ≫ n. We establish how the Lasso's ℓ1-penalty induces sparsity and explore its geometric interpretation through constraint sets and KKT conditions. Building on this foundation, we extend the framework to the Elastic Net (addressing multicollinearity) and the Cost Sensitive Constrained Lasso and propose the novel Cost- Sensitive Constrained Elastic Net, which integrates subgroup-speci c error bounds with sparsity. Theorems on consistency and solution uniqueness are included, as well as an implementation in R which demonstrates trade-o s between interpretability and predictive power. By unifying optimization theory with statistical learning, this work underscores the Lasso's enduring role as a paradigm for regularized methods. v
  • Acceso AbiertoTrabajo Fin de Grado
    Modelos de colas en gestión de inventarios
    (2025-07-09) Arroyo Rodrigo, Ignacio; Pino Mejías, José Luis; Estadística e Investigación Operativa
    El objetivo de este proyecto es adaptar y dar las indicaciones necesarias para afrontar un problema QIS de un único servidor con llegadas y servicios en tandas, las cuales forman cadenas finitas de Markov de primer orden. Adaptaremos el problema desarrollado por [12] en donde el servicio de otra tanda empieza al finalizar el actual, siempre que haya inventario disponible, si no, habrá un retraso. El inventario se procesa y consume de uno en uno así que pertenece a la clase consumible, lo que significa que no es reusable. El sistema puede encontrarse además en estado de vacaciones que ocurre cuando el servicio se congela por falta de quorum para iniciar el próximo. Durante las vacaciones, los ítems se producen de uno en uno hasta llegar a un nivel de inventario máximo 𝐿, o si 𝑁 clientes se encuentran esperando en cola. En el primer caso el sistema entra en vacación total hasta que 𝑁 clientes llegan, en el otro caso, la época de servicio comienza. El procesamiento de inventario sigue una distribución fase tipo 𝑃𝐻. Una generalización del modelo usando un LIQBD es dado. Las matrices fundamentales que conforman el generador infinitesimal se encuentran y medidas de rendimiento se computan así como funciones de coste. Se realizará bajo ciertos parámetros, así como un script en R para la simulación se provee.
  • Acceso AbiertoTrabajo Fin de Grado
    Una Introducción a la Visión por Computador: Aplicación a Datos Militares
    (2025-06-04) Alcántara Dormido, Teodoro; Valencia Cabrera, Luis; Riscos Núñez, Agustín; Ciencias de la Computación e Inteligencia Artificial
    This Final Degree Project offers an introduction to the discipline of Computer Vision, focusing on the military field. Rather than merely surveying the principal advances in this area, it also includes a practical application of the concepts and models discussed. We focus on the problems of classification, object detection, and segmentation, and examine the field’s historical evolution, from early image-processing methods to state-of-the-art deep neural networks and convolutional architectures. These contemporary approaches will be employed to tackle the chosen tasks. Special emphasis is placed on the theoretical development of the methodology used, explaining everything from fundamental concepts of Deep Learning to different architectures or families of architectures relevant to each of the tasks. These are, for classification: LeNet5, VGG, ResNet, Inception, DenseNet, ShuffleNet, MobileNet, and EfficientNet; for detection: Faster- RCNN, YOLO, and SSD; and, finally, for segmentation: FCN and U-Net. We also explore a recent advancement in the interpretability of certain Computer Vision models: Grad-CAM. All of the above will lead to the practical implementation of these concepts on militarythemed datasets, exploring the challenges inherent in accomplishing these tasks in the military field. This will be done employing the Python programming language and will rely primarily on the PyTorch library. Finally, future lines of work are proposed aimed at improving the robustness and efficiency of the models in real-world environments, thus laying the groundwork for subsequent advancements that build on this project.
  • Acceso AbiertoTrabajo Fin de Grado
    Análisis de supervivencia a través de árboles de decisión
    (2024-06-05) Tirado Carballo, José Antonio; Muñoz Pichardo, Juan Manuel
    El análisis de datos es una herramienta esencial en diversas disciplinas, permitiendo extraer información valiosa y realizar predicciones basadas en datos históricos. Entre las múltiples técnicas disponibles, los árboles de decisión se destacan por su simplicidad, interpretabilidad y versatilidad. Este trabajo de fin de grado se centra en los ´arboles de supervivencia, abordando su base en los árboles de decisión. En el capítulo 1. Introducción, se realiza una breve introducción a los árboles de decisión y su aplicabilidad en el estudio del análisis de supervivencia. En el capítulo 2. Arboles de decisión ´ , comenzamos con una introducción general que da paso a la discusión sobre árboles de regresión y árboles de clasificación, detallando los procesos de construcción y poda de estos modelos. Además, exploramos las ventajas y desventajas inherentes a los árboles de decisión, ofreciendo una visión equilibrada sobre cuándo y cómo utilizarlos de manera efectiva. Esta sección también incluye una introducción al análisis con datos censurados, preparando el terreno para la discusión más especializada en árboles de supervivencia. En el capítulo 3. Bosques aleatorios de supervivencia, se amplía el horizonte de los métodos basados en árboles introduciendo los métodos de ensemble, como bagging y random forests. Aquí, se analiza cómo la combinación de múltiples ´arboles puede llevar a una mejora significativa en la precisión de las predicciones. Además, se presentan conceptos cruciales como el error out-of-bag y la importancia de los predictores, con subsecciones específicas que abordan la función de riesgo acumulada y el error de predicción en bosques de supervivencia. A pesar de que los árboles de supervivencia constituyen el núcleo de este trabajo, considero oportuno incluir una discusión sobre los bosques. Los bosques, al combinar múltiples árboles y agregar aleatoriedad en su construcción, no solo mejoran la robustez y la precisión de los modelos, sino que también permiten manejar mejor la variabilidad en los datos y las interacciones complejas entre variables. Esta sección es fundamental para entender cómo se pueden superar algunas limitaciones de los árboles de decisión individuales. Finalmente, en el capítulo 4. Ilustraciones con R Program, proporcionamos una serie de ejemplos prácticos que ilustran la implementación de ´arboles y bosques de supervivencia en R, aplicando los conceptos discutidos.
  • Acceso AbiertoTrabajo Fin de Grado
    Optimización Matemática y Machine Learning para la predicción de resultados futbolísticos
    (2024-06-03) Quintela González, Fernando; Delgado Ávila, Enrique; Rubino, Samuele
    El objetivo de este trabajo es aplicar métodos propios del Machine Learning para la simulación y predicción de los resultados de la temporada 2023-2024 de la liga española de fútbol. Para ello, en primer lugar serán introducidos y desarrollados conceptos teóricos relativos al aprendizaje estadístico. A partir de ellos veremos las claves para entender por qué los modelos regresivos dan buenas predicciones si son aplicados adecuadamente, y además obtendremos los criterios necesarios para la elegir un modelo regresivo que sea adecuado, como puede ser la minimización del error de generalización. Una parte fundamental en la implementación de modelos regresivos en el Machine Learning es la optimización matemática, es decir la resolución de problemas de optimización. Por tanto, gran parte del marco teórico consistirá en la introducción y desarrollo de estos conceptos teóricos. Además, se presentarán dos tipos de problemas de optimización que son cruciales para la consecución de un modelo estadístico fiable, los problemas de mínimos cuadrados y los problemas de programación cuadrática. Para la aplicación efectiva del modelo de aprendizaje estadístico se recurre a la metodología FiveThirtyEight, con algunas modificaciones. Los creadores de este método facilitan además un marco de datos que será utilizado como muestra en nuestro modelo predictivo. El modelo a desarrollar partirá de estos datos para intentar predecir de la manera más correcta posible, la clasificación final de los equipos de la liga al finalizar la temporada 2023-2024, no solo mediante la predicción de variables utilizando modelos regresivos, sino también a través de la simulación de temporadas completas, que nos permitirán dotar de aleatoriedad a nuestro modelo, tal y como ocurre en la realidad. Para ello se han realizado todas y cada una de las etapas necesarias en la construcción de un modelo de aprendizaje estadístico, como la depuración de datos, la elección de modelos regresivos adecuados o la predicción de variables regresivas. Como conclusión, se muestran los resultados obtenidos, es decir, la tabla clasificatoria predicha por el modelo, y se comparan con los resultados reales de la temporada en cuestión.
  • Acceso AbiertoTrabajo Fin de Grado
    Aleatorización adaptativa de covariables en ensayos clínicos
    (2024-06-03) González Acosta, Melisa; Muñoz Reyes, Ana María
    En los ensayos clínicos es habitual utilizar métodos de aleatorización para asignar los pacientes a los distintos tratamientos. Los métodos de aleatorización adaptativa de covariables son métodos de aleatorización que se han ido desarrollando en los últimos años, tras observar que los métodos de aleatorización tradicionales estaban dando ciertos problemas. Concretamente, los métodos de aleatorización adaptativa de covariables aprovechan las características de los distintos pacientes, de manera que se asignan secuencialmente según las características de los anteriores pacientes. Desarrollamos algunos de estos métodos junto con aspectos teóricos de los mismos, así como presentamos una ilustración de la librería carat de R, que trabaja con todos ellos.
  • Acceso AbiertoTrabajo Fin de Grado
    Competiciones en Kaggle: predicción de la calidad de la escritura
    (2024-06-05) Medina Gordillo, Elena; Romero Jiménez, Álvaro
    El objetivo de este trabajo es aplicar los conocimientos adquiridos durante la carrera en la construcción de modelos predictivos que permitan afrontar la realización de competiciones de ciencia del dato, como las disponibles en la plataforma Kaggle. En primer lugar, para familiarizarme con el funcionamiento de esa plataforma realicé una competición sencilla, que pedía predecir la supervivencia o no de los pasajeros del famoso trasantlántico Titanic, tristemente naufragado el 14 de abril de 1912. Sin embargo, el auténtico trabajo realizado ha consistido en abordar una competición más compleja, organizada por la Universidad de Vanderbilt y The Learning Agency Lab, que buscaba explorar la relación entre comportamiento de escritura y calidad de texto. Esta competición pedía predecir la calidad de un escrito a partir del comportamiento de tecleo durante el proceso de redacción. Para ello, proporcionaba un gran conjunto de registros de pulsaciones de teclas capturando características del proceso de escritura. El objetivo último de la competición era tratar de aportar perspectivas útiles para la enseñanza de la escritura, el desarrollo de técnicas de evaluación automatizadas y sistemas de tutoría inteligente.
  • Acceso AbiertoTrabajo Fin de Grado
    Métodos estadísticos y de simulación para el análisis de colas
    (2024-06-04) Jiménez Ordóñez, Javier; Pino Mejías, José Luis
    Este trabajo de fin de grado aborda la teoría de colas, una rama de la investigación operativa y la probabilidad, fundamental para el estudio y la optimización de sistemas donde se gestionan esperas. En primer lugar, se introduce el concepto de procesos estocásticos y se profundiza en los procesos de Markov y diversas distribuciones de probabilidad, como la determinística, exponencial, Poisson y Erlang. A continuación, se describe la estructura de un modelo de colas, explicando los parámetros clave y relaciones fundamentales, incluyendo el tiempo de espera y la Ley de Little. Se presentan diversos modelos de colas, haciendo énfasis en tres de los principales modelos markovianos (M/M/1, M/M/k y M/M/k/N) y también se mencionan algunos modelos no markovianos. El siguiente apartado trata sobre la inferencia estadística en los primeros, destacando las particularidades de los procesos estacionarios y ergódicos, la inferencia aplicada a procesos de Markov y los tests de hipótesis. Por último, en la sección de análisis en R, se revisan las librerías queueing, queuecomputer y simmer, mostrando su aplicación práctica para modelizar y analizar sistemas de colas.
  • Acceso AbiertoTrabajo Fin de Grado
    Modelos de predicción de incendios forestales
    (2024-06-05) Baeza Ruiz-Henestrosa, Juan; Valencia Cabrera, Luis; Rodríguez Gallego, José Antonio
    En el presente trabajo fin de estudios se aborda el problema de la predicción diaria de incendios forestales en la Comunidad Autónoma de Andalucía haciendo uso de técnicas de procesamiento de datos espaciales y modelos de Machine Learning. Se fija el marco temporal del estudio entre los años 2002 y 2022. Se consideran 27 variables correspondientes a 6 categorías: antropogénica, meteorológica, topográfica, demográfica, hidrológica y de vegetación. Se usan los perímetros de incendios forestales mayores de 100 ha ocurridos en Andalucía y obtenidos a partir de imágenes satélite y datos de campo disponibles en la Red de Información Ambiental de Andalucía (REDIAM). Se implementan métodos para procesar los conjuntos de datos espaciales recopilados y generar muestras adecuadas para entrenar modelos predictivos, con los cuales se genera una muestra de 21.546 registros que se usa para entrenar los modelos, considerando una partición temporal en entrenamiento-validación-test. Los modelos analizados han sido: Regresión Logística con penalización, Regresión Logística con penalización usando PCA, k-Nearest Neighbours, SVM lineal, SVM radial, Árboles de Decisión y Random Forest. Se han ajustado los valores de los hiperparámetros evaluando el rendimiento sobre el conjunto de validación y se ha comparado el rendimiento de los modelos construidos sobre el conjunto test considerando diversas métricas. Han destacado los modelos de Regresión Logística lasso y SVM, que han obtenido los mejores resultados en el conjunto test. Finalmente, se ha evaluado el desempeño de estos modelos en dos casos prácticos, obteniendo resultados prometedores.
  • Acceso AbiertoTrabajo Fin de Grado
    Métodos Estadísticos en Diagnóstico Clínico
    (2024-10-22) Guerrero Martín, Patricia; Pino Mejías, José Luis; García de las Heras, Joaquín Antonio
    En el presente Trabajo de Fin de Grado se aborda el uso de métodos estadísticos para el diagnóstico de enfermedades. Para ello, en el primer capítulo, hablaremos sobre qué es el diagnóstico clínico y cuales son los procedimientos más comunes actualmente para llevarlo a cabo mediante la estadística y las matemáticas. Tras ello, expondremos las bases teóricas de tres de estas técnicas: el método de k-Vecinos Más Cercanos en el siguiente capítulo y el algoritmo de Árboles de decisión y de Random Forests en sucesivos capítulos. Las tres serán vistas tanto para problemas de clasificación como para problemas de regresión. Los problemas de clasificación tienen como objetivo identificar las características que indican el grupo al que pertenece cada caso. Este patrón se puede utilizar para comprender los datos existentes y para predecir cómo se comportarán las nuevas instancias. La minería de datos crea modelos de clasificación examinando datos ya clasificados (casos) y encontrando por inducción un modelo predictivo. Por otro lado, la regresión se refiere a una tarea en la que el objetivo es predecir un valor numérico continuo basado en uno o más atributos de entrada. Una vez analizada la teoría, se complementa con una aplicación. En esta, se hace un estudio sobre si un individuo presenta o no diabetes de tipo II. Trabajamos sobre una base de datos de la plataforma ‘Kaggle’ con información relativa a un estudio en un grupo de mujeres donde se recogen variables explicativas como la presión arterial, índice de masa corporal. . . y su respectiva variable respuesta acerca de si son sanas o diabéticas. Hemos desarrollado los distintos algoritmos con un conjunto de funciones recogidas en la biblioteca ‘Scikit-Learn’ de Python. Nos quedamos con el mejor y haremos predicciones con nuevos datos.
  • Acceso AbiertoTrabajo Fin de Grado
    Modelos de Predicción para la Detección Prenatal del Síndrome de Down
    (2024-10-24) Hernández Barba, Noelia; Valencia Cabrera, Luis; Orellana Martín, David
    Este trabajo aborda el desarrollo de modelos de clasificación para la detección del síndrome de Down en el primer trimestre del embarazo. Se basa en datos sobre las características físicas de la mujer, como el peso, la edad, la altura y la etnia, así como en datos genéticos del ARN obtenido del plasma fetal, utilizando técnicas de aprendizaje automático que permiten una evaluación más precisa de los riesgos asociados. A lo largo del proceso, se llevan a cabo diferentes etapas. Comenzamos con un análisis descriptivo de los datos, intentando extraer características relevantes y patrones que puedan influir en la detección del síndrome de Down. A continuación, implementamos los modelos de clasificación utilizando tidymodels, lo que nos permite gestionar y optimizar los modelos de manera eficiente. Esta implementación se complementa con una discusión detallada sobre los resultados obtenidos, donde analizamos el rendimiento de cada modelo y su capacidad para discriminar entre las clases. Finalmente, se presentan las conclusiones sobre los objetivos planteados que impulsan el estudio, así como propuestas para mejorar ciertos aspectos en investigaciones futuras.
  • Acceso AbiertoTrabajo Fin de Grado
    Modelos Ocultos de Markov
    (2024-10-22) Ortega Cartelle, Cristina; Pino Mejías, Rafael
    Hidden Markov Models (HMM) are powerful probabilistic tools for analyzing sequential data where observations depend on unobservable internal states. Their flexibility allows them to model a wide range of complex phenomena across various fields, including speech recognition, bioinformatics, finance, and cognitive analysis. HMMs are particularly useful in situations where underlying processes cannot be directly measured, enabling the inference of hidden dynamics from observable data. Over time, these models have proven effective in uncovering hidden patterns, predicting future behaviors, and segmenting time series based on internal states. This work explores the fundamental principles of HMMs and their applicability, emphasizing their value in understanding and representing complex sequential systems.