Tesis (Lenguajes y Sistemas Informáticos)

URI permanente para esta colecciónhttps://hdl.handle.net/11441/11395

Examinar

Mostrando 1 - 20 de 138

Métodos y herramientas de normalización de información clínica para su uso avanzado en asistencia sanitaria e investigación biomédica
(2025-07-08) Parra Calderón, Carlos Luis; Escalona Cuaresma, María José; Martínez García, Alicia; Lenguajes y Sistemas Informáticos
Esta tesis por compendio de publicaciones aborda los retos y oportunidades en la reutilización de datos de salud en un contexto de transformación digital de la sanidad y de la investigación biomédica, centrándose en mejorar el manejo de los datos, privacidad y la implementación de guías de práctica clínica (GPC) mediante el uso de tecnologías avanzadas. El acelerado desarrollo de tecnologías digitales ha permitido la acumulación masiva de datos de salud, lo que abre importantes oportunidades para la investigación y la toma de decisiones clínicas. Sin embargo, la falta de interoperabilidad entre sistemas, la limitada adopción de los principios FAIR (Findable, Accessible, Interoperable, and Reusable) y las preocupaciones sobre la privacidad de los datos clínicos y limitaciones legales de su uso plantean importantes barreras para su plena explotación. La tesis propone un conjunto de metodologías innovadoras basadas en los principios FAIR, guías clínicas computacionales orientadas al usuario y el aprendizaje federado preservador de la privacidad para superar estos desafíos. Se desarrolló un marco para la transformación de datos clínicos en datos FAIR, facilitando su accesibilidad y reutilización. Además, se evaluó la viabilidad de la implementación de GPC computacionales para el manejo de la diabetes mellitus tipo 2, demostrando que los modelos computacionales pueden mejorar la adherencia clínica y reducir la variabilidad en la atención. También se diseñó e implementó una arquitectura de aprendizaje federado sobre datos FAIR que permite a múltiples organizaciones colaborar en el desarrollo de modelos predictivos sin comprometer la privacidad de los pacientes. Y por último, se demostró el valor que aporta el desarrollo de GPC orientadas por el usuario. La tesis concluye que la transformación de datos basada en principios FAIR y la implementación de aprendizaje federado representan avances significativos hacia la creación de sistemas de salud interconectados que investigan de manera colaborativa, donde los datos clínicos puedan ser compartidos y reutilizados de manera segura y eficiente. También subraya la necesidad de interfaces centradas en el usuario para mejorar la adopción de guías de práctica clínica computacionales. La investigación futura debe enfocarse en la introducción de estos métodos en el desarrollo de una nueva generación de Historias de Salud Electrónicas (HSE) que incorporen estándares globales de objetos digitales FAIR y faciliten la adopción de herramientas de inteligencia artificial que mejoren la toma de decisiones clínicas personalizadas. Este trabajo contribuye al avance del ecosistema digital de la salud, mejorando la accesibilidad, interoperabilidad y seguridad de los datos; la compartición de los datos y la reproducibilidad de la investigación en Salud y la adherencia a las guías de práctica clínicas, con el objetivo final de transformar la atención médica y acelerar la investigación mediante el uso eficiente y seguro de los datos de salud.
Advanced Techniques for enhancing Security in the software supply Chain
(2025-07-04) Márquez Trujillo, Antonio Germán; Varela Vaca, Ángel Jesús; Lenguajes y Sistemas Informáticos; Ministerio de Ciencia, Innovación y Universidades (MICIU). España; Junta de Andalucía
La cadena de suministro de software (Software Supply Chain) se ha convertido en un elemento esencial y, al mismo tiempo, crítico en el desarrollo de sistemas software modernos. El uso masivo de componentes de terceros ha permitido acelerar los procesos de desarrollo y fomentar la reutilización, pero también ha introducido riesgos de seguridad significativos que afectan a todo el ecosistema de software, desde bibliotecas externas hasta servicios desplegados en producción. En este contexto, esta tesis doctoral propone y evalúa un conjunto de técnicas avanzadas destinadas a fortalecer la seguridad en la Software Supply Chain, con especial énfasis en la detección de vulnerabilidades, la evaluación de su explotabilidad y la automatización de documentos de seguridad. La investigación se articula en torno a tres objetivos principales. El primero consiste en el desarrollo de Depex, una herramienta diseñada para construir grafos de dependencias (directas e indirectas) e identificar automáticamente vulnerabilidades que afectan a la cadena de suministro software. Este análisis se realiza mediante razonamiento lógico sobre información extraída de repositorios de seguridad como NVD, OSV, VulnersDB y ExploitDB. El segundo objetivo da lugar a VEXGen, un sistema para la generación automática y enriquecimiento de documentos VEX (Vulnerability Exploitability eXchange). Estos documentos permiten comunicar de forma estructurada el estado de explotabilidad de las vulnerabilidades que afectan a componentes de la Software Supply Chain, optimizando la toma de decisiones en contextos de gestión de riesgos. VEXGen automatiza un proceso tradicionalmente manual y propenso a errores, reduciendo así el esfuerzo requerido para mantener la trazabilidad y transparencia de los riesgos en la cadena de suministro. El tercer aporte clave es Niffler, un Small Language Model (SLM) entrenado específicamente para recomendar exploits a vulnerabilidades sin exploits conocidos. Esta herramienta resulta especialmente útil en entornos de la Software Supply Chain, donde muchas vulnerabilidades carecen de exploits públicos, dificultando la priorización y evaluación de su impacto. Niffler contribuye a cubrir ese vacío mediante técnicas de inteligencia artificial aplicadas a grandes volúmenes de información de seguridad. La tesis se enmarca metodológicamente en el paradigma de Design Science Research (DSR) y sus resultados han sido validados en contextos académicos e industriales reales. Las soluciones desarrolladas permiten abordar de forma integral los retos actuales de seguridad en la cadena de suministro de software, mejorando la eficiencia, precisión y automatización de tareas críticas como la detección de vulnerabilidades, la generación de documentación de seguridad y la evaluación de amenazas. En conjunto, esta investigación contribuye de manera significativa a la protección de los activos digitales y al fortalecimiento de la Software Supply Chain como componente estratégico en el desarrollo y mantenimiento de software seguro.
Automated Test Data and Test Oracle Generation for REST APIs
(2025-07-02) Alonso Valenzuela, Juan Carlos; Ruiz Cortés, Antonio; Segura Rueda, Sergio; Lenguajes y Sistemas Informáticos; Ministerio de Ciencia e Innovación (MICIN). España; European Union (UE); Junta de Andalucía
Web Application Programming Interfaces (APIs) enable communication between heterogeneous software systems over the network. Most applications we use daily rely on one or more web APIs to deliver their functionality. These APIs—fundamental components powering services from companies like Google, Meta, and Microsoft—typically adopt the REpresentational State Transfer (REST) architectural style and are known as REST or RESTful APIs. By offering external access to their APIs, companies and independent developers allow third-party developers to integrate their services into their applications. This widespread openness and interoperability have made REST APIs a central pillar in the modern software ecosystem, driving seamless integration across platforms and services. Given the critical role REST APIs play in software integration, thoroughly testing them is essential: a single fault in an API can compromise the functionality of all systems that depend on it. In recent years, the automated testing of REST APIs has emerged as a vibrant research area, with numerous approaches leveraging API specifications to automatically generate test cases. To support this need, many companies now provide Testing as a Service (TaaS) solutions, offering developers a practical way to test APIs without the overhead of managing dedicated testing infrastructure. The main objective of this dissertation is to address two major limitations commonly found in existing automated testing approaches for REST APIs: the lack of mechanisms for generating realistic input values automatically, and the limited capability of their test oracles, which often focus solely on detecting server errors or validating response syntax. To overcome these challenges, this work introduces three novel contributions: ARTE, an approach that leverages the specification of an API and execution feedback to generate realistic input values; AGORA+, a technique that infers test oracles from previous API executions; and SATORI, a method that analyzes the specification of an API to generate test oracles, without requiring prior API execution. These contributions have been implemented as tools designed to integrate seamlessly with existing automated testing frameworks, thereby enhancing their ability to generate valid API requests and detect a broader range of failures. We conducted extensive evaluations of our proposed approaches in real-world scenarios, focusing on industrial APIs with millions of active users. Our techniques uncovered over 40 previously undetected failures in widely used commercial platforms such as Amadeus Hotel, YouTube, Vimeo, Foursquare, GitHub, and GitLab. These findings have led to multiple bug fixes and improvements in API documentation, demonstrating the practical impact and effectiveness of our contributions.
Técnicas de Deep Learning aplicadas a la detección de comportamientos agresivos
(2025-03-14) Rendón Segador, Fernando José; Álvarez García, Juan Antonio; Soria Morillo, Luis Miguel; Lenguajes y Sistemas Informáticos
La detección y comprensión de comportamientos agresivos son áreas críticas en diversos campos, como la seguridad, la psicología, la educación y las redes sociales. En esta tesis, presentada como conjunto de artículos de investigación, se exploran las técnicas de aprendizaje profundo (Deep Learning) como herramientas para abordar este desafío. El desarrollo de sistemas capaces de detectar comportamientos agresivos presenta múltiples ventajas en diversos ámbitos, incluyendo la prevención de la violencia, la mejora de la seguridad pública, la atención médica y el análisis de redes sociales. Sin embargo, este avance enfrenta desafíos significativos. La precisión en la identificación de comportamientos agresivos es crucial, pero complicada debido a la variabilidad cultural y contextual. La escalabilidad es otro desafío importante, especialmente en entornos de alta escala como las redes sociales. Las preocupaciones sobre privacidad y ética también deben abordarse cuidadosamente para evitar la vigilancia excesiva y el sesgo algorítmico. Finalmente, la capacidad de generalización de los modelos a diferentes contextos y poblaciones es fundamental para su efectividad y aplicabilidad en la práctica. Estos desafíos deben ser considerados y abordados en el desarrollo de sistemas de detección de comportamientos agresivos efectivos y éticos. En este trabajo, se presenta un sistema de detección de comportamientos violentos en videos mediante técnicas de Deep Learning. El modelo final de red neuronal profunda propuesta es un vision transformer (ViT) junto al paradigma de aprendizaje neuronal estructurado con regularización adversaria (NSL). Este modelo ha sido entrenado y evaluado con los conjuntos datos NTU CCTV Fights, UBI Fights, XD Violence, UCF Crime, Hockey Fights, Violent Flows y Surveillance Camera Fights. El modelo y el paradigma de aprendizaje propuestos obtienen entre un 99 y un 100% de precisión en los conjuntos de datos mencionados, mejorando significativamente todos los resultados previos del estado del arte. Además, el modelo propuesto consigue una mayor eficiencia en términos de recursos computacionales y en tiempo de inferencia pudiendo aplicarse a entornos reales. Por otro lado, surge la problemática de un incremento de falsos positivos en validaciones cruzadas entre distintos conjuntos de datos. Para solventar este problema se optó finalmente por el desarrollo de un modelo de red neuronal profunda de ventana deslizante basado en transformer con umbral adaptativo. La solución propuesta logra eliminar la cantidad de falsos positivos, mejorando la precisión entre un 5% y un 10 % en AUC ROC en los distintos conjuntos de validación, consiguiendo así una mejora en la generalización de la detección de comportamientos violentos.
Automated Management of Inter-Parameter Dependencies in Web APIs. The IDL Tool Suite
(2025-03-20) Alias Barakat, Saman; Segura Rueda, Sergio; Lenguajes y Sistemas Informáticos; Ministerio de Ciencia, Innovación y Universidades (MICIU). España; Agencia Estatal de Investigación. España
Web Application Programming Interfaces (APIs) often include dependencies that restrict how input parameters can be combined for making valid calls to the service. These inter-parameter dependencies are prevalent, appearing in 4 out of every 5 APIs across various application domains. However, current API specification languages, such as the OpenAPI Specification (OAS), lack formal mechanisms for describing them. Instead, developers rely on informal natural-language descriptions, which lead to ambiguities and hinder automation. In previous work, the ISA research group introduced IDL (Inter-parameter Dependency Language), a domain-specific language tailored for the formal specification of inter-parameter dependencies, and IDLReasoner, a Java-based library for the automated analysis of IDL specifications. Both contributions have been leveraged by different groups of authors in the context of test case generation for REST APIs, enabling the detection of hundreds of bugs in commercial APIs such as Amadeus, GitHub, Yelp, and YouTube. Despite advances in testing, IDL and IDLReasoner have exposed serious limitations in terms of performance, explainability, and integration with other tools. Additionally, their potential applications beyond testing remain largely unexplored. Key domains such as code generation and API gateways, for example, face substantial challenges due to the lack of support for inter-parameter dependencies. In code generation, existing tools fail to account for dependencies among input parameters, requiring developers to manually implement validation logic---a process that is both laborious and error-prone. Similarly, current request validators integrated into API gateways fail to detect or explain invalid requests that violate these dependencies. This shortcoming leads to wasted resources, user dissatisfaction, and input validation failures. The primary objective of this dissertation is to extend and enhance existing tool support for the automated management of inter-parameter dependencies in web APIs, and leverage it in novel applications to code generation and API gateways. Regarding tool support, we present the IDL Tool Suite, a set of tools for the automated management of inter-parameter dependencies in web APIs. The suite, built on top of IDL, includes a new analysis engine---overcoming the performance limitations of IDLReasoner---, a new analysis operation for explainability, a web API to ease integration, and a website, among others. Regarding applications, in code generation, we introduce IDLGen, a tool designed to automate the generation of validation code for inter-parameter dependencies in Java and Python server projects. IDLGen was evaluated using 14 API operations, generating up to 9.4 times more validation code than a state-of-the-art code generator. An empirical study involving 81 participants revealed that IDLGen saves an average of 16 minutes (for one dependency) to 24 minutes (for three dependencies) per API operation. More importantly, the generated code minimizes the risk of errors, significantly improving API robustness and reliability. In the context of API gateways, we introduced IDLFilter to detect and explain inter-parameter dependency violations. Our prototype, IDLFilter, built on Spring Cloud Gateway, was evaluated using 12 industrial API operations, 30K API calls, and an experiment with 151 participants. The results show that our approach effectively blocks invalid calls caused by dependency violations, provides informative error messages, and minimizes potential input validation failures. IDLFilter introduces a modest 7\% overhead when processing valid API requests, while reducing the response time of requests with dependency violations by 59\%. Overall, this dissertation provides advanced tool support for the automated management of inter-parameter dependencies in web APIs, laying a foundation for accelerating the development of more reliable service-oriented applications.
Automate It All! Revamping the Outsourcing Industry
(2024-12-02) Martínez Rojas, Antonio; Jiménez Ramírez, Andrés; González Enríquez, José; Lenguajes y Sistemas Informáticos
Automating repetitive tasks has long been a priority for many organizations and has been extensively studied within the field of process science. Over the last decade, Robotic Process Automation (RPA) has emerged as a highly effective method to achieve this goal. RPA enables experts to automate and integrate information systems using graphical user interfaces, offering a fast and efficient solution for repetitive task automation. Rather than constructing software robots from scratch, Robotic Process Mining (RPM) and Task Mining (TM) approaches can be used to monitor user behavior through timestamped events—such as mouse clicks and keystrokes—which are recorded in a User Interface log (UI Log) to automatically discover the underlying process model. A significant challenge in outsourcing environments, where remote virtualized systems are commonly used, is the limited information available from traditional UI logs. These logs do not capture visual context, making it difficult to identify user activities and understand decision-making processes, especially when multiple process variants exist. Existing approaches analyze the UI Log to identify underlying rules but often neglect what is displayed on the screen, resulting in an incomplete understanding of the process. To overcome these limitations, this dissertation proposes a screen-based task mining framework that enriches UI logs by incorporating visual information through screenshots and eye-tracking data captured during each interaction. This enriched log not only improves the identification of process activities but also enables the discovery of decision models, offering a more comprehensive understanding of human behavior —particularly in outsourcing contexts. By using image-processing techniques to extract relevant visual details from the screenshots, this approach extends the current capabilities of task mining, allowing for the construction of decision models that explain user choices in greater depth. These decision models are represented as decision trees, which explicitly highlight the visual elements that influence decision-making. The proposed framework has been validated through multiple case studies involving both synthetic mockups and real-life screenshots, demonstrating a high level of accuracy in capturing user decisions. The results indicate that the overall approach significantly enhances the effectiveness of task mining, revealing information previously hidden in traditional log analysis, and has the potential to revamp the outsourcing industry by improving automation applications in this type of environments.
A Contribution to Music Theory Enhanced and Emotion Aware; Deep Learning Based Symbolic Music Generation
(2024-12-16) Civit, Miguel; Escalona Cuaresma, María José; Cuadrado Méndez, Francisco José; Drai-Zarbib, Veronique; Lenguajes y Sistemas Informáticos; Comunicación Audiovisual y Publicidad
This thesis presents a comprehensive exploration of deep learning-based systems for music generation. The work focuses on improving the integration of music theory and incorporating emotion awareness into automatic music generation (AMG) through the improvement of user-centered validation methodologies. It examines the state-of-the-art in AMG systems, addressing key challenges related to style, dataset selection, and architecture. The study proposes a meta-methodology for evaluating AMG systems that combines both objective and subjective user-based assessments, emphasizing the role of human emotion in music composition and generation. This methodology is further expanded with the creation and analysis of a AMG dataset to expand on the theory-awareness of the generation systems. The evaluation approach is further tested in different real-world contexts, with a particular focus on user interaction and the usability of AI-generated music systems. Furthermore, the thesis explores the potential for applying the proposed methodologies to AI-driven music-related devices, describing future directions for integrating AI into music composition, education, and performance environments. The findings highlight the growing relevance of emotion-aware music systems in creative processes, propose solutions to current AI generation problems, and present new practical tools for evaluating and developing AI-based musical solutions.
Context-Dependent User Experience Assessment Approach for Voice User Interfaces
(2024-11-29) Klein, Andreas M.; Escalona Cuaresma, María José; Rauschenberger, Maria; Lenguajes y Sistemas Informáticos
Voice user interfaces (VUIs) such as Amazon Alexa, Apple Siri, and Google Assistant are widely used, readily available, and seamlessly integrated into everyday life. They have become more intelligent due to recent advances in artificial intelligence, which provides new methods of processing contextual information. Despite their widespread use and recent innovations, VUIs face challenges regarding intelligibility, human-like conversation, and privacy. Only a tiny fraction of users perceive VUIs as intelligent and trustworthy as humans. User experience (UX) evaluation is anchored in the human-centered design process. UX is a holistic view of the user’s perception of interaction. The prominent role of UX evaluation methods for designs with graphical user interfaces (GUIs) reflects their dominance in computer-based technology. Furthermore, methods are often tailored to specific measurement contexts. Therefore, the human-computer interaction community requires a flexible and adaptable UX evaluation for VUIs. The core goal of this dissertation is to provide context-dependent UX measurement recommendations for VUIs. We apply the standardized design science research methodology. Our approach is based on the User Experience Questionnaire Plus (UEQ+) framework, which allows flexible assessment. One can select from several UX scales measuring distinct aspects to form a questionnaire. However, the UEQ+ was mainly developed to assess GUI-equipped designs. Thus, we contribute three scales measuring relevant UX aspects for VUIs: Response Behavior, Response Quality, and Comprehensibility. We also offer a conceptual structure of the VUI context of use. By applying this structure, we can select relevant UEQ+ scales and customize the questionnaire to fit any context. This enables recommendations for context-dependent UX assessment for VUIs and provides a new flexible measurement method for better evaluation of voice technology.
Forecasting and Advanced Smart Grid Modeling to Enhance Electricity Infrastructure Resilience in Iraq
(2024-11-08) Aldarraji, Morteza; Pontes Balanza, Beatriz; Vega Márquez, Belén; Lenguajes y Sistemas Informáticos
This dissertation addresses the pressing challenge of electricity supply and demand management in Iraq, a country whose energy sector is beset by infrastructural damage, insufficient investment, and increasing demand due to population and economic growth. The study is driven by the significant discrepancy between the rapidly growing energy demand, which has increased from 11,000 MW in 2007 to 16,000 MW in 2013, and reached approximately 30,000 MW recently. The inadequate production of electricity, exacerbated by successive wars and neglect, is a key focus. This study focuses on the Iraqi Electricity Power Grid (IEPG) and employs advanced modeling and artificial intelligence techniques to address the challenges arising from the recent surge in electricity demand. It examines forecasting energy demand and supply, assesses the network’s current performance, and proposes robust models for its enhancement. The study uses an unprecedented dataset from 2019 to 2021 provided by the Iraqi Ministry of Electricity to predict electricity demand and supply over various horizons (24, 48, 72, and 168 hours ahead). This dataset, combined with various advanced forecasting models, such as linear regression, XGBoost, random forest, long short-term memory (LSTM), temporal convolutional networks (TCN), and multilayer perceptron (MLP), aims to achieve the most accurate predictions possible. The results show that linear regression is more effective in demand forecasting, while XGBoost excels in supply predictions. This comprehensive evaluation highlights the necessity of using a multifaceted approach to enhance forecasting accuracy in Iraq's complex energy landscape. This work represents a pioneering effort in applying complex network (CN) concepts to model the IEPG network. Using two datasets, it offers a novel perspective on the intricate grid of generation power stations, ultra-high-voltage stations, high-voltage substations, and their interconnections via transmission lines. The employment of Gephi software and CN analytics enables sophisticated visualization and analysis of the network. The proposed models and scenarios, each with distinct focuses, such as rehabilitating idle stations, expanding the network, reinforcing transmission lines, and integrating solar power, are evaluated to discern optimal strategies for bolstering Iraq’s electricity infrastructure. Furthermore, the thesis explores the relationship between climate variables and energy demands by clustering 15 Iraqi cities according to temperature, power supply, and demand profiles using self-organizing maps (SOM), the K-means algorithm, and consensus clustering. This innovative approach highlights significant regional variations in energy profiles, suggesting tailored policy interventions and reinforcing the critical role of climatic factors in shaping energy requirements. The findings have significant implications for energy policy and planning in Iraq, contributing to the broader discourse on sustainable energy management in post-conflict settings. The proposed forecasting models and CN-based analyses provide valuable tools for policymakers and engineers to address the challenges of energy supply, demand management, and infrastructure development, ultimately aiming to improve the quality of life of the Iraqi population through enhanced energy security and economic growth.
Advanced Stress Management: Integration of Physiological Signals and Personal Characteristics to Prevent and Manage Stress
(2024-09-24) Scherz, Wilhelm Daniel; Ortega Ramírez, Juan Antonio; Seepold, Ralf; Lenguajes y Sistemas Informáticos
The doctoral thesis, entitled "Advanced Stress Management: Integration of Physiological Signals and Personal Characteristics to Prevent and Manage Stress," addresses the issue of stress, which has become a significant concern in modern society. Stress, whether subjectively or physiologically measured, has been shown to have a detrimental effect on decision-making abilities and to have a significant impact on an individual's health and wellbeing, as well as on the private and public economy. While technological advances simplify our daily lives, stress management is more challenging than ever due to individual perceptions, cultural nuances and personality traits. The need to respond quickly to the challenges of the workplace, traffic and the drive to achieve more and more is making chronic stress more prevalent and increasing the importance of understanding, measuring and predicting stress. In this dissertation, stress is defined as the effect of a stressor on the body. Stressors may be either short-term or long-term in nature and can result in the body functioning in a manner that differs from its normal functioning. However, they also facilitate the body's response to and coping with the situation. With regard to the most common methods of measuring stress, two main approaches can be identified. The first is the traditional approach, which involves the use of questionnaires or direct communication with individuals. The second is the use of physiological signals. In this research, questionnaires were employed to determine the baseline level of stress, to compare stress and physical activity, and to study the relationship between stress, personality traits and the demographics of the participants. It is acknowledged that stress cannot be entirely avoided in our lives. Stress has the function of optimising bodily functions and assisting in the coping with dangerous or challenging situations. However, it is possible to develop a system that helps us to understand and detect stress more efficiently, thus avoiding situations that are dangerous or hazardous. This approach enables a more comprehensive understanding of stress, enhanced management strategies, and a reduction in the long-term negative effects of stress.
On Data Engineering and Knowledge Graphs: A Reinforcement Learning system for Knowledge Graph Reasoning
(2024-07-18) Bermudo Bayo, Miguel; Hernández Salmerón, Inmaculada Concepción; Ayala Hernández, Daniel; Lenguajes y Sistemas Informáticos
Knowledge Graphs have been at the forefront of domain information storage since their inception. These graphs can be used as the basis for a number of smart applications, such as question answering or product recommendations. However, they are generally built in an automated unsupervised way, which frequently leads to missing information, usually in the form of missing links between related entities in the original data source, and which have to be added a posteriori by completion techniques. Knowledge Graph Completion seeks to find missing elements in a Knowledge Graph, usually edges representing some relation between two concepts. One possible way to do this is to find paths between two nodes that indicate the presence of a missing edge. This can be achieved through Reinforcement Learning, by training an agent that learns how to navigate through the graph, starting at a node with a missing edge and identifying what edge among the available ones at each step is more promising in order to reach the target of the missing edge. While some approaches have been proposed to this effect, their reward functions only take into account whether the target node was reached or not, and only apply a single Reinforcement Learning algorithm. In this regard, we present a new family of reward functions based on node embeddings and structural distance, leveraging additional information related to semantic similarity and removing the need to reach the target node to obtain a measure of the benefits of an action. We introduce SpaceRL an end-to-end Python framework designed for the generation of reinforcement learning (RL) agents, which can be used in knowledge graph completion and link discovery. The purpose of the generated agents is to help identify missing links in a knowledge graph by finding paths that implicitly connect two nodes, incidentally providing a reasoned explanation for the inferred new link. The generation of such agents is a complex task, even more so for a non-expert user, and to the best of our knowledge there do not exist tools to provide that kind of support. SpaceRL is meant to overcome these limitations by providing a flexible set of tools designed with a wide variety of customization options, in order to be flexible enough to adapt to different user needs. It also includes a variety of state-of-the-art RL algorithms and several embedding models that can be combined to optimize the agent’s performance. Furthermore, SpaceRL offers different interfaces to make it available either locally (programmatically or via a GUI), or through an OpenAPI-compliant REST API.
Automated capacity analysis of limitation-aware microservices architectures
(2024-03-22) Fresno Aranda, Rafael; Fernández Montes, Pablo; Ruiz Cortés, Antonio; Lenguajes y Sistemas Informáticos
La aparición de las arquitecturas de microservicios (MSAs) ha supuesto un cambio importante en la forma en la que se desarrollan sistemas y aplicaciones. Se trata de una evolución del paradigma de las arquitecturas orientadas a servicios (SOAs), y cuenta con diversas ventajas frente a las arquitecturas monolíticas tradicionales. Por ejemplo, podemos destacar la agilidad y rapidez de despliegue, escalabilidad, rendimiento, mejor mantenimiento o flexibilidad. Esto hace que las MSAs hayan ganado popularidad en los últimos años, habiendo sido adoptadas por muchas empresas como Netflix, Amazon o Spotify. En el contexto de las MSAs, es habitual el uso de interfaces de programación de aplicación (APIs), que sirven como mecanismo de comunicación entre los servicios de la arquitectura. Entre los diversos tipos de APIs, las más populares son las APIs RESTful, que se basan en el uso de peticiones HTTP para controlar el estado de datos o servicios, denominados recursos. Esta aproximación permite una mayor descentralización de los servicios, lo que coincide con la esencia de las MSAs. Ante este escenario, muchas empresas han encontrado en las APIs la posibilidad de vender sus datos y funcionalidades para que puedan ser usados por otras empresas. Este nuevo paradigma se denomina API economy, y se define como el conjunto de modelos y prácticas de negocio que se centran en torno al uso de APIs públicas. Esto abre la puerta a nuevas formas de innovación, colaboración y generación de beneficios. Una de las bases de la API economy es la definición de planes de precios. Las empresas que quieran usar una API deberán elegir entre diversos planes. Estos planes establecen una serie de limitaciones de uso a cambio de un precio específico, habitualmente una suscripción periódica. Las limitaciones más habituales son las restricciones del número de peticiones que se pueden enviar en un determinado periodo de tiempo. No obstante, existen otras muchas limitaciones que dependen del dominio de cada API. Con la aparición de la API economy, se hace necesario analizar cómo influyen las limitaciones y los precios de los planes elegidos en la capacidad de la MSA. Esto es, averiguar la carga de trabajo que la MSA puede soportar sin exceder las limitaciones de las APIs consumidas, así como mantener los costes dentro del presupuesto de las empresas. Además, no es poco frecuente que las empresas ofrezcan sus propias APIs con sus propios planes a sus clientes. En este escenario, las empresas actúan como prosumidores, porque consumen APIs externas a la vez que proveen sus propias APIs. La confrontación de estos dos roles genera un problema de impedancia, porque las empresas necesitan gestionar y equilibrar cuidadosamente los costes de las APIs consumidas, mientras que mantienen condiciones óptimas para sus clientes. Hasta donde nosotros sabemos, este análisis no se ha hecho nunca en la literatura existente, lo que abre una línea de investigación interesante a la vez que útil. Además, el análisis manual de una MSA con APIs externas es tedioso y propenso a errores, por lo que es conveniente tener algún sistema de análisis automático. Por lo tanto, el objetivo principal de esta tesis es el desarrollo de modelos y técnicas para asistir en el análisis de la capacidad de arquitecturas de microservicios que consumen APIs externas con limitaciones. Estas MSAs las hemos denominado arquitecturas de microservicios conscientes de limitaciones (LAMAs). Los resultados principales han sido: (I) Definición de un modelo para la descripción de LAMAs y los planes de precios. Esto comprende: (i) analizar un conjunto representativo de APIs reales para conocer su estructura y elementos habituales; (ii) extensión de un modelo existente con nuevos elementos; (iii) proponer un nuevo modelo para la descripción de la topología de una LAMA; (iv) definir un catálogo de operaciones para resolver cuestiones sobre planes de precios y sobre la capacidad de una LAMA. (II) Implementación de un ecosistema de herramientas para dar soporte al análisis automático de la capacidad de una LAMA. Esto incluye: (i) desarrollar un conjunto de herramientas para el análisis de la validez de un pricing y la capacidad de una LAMA; (ii) implementar un catálogo base de operaciones de análisis; (iii) validar las herramientas con escenarios reales y sintéticos. En esta tesis, presentamos un conjunto de modelos y herramientas que comprende lo siguiente: (i) un modelo para describir planes de precios de APIs RESTful, así como una serialización alineada con el estándar OpenAPI; y (ii) diversas herramientas para validar un pricing, calcular automáticamente la capacidad de una LAMA y dar respuesta a operaciones de análisis. Por lo tanto, los resultados de esta tesis están destinados a ayudar a las empresas que usen LAMAs en la toma de decisiones en función de sus necesidades.
Aplicación de los principios de las pruebas tempranas durante el ciclo de vida de desarrollo de los smart contracts en la tecnología blockchain
(2023-11-21) Sánchez Gómez, Nicolás; Mejías Risoto, Manuel; Torres Valderrama, Jesús; Lenguajes y Sistemas Informáticos
Los sistemas software son cada vez más multidisciplinares y complejos. Su implementación de forma satisfactoria se ha convertido en un desafío continuo para cualquier tipo de empresa u organismo. Llevar a cabo la “transformación digital” de una empresa u organización implica, entre otras cosas, la adopción de tecnologías digitales avanzadas al objeto de mejorar su funcionamiento, eficiencia, productos y servicios. Es decir, para las empresas y organizaciones supone la aceptación e integración de tecnologías como internet, la nube y los servicios en línea, el internet de las cosas, la automatización de procesos, el análisis masivo de datos, la inteligencia artificial, y otros avances tecnológicos. En este contexto, hace ya unos años, apareció la tecnología blockchain. Ésta constituye también una de esas tecnologías que están impulsando la comentada “transformación digital”, gracias a sus características únicas y su potencial para abordar ciertas limitaciones de los sistemas tradicionales. Además, dado su carácter transversal1, esta tecnología está permitiendo la disrupción en la economía y en la empresa más allá de las conocidas criptomonedas. Solo habría que realizar una búsqueda rápida por internet para evidenciar que estamos asistiendo a una importante apuesta del mercado hacia los desarrollos basados en esta tecnología disruptiva. Esto es debido, fundamentalmente, a su capacidad para transformar la forma en que se registran las transacciones y la manera en que se almacenan y recuperan los datos. En la tecnología blockchain, los llamados smart contracts (contratos inteligentes) podrían actuar como complemento o sustituto de los contratos legales, ya que pueden automatizar y ejecutar acuerdos de manera eficiente y transparente. Estos “contratos digitales” se registran en un lenguaje informático que es desplegado y ejecutado en una plataforma blockchain. Estos scripts contienen una serie de reglas y condiciones preestablecidas y, cuando se cumplen las mismas, el smart contract permite la ejecución de las acciones programadas, sin necesidad de intervención humana o de terceros. Una de las características intrínsecas de la blockchain es su inmutabilidad, es decir, la capacidad de un “libro mayor” de blockchain para permanecer como un historial permanente, indeleble e inalterable de transacciones. Por tanto, es necesario, por no decir fundamental, que antes de desplegar un smart contract en una red empresarial, estos scripts pasen por unos minuciosos procesos de verificación al objeto de validar que su funcionamiento sea el esperado. Un error o defecto en el código de estos programas, por su naturaleza inmutable, puede conducir a resultados inesperados o no deseados y, lo más grave, podría causar un efecto no reparable. Además, desde un punto de vista ingenieril, todo cambio tecnológico debería ir acompañado de un adecuado aseguramiento de la calidad, tanto de los productos software como del proceso productivo para su desarrollo y puesta en marcha. Pero, hoy en día, existen pocas utilidades, técnicas o métodos que proporcionen una solución, de forma global, para ello. Repasando la literatura existente, la tecnología blockchain está aún en sus inicios desde el punto de vista de la calidad del software. Aunque ya empiezan a ver la luz propuestas interesantes de desarrollo y enfoques metodológicos concretos, las propuestas para el aseguramiento de la calidad de los smart contracts y, sobre todo, las propuestas para abordar el testing temprano, son aún escasas o muy ambiguas. Todo esto se ha hecho evidente tras el trabajo previo de investigación realizado como parte de la presente Tesis Doctoral, donde se ha identificado que todavía son muy escasos los estudios primarios enfocados a dar una respuesta, aunque sea parcial, a esta línea de trabajo. Una vez identificado el problema y los objetivos perseguidos en relación al aseguramiento de la calidad de los smart contract, a lo largo de esta Tesis Doctoral se ha intentado dar respuesta a la siguiente pregunta de investigación: “¿Los principios que rigen las pruebas tempranas en el ciclo de vida del desarrollo de software son aplicables, en un contexto blockchain, para garantizar la calidad funcional de los smart contracts?”. Para ello, se ha analizado de forma detallada los componentes y el funcionamiento de la tecnología blockchain y, más en concreto, de los smart contract. Además, se han analizado posibles soluciones, hasta identificar una solución factible para resolver el problema identificado. En concreto, en este trabajo se ha definido un mecanismo que nos permite generar pruebas funcionales de los smart contracts a partir de las especificaciones facilitadas por el área usuario o cliente y, se ha implementado una utilidad que de soporte a la ejecución de este mecanismo de generación de pruebas funcionales de forma sistemática. Es más, gracias a un proyecto de I+D+i como es el Proyecto SmartAuditor, entre otros, se ha podido dar una respuesta práctica a estos trabajos y en un contexto industrial, siendo este proyecto pionero en resolver de forma satisfactoria esta problemática, mediante nuestra propuesta de solución basada en la aplicación de los principios del testing temprano durante el ciclo de vida de desarrollo de los smart contracts en la tecnología blockchain.
An agile innovation capability maturity framework to enhance public funding on ICT organizations
(2023-11-14) Giménez Medina, Manuel; Domínguez Mayo, Francisco José; González Enríquez, José; Lenguajes y Sistemas Informáticos
The present thesis introduces an innovative approach to addressing public funding challenges for innovation in Information and Communication Technology (ICT) companies. Innovation, characterized by its chaotic, ubiquitous, unpredictable, complex, multidimensional, and non-linear attributes, has emerged as a crucial driving force behind modern economic growth and social development. However, the nurturing and management of innovation present intricate challenges, particularly in the realm of public funding, which play a significant role in financing innovation in Europe, surpassing private funding. The allencompassing and multi-faceted nature of innovation requires a nuanced understanding and approach that both recognizes and accommodates its innate chaos and spontaneity. The inherent traits of innovation stand in stark contrast to the characteristics of its primary funding source—public administration—which is slow and bureaucratic. Consequently, the evolution of strategies and models that align public funding with the non-linear dynamics of innovation is essential for enhancing innovation performance, fostering an environment of freedom that devoid existing constraints. This thesis aims to develop and validate this original approach to enhance the public funding process for innovation in the ICT sector. The overarching aim is to foster an environment that promotes continuous, competitive, free, and agile innovation, enhancing the strategic alignment of organizations with the broader funding landscape. This objective is pursued to ultimately enhance effective and efficient productive capacity, aiming to secure competitive advantages for ICT companies engaged in innovation projects. Through a comprehensive review of the current state of the art, several shortcomings in existing funding methodologies, such as ontological issues, linear and systemic approaches, bureaucratic inefficiencies, slow processes, and limited agility, are identified. These gaps are further explored through a Delphi method study involving industry experts. Building upon these insights, the study proposes a pioneering Agile Innovation Funding Framework (AIF²) and the Lego Strategy. AIF² Framework incorporates the assessment of innovative capabilities and maturity into the public funding process. Its aim is to establish a trust, competitive, agile, and unconstrained environment for innovation that departs from the linear principles underpinning current models. Lego Strategy provides a method to circumvent existing funding limitations by modularizing intricate innovation proposals, serving as a preparatory step before the full deployment of AIF² Framework. The effectiveness of these proposed solutions is validated within the operational context of a Spanish ICT consulting firm, Emergya Group. The results demonstrate significant improvements in efficiency, efficacy, productive capacity, and competitive advantages. However, despite the tangible benefits of the framework, limitations related to the readiness of public funders to reach higher maturity levels to complete AIF² are also acknowledged. The thesis represents a substantial contribution to innovation management, offering theoretical insights and practical tools to enhance innovation processes in ICT companies. The findings and proposed solutions provide a solid foundation for future research and practice in innovation funding.
Desarrollo y validación de modelos predictivos de toxicidad asociada al tratamiento de pacientes con cáncer de pulmón basados en técnicas de aprendizaje automático
(2023-10-20) Núñez Benjumea, Francisco José; López Guerra, José Luis; Moreno Conde, Alberto; Lenguajes y Sistemas Informáticos
Antecedentes y objetivo: Las toxicidades inducidas por la radiación son eventos adversos frecuentes en los pacientes con cáncer de pulmón (CP) sometidos a radioterapia (RT). Una predicción precisa de estos efectos adversos podría facilitar un proceso de toma de decisiones informado y compartido entre el paciente y el oncólogo radioterapeuta, con una visión más clara de las implicaciones para el equilibrio vital en la elección del tratamiento. Este trabajo proporciona un benchmark para la aplicación de métodos de aprendizaje automático para predecir las toxicidades inducidas por la radiación en pacientes con CP construido sobre un conjunto de datos de salud del mundo real basado en una metodología generalizable para su implementación y validación externa. Materiales y métodos: Se combinaron diez métodos de selección de características con cinco clasificadores basados en técnicas de aprendizaje automático para predecir seis toxicidades inducidas por la RT (esofagitis aguda, tos aguda, disnea aguda, neumonitis aguda, disnea crónica, y neumonitis crónica). Se utilizó un conjunto de datos de salud del mundo real construido a partir de 875 pacientes consecutivos de CP para entrenar y validar los 300 modelos predictivos resultantes. Se calculó la precisión interna y externa en términos de AUC para cada toxicidad objetivo y agrupada por cada método de selección de características y por cada clasificador basado en técnicas de aprendizaje automático. Resultados: Los mejores modelos predictivos obtenidos para cada toxicidad objetivo alcanzaron rendimientos comparables a los métodos del estado del arte en la validación interna (AUC≥0,81 en todos los casos) y en la validación externa (AUC≥0,73 en 5 de 6 casos). Conclusiones: Siguiendo una metodología generalizable, se ha realizado un benchmark de 300 modelos diferentes basados en técnicas de aprendizaje automático haciendo uso de un conjunto de datos del mundo real, logrando resultados satisfactorios. Los resultados sugieren posibles relaciones entre factores clínicos poco reconocidos y la aparición de esofagitis aguda o disnea crónica, demostrando así el potencial que tienen los enfoques basados en técnicas de aprendizaje automático para generar nuevas hipótesis basadas en datos del mundo real.
On Data Engineering and Knowledge Graphs: a Context-Aware Proposal for Web-Scale Knowledge Graph Completion
(2023-07-07) Borrego Díaz, Agustín; Hernández Salmerón, Inmaculada Concepción; Ruiz Cortés, David; Lenguajes y Sistemas Informáticos
Nowadays, Knowledge Graphs are a widely used means to store structured information for a variety of different domains and applications. However, due to the fact that they are usually constructed using automated information extraction techniques, they are often incomplete, either because these techniques failed to extract the relevant information, or because it was not present altogether in the original sources. The problem that we address in this dissertation is how to find this missing knowledge and complete Knowledge Graphs in an automatic manner. In the literature, there are already many proposals to perform this task. However, they have important drawbacks, namely: they rely on embedded representations, which are computationally expensive to generate and demand frequent regenerations, they require human intervention or human-provided data, they rely on external sources of information, they cannot produce new knowledge on their own, or they do not scale properly to very large Knowledge Graphs. In this dissertation, we present a new automated proposal for completing Knowledge Graphs that does not suffer from any of the previous drawbacks. Our contribution is threefold: CHAI, a technique for automatically generating tractable sets of candidate triples; CAFE, a high-accuracy triple classification proposal; and SciCheck, a technique specifically tailored for completing scientific Knowledge Graphs. Our theoretical and practical validation suggests that our proposal is very efficient and effective in practice, and that it is able to successfully complete Knowledge Graphs of varying natures.
Gestión continua de la trazabilidad en procesos de reproducción asistida
(2023-07-05) Morales Trujillo, Leticia; Domínguez Mayo, Francisco José; García García, Julián Alberto; Lenguajes y Sistemas Informáticos
En la actualidad las empresas se ven obligadas a implementar sistemas de trazabilidad cada vez más sofisticados para cumplir con las exigencias del mercado y garantizar la integridad de sus productos y servicios. Esta tesis doctoral se enfoca en ofrecer una solución para la gestión continua de la trazabilidad en los procesos de tratamientos de reproducción asistida (ART, por sus siglas en inglés). La reproducción asistida es un servicio clínico cada vez más utilizado debido a la postergación de la paternidad y otros problemas relacionados, y el correcto funcionamiento de este servicio clínico es esencial para garantizar la seguridad de la información del paciente y asegurar la prevención de errores. Los laboratorios de reproducción asistida están expuestos a diversos incidentes, siendo la identificación errónea de muestras biológicas uno de los más graves, lo que hace que la gestión continua de la trazabilidad sea un aspecto crítico que requiere de mecanismos adecuados para evitar errores fatales. La gestión de la trazabilidad en los procesos ART implica la interrelación de varios sistemas independientes, lo que se conoce como Sistema de Sistemas (SoS) [1]. Los SoS presentan una serie de características que hacen que su producción y operaciones de estos servicios sean más complejas [2]. Con el objetivo de solucionar estos problemas, después de llevar a cabo un estudio del estado del arte exhaustivo sobre la gestión de la trazabilidad en reproducción asistida, se propone un framework que guíe la producción y operaciones de servicio para la gestión continua de la trazabilidad en procesos ART en el contexto de SoS. Este framework incluye un ciclo de vida completo de un producto software y mecanismos que apoyan su implementación, basados en el paradigma MDE y la tecnología Blockchain cuyo propósito es validar, verificar y monitorizar el registro y control de las entidades que intervienen en los procesos ART. Además, se ofrece un conjunto de herramientas de soporte al framework para simplificar la labor de los ingenieros de software y profesionales sanitarios involucrados en los procesos ART. Este conjunto de herramientas está constituido por una herramienta técnica y una herramienta clínica, que están interrelacionadas de tal manera que la herramienta técnica contribuye a conformar parte de la herramienta clínica y la mantiene actualizada y en correcto funcionamiento para garantizar así que el servicio es de acuerdo a lo esperado. Para validar los resultados de esta tesis, se instanció el framework TRASYS en un caso de uso real en la clínica de reproducción asistida Inebir y se utilizó el conjunto de herramientas TRABIS que da soporte a dicho framework. Los resultados obtenidos muestran numerosos beneficios con el uso de la herramienta clínica, como la reducción del riesgo de errores humanos durante la manipulación, emparejamiento e identificación de muestras biológicas. Además, se automatizan tareas que se realizan de forma manual en los laboratorios, se facilita el trabajo a los profesionales sanitarios de laboratorio de reproducción y se reducen costes y tiempos empleados en la ejecución de los tratamientos de reproducción asistida. En resumen, esta solución es un gran avance en la gestión continua de la trazabilidad en los procesos ART y contribuirá a mejorar la seguridad y eficiencia de los laboratorios de reproducción asistida.
Sistemas de visión y localización aplicados a la seguridad física para una respuesta eficiente
(2023-06-01) Salazar González, Jose Luis; Álvarez García, Juan Antonio; Soria Morillo, Luis Miguel; Lenguajes y Sistemas Informáticos
En esta tesis se presenta una arquitectura software basada en Inteligencia Artificial (IA) para la detección temprana de amenazas en edificios a través de sistemas de Circuito Cerrado de Televisión (CCTV). Esta arquitectura permite detectar un peligro de forma visual y notificar al personal de seguridad inmediatamente sobre la zona afectada y la localización de las personas cercanas a ella. De este modo, se pueden enviar notificaciones automáticas a ´estas con instrucciones para evacuar el edificio de forma segura y ordenada. Para ello, se ha realizado un estudio exhaustivo sobre la detección de armas de fuego mediante el Aprendizaje Profundo, comprobando que el rendimiento predictivo de los métodos presentes en el estado del arte no es suficiente para un escenario real con cámaras CCTV. Con este fin, se recopiló un nuevo conjunto de datos mediante un simulacro que se realizó en la Escuela Técnica Superior de Ingeniería Informática de la Universidad de Sevilla. Este conjunto de datos se hizo público durante la elaboración de esta tesis y es considerado uno de los conjuntos de datos más complejos en detección de armas de fuego por otros estudios [1]. Esto se debe a las oclusiones, objetos similares y otros factores presentes en un entorno real. De igual modo, se examinó la importancia del tamaño de los objetos mostrados en los conjuntos de datos y se logró mejorar el estado del arte en la detección de armas de fuego. Para lograrlo, se propuso un entrenamiento de dos pasos que utiliza el conjunto de datos mencionado anteriormente y otro nuevo conjunto de datos generado sintéticamente que aumenta la aparición de objetos pequeños y oclusiones. El estudio llevado a cabo en este trabajo fue publicado en la revista Neural networks, en diciembre de 2020, con el título de “Real-time gun detection in CCTV: An open problem” [2], alcanzando más de cuarenta citas en 2023. A continuación, se estudiaron otras técnicas de aprendizaje automático, lo cual ocasionó el diseño y presentación de una nueva metodología de aprendizaje semi-supervisado. Esta nueva metodología se fundamenta en un entrenamiento cooperativo condicionado, con el objetivo de mejorar los sistemas actuales de detección de armas de fuego, a través del aprendizaje semi-supervisado de un gran conjunto de datos no-etiquetados recolectados de Instagram con casi medio millón de imágenes. De este modo, se logró superar aprendizajes tradicionales supervisados y arquitecturas del estado del arte en aprendizaje semi-supervisado y auto-supervisado. Asimismo, se han estudiado diversas técnicas relacionadas con la localización en interiores, un problema ya bien conocido. En este contexto, se han implementado técnicas innovadoras que mejoran la puesta en producción de estos sistemas, evitando que reduzcan significativamente la batería de los dispositivos del usuario y manteniendo una precisión equilibrada. Se investigó y desarrolló una localización basada en huellas WiFi mediante técnicas de inteligencia artificial para ello. Se generó un nuevo conjunto de datos de la Escuela Técnica Superior de Ingeniería Informática de la Universidad de Sevilla, con más de siete mil huellas WiFi obtenidas en diferentes trayectos por el edificio de dicha escuela. El estudio y conjunto de datos obtenido con este trabajo fue publicado en la revista IEEE Access, en noviembre de 2019, con el título “Energy-Efficient Indoor Localization WiFi-Fingerprint System: An Experimental Study” [3], alcanzando más de quince citas en 2023. Se han integrado tanto la detección de armas de fuego como la localización en interiores en un sistema general para identificar un peligro de forma precisa en cámaras de vigilancia y localizar de forma energéticamente eficiente a los usuarios del edificio. De este modo, se presenta un sistema general que procesa en tiempo real las alertas de peligro, generadas por el subsistema de identificación en cámaras de seguridad, y localiza a las posibles víctimas del ataque, mediante el subsistema de localización, para evacuar de manera segura antes de que suceda algún tipo de daño. Se pretende mejorar el tiempo de respuesta por parte del personal de seguridad con este sistema general, ya que permite monitorizar múltiples cámaras de seguridad al mismo tiempo y alertar de forma sonora y visual cuando se muestre un arma en una de estas cámaras. Asimismo, al surgir una fuente de peligro, el personal de seguridad podrá observar en tiempo real la ubicación de las víctimas del ataque y confirmar el envío personalizado de rutas, así como notificar, en un futuro, a efectivos para neutralizar la amenaza.
Novel efficient deep learning architectures for time series forecasting
(2023-02-03) Jiménez Navarro, Manuel Jesús; Martínez Ballesteros, María del Mar; Asencio Cortés, Gualberto; Lenguajes y Sistemas Informáticos
This thesis focuses on the study of time series prediction using the technique known as deep learning or neural networks. At the same time, a series of new methodological proposals are made, which improve the efficiency of existing architectures, applied to a series of real data sets that present a challenge today. The technique known as deep learning has gained great popularity in recent years due to its incredible results in areas such as computer vision, natural language processing and time series prediction, among others. This technique is inspired by the functioning of the basic brain cell, the neuron. Neurons are organized in layers forming a neural network, processing the input information and propagating its output to other layers of neurons until the final output is obtained. This technique has been adapted on multiple occasions to the prediction of time series, developing architectures with results that are competitive with the current state of the art. However, although effectiveness has been a great advantage, sometimes these architectures have degraded their efficiency, preventing their application in real scenarios. There are several ways to improve efficiency, reducing some of the aspects that take a large number of resources such as: memory needed to store the architecture, inference time or training time, among others. This thesis focuses on improving training time, since it is the bottleneck when experimenting with new architectures, optimizing existing architectures, or retraining architectures in certain real scenarios. Faced with the problem of efficiency presented by architectures in the field of deep learning or neural networks, four different proposals have been made, whose main objective is to obtain greater efficiency by obtaining equal or superior effectiveness with respect to the architectures used in the comparative analysis. The first of the proposals introduces the idea of incremental learning into the design of the architecture. This idea establishes different objectives to the layers of the neural network, establishing at the beginning a quite simple objective and increasing the difficulty of the objective assigned to the layers. In this way, the learning process is accelerated by being able to quickly learn the concepts needed for the simplest objective and propagate this knowledge to the subsequent layers. The second proposal builds on the first proposal and makes an additional assumption. Instead of the different objectives being optimized without the more complex ones being able to influence the simpler ones, influence is allowed to exist. In this way, the knowledge gained from the simpler objectives can be partially modified by the subsequent more complex objectives. The third proposal arises as an idea from the first two proposals. In this case the fundamental idea is similar, separating responsibility from the prediction process. In this proposal the liability is separated by decomposing the time series using a smoothing process. The first layer, therefore, receives the smoothed input and is responsible for obtaining a partial prediction. The next layer receives the “residue” resulting from subtracting the original version from the smoothed version. The next layer, therefore, repeats the smoothing process and obtains a new partial prediction. After processing all layers, the partial predictions are summed to obtain the final output. The intuitive idea, therefore, is that each layer has a different role, focusing on different aspects of the time series through decomposition. In turn, the layers must collaborate to obtain the final prediction. The fourth and last proposal integrates an attribute selection method into the neural network architecture, with the objective of reducing the dimensionality of the problem and improving the efficiency of attribute selection techniques applied to deep learning. Other attribute selection proposals applied to deep learning have problems of effectiveness, efficiency and/or interpretability. This proposal describes a new layer connected to the input that serves as a gateway to the different input features, thus eliminating the influence of those features that are irrelevant to the problem. Thanks to this layer, the features can be determined efficiently, without decreasing the efficiency of the architecture to a considerable extent. In addition, this layer serves as a window to the features that the architecture has established as irrelevant, giving an idea of the learned behaviour.
Improving data preparation for the application of process mining
(2023-02-07) Ramos Gutiérrez, Belén; Gómez López, María Teresa; Reina Quintero, Antonia María; Lenguajes y Sistemas Informáticos
Immersed in what is already known as the fourth industrial revolution, automation and data exchange are taking on a particularly relevant role in complex environments, such as industrial manufacturing environments or logistics. This digitisation and transition to the Industry 4.0 paradigm is causing experts to start analysing business processes from other perspectives. Consequently, where management and business intelligence used to dominate, process mining appears as a link, trying to build a bridge between both disciplines to unite and improve them. This new perspective on process analysis helps to improve strategic decision making and competitive capabilities. Process mining brings together data and process perspectives in a single discipline that covers the entire spectrum of process management. Through process mining, and based on observations of their actual operations, organisations can understand the state of their operations, detect deviations, and improve their performance based on what they observe. In this way, process mining is an ally, occupying a large part of current academic and industrial research. However, although this discipline is receiving more and more attention, it presents severe application problems when it is implemented in real environments. The variety of input data in terms of form, content, semantics, and levels of abstraction makes the execution of process mining tasks in industry an iterative, tedious, and manual process, requiring multidisciplinary experts with extensive knowledge of the domain, process management, and data processing. Currently, although there are numerous academic proposals, there are no industrial solutions capable of automating these tasks. For this reason, in this thesis by compendium we address the problem of improving business processes in complex environments thanks to the study of the state-of-the-art and a set of proposals that improve relevant aspects in the life cycle of processes, from the creation of logs, log preparation, process quality assessment, and improvement of business processes. Firstly, for this thesis, a systematic study of the literature was carried out in order to gain an in-depth knowledge of the state-of-the-art in this field, as well as the different challenges faced by this discipline. This in-depth analysis has allowed us to detect a number of challenges that have not been addressed or received insufficient attention, of which three have been selected and presented as the objectives of this thesis. The first challenge is related to the assessment of the quality of input data, known as event logs, since the requeriment of the application of techniques for improving the event log must be based on the level of quality of the initial data, which is why this thesis presents a methodology and a set of metrics that support the expert in selecting which technique to apply to the data according to the quality estimation at each moment, another challenge obtained as a result of our analysis of the literature. Likewise, the use of a set of metrics to evaluate the quality of the resulting process models is also proposed, with the aim of assessing whether improvement in the quality of the input data has a direct impact on the final results. The second challenge identified is the need to improve the input data used in the analysis of business processes. As in any data-driven discipline, the quality of the results strongly depends on the quality of the input data, so the second challenge to be addressed is the improvement of the preparation of event logs. The contribution in this area is the application of natural language processing techniques to relabel activities from textual descriptions of process activities, as well as the application of clustering techniques to help simplify the results, generating more understandable models from a human point of view. Finally, the third challenge detected is related to the process optimisation, so we contribute with an approach for the optimisation of resources associated with business processes, which, through the inclusion of decision-making in the creation of flexible processes, enables significant cost reductions. Furthermore, all the proposals made in this thesis are validated and designed in collaboration with experts from different fields of industry and have been evaluated through real case studies in public and private projects in collaboration with the aeronautical industry and the logistics sector.

Examinar

Envíos recientes