2025-04-042025-04-042024García Barrena, J. y Borrego Díaz, J. (2024). Evaluación de guardarraíles de modelos LLM ante la generación de artículos sesgados. En DACIU 2023/2024: Ingeniería y Arquitectura (pp. 67-76). Fundación Avanza.978-84-10237-11-7https://hdl.handle.net/11441/171372En el momento actual de investigación y desarrollo de numerosos sistemas de Inteligencia Artificial (IA) y, en particular, de grandes modelos de lenguaje (Large Language Models, LLM), nos enfrentamos a la necesidad de encontrar herramientas que dispongan de una documentación adecuada de su comportamiento. En este contexto, el estudio de la adecuación y efectividad de las aplicaciones de dichos modelos se ha convertido en una exigencia imprescindible para garantizar sistemas de IA confiables y robustos. La motivación del presente trabajo se enmarca en el estudio de la robustez de un LLM ante acciones que pretenden usarlo para fines espurios. Concretamente, el objetivo es analizar la efectividad de las limitaciones de uso que los diseñadores implantan en estos modelos para evitar utilizaciones no permitidas. Estas limitaciones son usualmente implementadas por los diseñadores mediante diversas técnicas de re-entrenamiento, las cuales, en la actualidad, no son plenamente efectivas. De ahí surge la necesidad de evaluar la robustez de estos modelos ante ese tipo de .ataques", que son de diversa naturaleza. En este estudio, nos centraremos en el uso de los LLMs para desvirtuar información, produciendo transformaciones textuales que introduzcan sesgo. La estructura del presente trabajo es la siguiente. En la próxima sección, presentamos un sucinto estado del arte en cuanto a los modelos de lenguaje estudiados, su motivación y características principales. A continuación, se introduce LangChain, una herramienta muy útil para diseñar frameworks genéricos multi-LLM. La solución propuesta se presenta en la sección dedicada al diseño del sistema, cuyos primeros resultados se exponen en la sección siguiente.application/pdf10 p.spaAttribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-nd/4.0/Evaluación de guardarraíles de modelos LLM ante la generación de artículos sesgadosinfo:eu-repo/semantics/bookPartinfo:eu-repo/semantics/openAccess10.60096/fundacionavanza/6512024