Final Degree Project
Las matemáticas de la atención
Author/s | Sánchez Arrabal, Lucía |
Director | Gutiérrez Naranjo, Miguel Ángel |
Department | Universidad de Sevilla. Departamento de Ciencias de la computación e Inteligencia artificial |
Publication Date | 2023 |
Deposit Date | 2024-03-08 |
Academic Title | Universidad de Sevilla. Grado en Matemáticas |
Abstract | Nowadays, Artificial Intelligence covers an increasingly number of areas both in
the scientific field and in everyday life, such as automatic driving, image classification,
facial recognition, etc.
One of the fields ... Nowadays, Artificial Intelligence covers an increasingly number of areas both in the scientific field and in everyday life, such as automatic driving, image classification, facial recognition, etc. One of the fields where Artificial Intelligence is contributing the most is at natural language processing, whose objective is to replicate the typical language of humans. In this report the mathematical concepts involved in these models will be explained. The attention mechanism will be studied. Apart from other tasks, it makes possible the operation of the Transformer, the neural network which is behind text generation models and which has been a point of reference to carry out others tasks. However, before looking into the attention mechanism, an introduction to Artificial Intelligence is necessary, specifically to Machine Learning and Deep Learning, studying the mathematical aspects behind these fields. Therefore, the necessary knowledge to apply the attention mechanism to Deep Learning models will be obtained. Finally, it will be shown that the theoretical model developed in the study is able to achieve a good outcome. For that purpose, a Python example is presented using the package Keras. The model will be trained with data containing English sentences along with its corresponding Spanish translations. En la actualidad, la Inteligencia Artificial abarca cada vez más ámbitos tanto en el campo científico como en la vida cotidiana, tales como conducción automática, clasificación de imágenes, reconocimiento facial, etc. Uno ... En la actualidad, la Inteligencia Artificial abarca cada vez más ámbitos tanto en el campo científico como en la vida cotidiana, tales como conducción automática, clasificación de imágenes, reconocimiento facial, etc. Uno de los campos en los que la Inteligencia Artificial está aportando grandes avances es en el procesamiento del lenguaje natural, cuya función es replicar el lenguaje natural propio de los humanos. En el presente trabajo vamos a ver los conceptos matemáticos implicados en estos modelos. Se estudiará el mecanismo de atención, que además de utilizarse en otros ámbitos, hace posible el funcionamiento de los Transformers, la red neuronal que hay detrás de los modelos generadores de texto y que ha servido como referente a la hora de realizar distintas tareas. No obstante, antes de adentrarnos en el mecanismo de atención, es necesario hacer una introducción a la Inteligencia Artificial; más concretamente al Machine Learning y al Deep Learning, estudiando los aspectos matemáticos que son la base de estas disciplinas. De esta forma, tendremos el conocimiento necesario para poder aplicar el mecanismo de atención en modelos propios del Deep Learning. Para terminar, se mostrará que el modelo teórico desarrollado en el trabajo obtiene buenos resultados. Para ello se expone un ejemplo con código Python usando la librería Keras. El modelo se entrenará a través de datos que contienen oraciones en inglés junto con su traducción al español. |
Citation | Sánchez Arrabal, L. (2023). Las matemáticas de la atención. (Trabajo Fin de Grado Inédito). Universidad de Sevilla, Sevilla. |
Files | Size | Format | View | Description |
---|---|---|---|---|
TFG GM SANCHEZ ARRABAL, LUCIA.pdf | 1.527Mb | [PDF] | View/ | |