Por motivos de mantenimiento se ha deshabilitado el inicio de sesión temporalmente. Rogamos disculpen las molestias.
Trabajo Fin de Grado
Aplicación de clasificadores basados en Deep Learning para el reconocimiento de acciones en videos
Autor/es | García Arnaiz, José Carlos |
Director | Toral, S. L. |
Departamento | Universidad de Sevilla. Departamento de Ingeniería Electrónica |
Fecha de publicación | 2020 |
Fecha de depósito | 2021-02-16 |
Titulación | Universidad de Sevilla. Grado en Ingeniería de las Tecnologías de Telecomunicación |
Resumen | Nos encontramos en una época donde las redes sociales, y el contenido de entretenimiento por streaming está
totalmente asentado e incrustado en nuestras vidas. El procesamiento de imágenes se convierte en un campo de
grandes ... Nos encontramos en una época donde las redes sociales, y el contenido de entretenimiento por streaming está totalmente asentado e incrustado en nuestras vidas. El procesamiento de imágenes se convierte en un campo de grandes posibilidades. El marketing es sin duda uno de los campos donde más se hace uso de estas técnicas, pero la detección en imágenes o vídeos mediante el uso de una inteligencia artificial nos abre un amplio abanico de posibilidades. Como por ejemplo un sistema de recomendaciones de videos o series similares a lo que estás actualmente viendo, la detección en tiempo real de objetos en el campo de la seguridad, la detección de enfermedades y otros muchos campos. En este trabajo vamos a introducirnos en la creación de unos clasificadores de videos creados con redes neuronales, para ello tendremos que entrenar un modelo de redes neuronales para que sea capaz de distinguir distintas clases de contenidos en videos. En concreto vamos a usar la base de datos de videos conocida como UCF101 que contiene un total de 101 clases diferentes de videos. Nuestra intención es usar modelos ya existentes, que ya están entrenados. La técnica de transfer learning nos permitirá usar estos modelos ya entrenados para clasificar otro tipo de videos diferentes. Esto no solo nos permite entrenar un modelo mucho más rápido, sino que también nos permite entrenar el modelo con un ordenador menos potente sin reducir su porcentaje de acierto clasificando. Los modelos pre entrenados normalmente están entrenados para un número de cientos de clases diferentes, esto como muestra de rendimiento es interesante, pero la realidad es que normalmente sólo nos interesará reconocer ciertas acciones, por ejemplo, si queremos contabilizar el tiempo que se dedica en los telediarios a cada deporte, no es necesario que intentemos clasificar con todos los deportes existentes, sino con los mayoritarios o los que a nosotros nos interesa detectar. En concreto entrenaremos un modelo llamado C3D y otro llamado I3D, donde descubriremos que, aunque ambos modelos podrían ser utilizables para las clases escogidas, cada modelo tiene sus propios puntos fuertes frente al otro. We are in an age where the social networks and the streaming entertainment content have entered our lives. The image processing has become an area of great possibilities. Marketing is the area where these techniques ... We are in an age where the social networks and the streaming entertainment content have entered our lives. The image processing has become an area of great possibilities. Marketing is the area where these techniques are being used the most, but the image detection and video detection using artificial intelligence open a wide range of possibilities. Like a recommendation system of videos or series similar to what you are currently watching, live objects detection in the security area, disease detection in the health area, an many other areas. We are going to use some pre-trained models. The transfer learning technique allow us use these models to classify other different classes of video. This will help us to train the model much faster and to train the model with a less powerful personal computer without bring down the accuracy of the model. Pre-trained models are usually trained to classify hundreds of different classes of videos, this shows the power of the model, but actually we are going to classify a few of these classes. For example, if we want to count the time that TV news show something about different sports, we don’t need to detect all the different sports, we can only detect the most played sports or the sports we are interested in. In short, we are going to train a model known as C3D, and another model known as I3D. We will be found that both models are usable to classify properly, each model will have its advantages over the other model. |
Cita | García Arnaiz, J.C. (2020). Aplicación de clasificadores basados en Deep Learning para el reconocimiento de acciones en videos. (Trabajo Fin de Grado Inédito). Universidad de Sevilla, Sevilla. |
Ficheros | Tamaño | Formato | Ver | Descripción |
---|---|---|---|---|
TFG-3174-GARCIA ARNAIZ.pdf | 1.876Mb | [PDF] | Ver/ | |