Aplicación de clasificadores basados en Deep Learning para el reconocimiento de acciones en videos

García Arnaiz, José Carlos

Trabajo Fin de Grado

dc.contributor.advisor	Toral, S. L.	es
dc.creator	García Arnaiz, José Carlos	es
dc.date.accessioned	2021-02-16T15:54:02Z
dc.date.available	2021-02-16T15:54:02Z
dc.date.issued	2020
dc.identifier.citation	García Arnaiz, J.C. (2020). Aplicación de clasificadores basados en Deep Learning para el reconocimiento de acciones en videos. (Trabajo Fin de Grado Inédito). Universidad de Sevilla, Sevilla.
dc.identifier.uri	https://hdl.handle.net/11441/105041
dc.description.abstract	Nos encontramos en una época donde las redes sociales, y el contenido de entretenimiento por streaming está totalmente asentado e incrustado en nuestras vidas. El procesamiento de imágenes se convierte en un campo de grandes posibilidades. El marketing es sin duda uno de los campos donde más se hace uso de estas técnicas, pero la detección en imágenes o vídeos mediante el uso de una inteligencia artificial nos abre un amplio abanico de posibilidades. Como por ejemplo un sistema de recomendaciones de videos o series similares a lo que estás actualmente viendo, la detección en tiempo real de objetos en el campo de la seguridad, la detección de enfermedades y otros muchos campos. En este trabajo vamos a introducirnos en la creación de unos clasificadores de videos creados con redes neuronales, para ello tendremos que entrenar un modelo de redes neuronales para que sea capaz de distinguir distintas clases de contenidos en videos. En concreto vamos a usar la base de datos de videos conocida como UCF101 que contiene un total de 101 clases diferentes de videos. Nuestra intención es usar modelos ya existentes, que ya están entrenados. La técnica de transfer learning nos permitirá usar estos modelos ya entrenados para clasificar otro tipo de videos diferentes. Esto no solo nos permite entrenar un modelo mucho más rápido, sino que también nos permite entrenar el modelo con un ordenador menos potente sin reducir su porcentaje de acierto clasificando. Los modelos pre entrenados normalmente están entrenados para un número de cientos de clases diferentes, esto como muestra de rendimiento es interesante, pero la realidad es que normalmente sólo nos interesará reconocer ciertas acciones, por ejemplo, si queremos contabilizar el tiempo que se dedica en los telediarios a cada deporte, no es necesario que intentemos clasificar con todos los deportes existentes, sino con los mayoritarios o los que a nosotros nos interesa detectar. En concreto entrenaremos un modelo llamado C3D y otro llamado I3D, donde descubriremos que, aunque ambos modelos podrían ser utilizables para las clases escogidas, cada modelo tiene sus propios puntos fuertes frente al otro.	es
dc.description.abstract	We are in an age where the social networks and the streaming entertainment content have entered our lives. The image processing has become an area of great possibilities. Marketing is the area where these techniques are being used the most, but the image detection and video detection using artificial intelligence open a wide range of possibilities. Like a recommendation system of videos or series similar to what you are currently watching, live objects detection in the security area, disease detection in the health area, an many other areas. We are going to use some pre-trained models. The transfer learning technique allow us use these models to classify other different classes of video. This will help us to train the model much faster and to train the model with a less powerful personal computer without bring down the accuracy of the model. Pre-trained models are usually trained to classify hundreds of different classes of videos, this shows the power of the model, but actually we are going to classify a few of these classes. For example, if we want to count the time that TV news show something about different sports, we don’t need to detect all the different sports, we can only detect the most played sports or the sports we are interested in. In short, we are going to train a model known as C3D, and another model known as I3D. We will be found that both models are usable to classify properly, each model will have its advantages over the other model.	es
dc.format	application/pdf	es
dc.format.extent	57	es
dc.language.iso	spa	es
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.title	Aplicación de clasificadores basados en Deep Learning para el reconocimiento de acciones en videos	es
dc.type	info:eu-repo/semantics/bachelorThesis	es
dc.type.version	info:eu-repo/semantics/publishedVersion	es
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es
dc.contributor.affiliation	Universidad de Sevilla. Departamento de Ingeniería Electrónica	es
dc.description.degree	Universidad de Sevilla. Grado en Ingeniería de las Tecnologías de Telecomunicación	es
dc.publication.endPage	47 p.	es

Ficheros	Tamaño	Formato	Ver	Descripción
TFG-3174-GARCIA ARNAIZ.pdf	1.876Mb	[PDF]	Ver/Abrir

Este registro aparece en las siguientes colecciones

Grado en Ingeniería de las Tecnologías de Telecomunicación

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como: Attribution-NonCommercial-NoDerivatives 4.0 Internacional