Ampliación automática de corpus mediante la colaboración de varios etiquetadores

Enríquez de Salamanca Ros, Fernando; Troyano Jiménez, José Antonio; Cruz Mata, Fermín; Ortega Rodríguez, Francisco Javier

Por motivos de mantenimiento se ha deshabilitado el inicio de sesión temporalmente. Rogamos disculpen las molestias.

Artículo

dc.creator	Enríquez de Salamanca Ros, Fernando	es
dc.creator	Troyano Jiménez, José Antonio	es
dc.creator	Cruz Mata, Fermín	es
dc.creator	Ortega Rodríguez, Francisco Javier	es
dc.date.accessioned	2020-07-14T07:43:52Z
dc.date.available	2020-07-14T07:43:52Z
dc.date.issued	2006
dc.identifier.citation	Enríquez de Salamanca Ros, F., Troyano Jiménez, J.A., Cruz Mata, F. y Ortega Rodríguez, F.J. (2006). Ampliación automática de corpus mediante la colaboración de varios etiquetadores. Procesamiento del lenguaje natural, 37
dc.identifier.issn	1135-5948	es
dc.identifier.uri	https://hdl.handle.net/11441/99327
dc.description.abstract	La disponibilidad de grandes corpus con texto etiquetado es un aspecto esencial en muchas tareas del procesamiento del lenguaje natural. El esfuerzo que se requiere para etiquetar manualmente este gran número de frases ha animado a los investigadores a crear aplicaciones automáticas para este trabajo. Nuestra propuesta representa un método para incrementar el tamaño de un corpus pequeño de manera totalmente automática o con un mínimo esfuerzo, hasta que adquiera el número deseado de frases. El contenido que se añade al corpus se obtiene de cualquier fuente como puede ser Internet, de la cual se puedan extraer frases sin etiquetar para ser analizadas. Si consideramos el pequeño corpus etiquetado como la semilla, nuestro método hace que evolucione hasta lograr el tamaño deseado. El proceso se basa en la opinión de varios etiquetadores mediante la técnica de co-training y de la aplicación de un segundo nivel de aprendizaje mediante stacking. Esta última sería la técnica que nos serviría para decidir cuáles de las nuevas frases etiquetadas serían seleccionadas para pasar a formar parte del corpus.	es
dc.description.abstract	The availability of extense tagged data corpus is an essential aspect in many NLP tasks. The effort required for tagging manually this large number of phrases has encouraged many researchers like us to create automatic applications for this issue. Our approach represents a completely automatic method (optionally applying a minimum effort) for enlarging an already existing corpus, so it acquires the desired number of tagged phrases. The extra content of the corpus will be obtained from any knowledge source like the web, from where we extract untagged sentences to be analyzed. Considering the initial small corpus as the seed, our method makes it evolve until it reaches the goal size. The process is based on several taggers using the co-training technique, achieving the results after a number of iterations and applying the stacking scheme for deciding which new tagged sentences must be incorporated to the new corpus.	es
dc.description.sponsorship	Ministerio de Educación y Ciencia TIN2004-07246-C03-03	es
dc.format	application/pdf	es
dc.format.extent	7	es
dc.language.iso	spa	es
dc.publisher	Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN)	es
dc.relation.ispartof	Procesamiento del lenguaje natural, 37
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Generación de recursos	es
dc.subject	Resource generation	es
dc.subject	aprendizaje automático	es
dc.subject	Machine learning	es
dc.subject	Combinación de sistemas	es
dc.subject	system combination	es
dc.title	Ampliación automática de corpus mediante la colaboración de varios etiquetadores	es
dc.type	info:eu-repo/semantics/article	es
dcterms.identifier	https://ror.org/03yxnpp24
dc.type.version	info:eu-repo/semantics/publishedVersion	es
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es
dc.contributor.affiliation	Universidad de Sevilla. Departamento de Lenguajes y Sistemas Informáticos	es
dc.relation.projectID	TIN2004-07246-C03-03	es
dc.relation.publisherversion	http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/2727	es
dc.journaltitle	Procesamiento del lenguaje natural	es
dc.publication.volumen	37	es
dc.identifier.sisius	6488695	es
dc.contributor.funder	Ministerio de Educación y Ciencia (MEC). España	es

Ficheros	Tamaño	Formato	Ver	Descripción
Ampliación automática de corpus.pdf	169.5Kb	[PDF]	Ver/Abrir

Este registro aparece en las siguientes colecciones

Artículos (Lenguajes y Sistemas Informáticos)

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como: Attribution-NonCommercial-NoDerivatives 4.0 Internacional