AI in the Gray: Exploring Moderation Policies in  Dialogic Large Language Models vs. Human  Answers in Controversial Topics [Póster]

Ghafouri, Vahid; Agarwal, Vibhor; Zhang, Yong; Sastry, Nishanth; Such, José; Suarez Tangil, Guillermo

Ponencia

dc.contributor.editor	Varela Vaca, Ángel Jesús	es
dc.contributor.editor	Ceballos Guerrero, Rafael	es
dc.contributor.editor	Reina Quintero, Antonia María	es
dc.creator	Ghafouri, Vahid	es
dc.creator	Agarwal, Vibhor	es
dc.creator	Zhang, Yong	es
dc.creator	Sastry, Nishanth	es
dc.creator	Such, José	es
dc.creator	Suarez Tangil, Guillermo	es
dc.date.accessioned	2024-08-26T11:09:53Z
dc.date.available	2024-08-26T11:09:53Z
dc.date.issued	2024
dc.identifier.citation	Ghafouri, V., Agarwal, V., Zhang, Y., Sastry, N., Such, J. y Suarez Tangil, G. (2024). AI in the Gray: Exploring Moderation Policies in Dialogic Large Language Models vs. Human Answers in Controversial Topics [Póster]. En Jornadas Nacionales de Investigación en Ciberseguridad (JNIC) (9ª.2024. Sevilla) (486-487), Sevilla: Universidad de Sevilla. Escuela Técnica Superior de Ingeniería Informática.
dc.identifier.isbn	978-84-09-62140-8	es
dc.identifier.uri	https://hdl.handle.net/11441/162049
dc.description.abstract	The increasing sophistication of Large Language Models (LLMs), particularly ChatGPT, has revolutionized how users interact with information and make decisions. However, when addressing controversial topics without universally ac cepted answers, such as religion, gender identity, or freedom of speech, these models face the challenge of potential bias. Biased responses in these complex domains can amplify misinformation, fuel harmful ideologies, and undermine trust in AI systems. This paper investigates the biases embedded within LLMs like ChatGPT when responding to controversial questions. We use the Kialo social debate platform as a benchmark, comparing AI generated responses to human discussions. Our analysis reveals significant progress in reducing explicit biases in recent ChatGPT versions. However, residual implicit biases, including subtle right-wing leanings, call for further moderation. These findings hold substantial cybersecurity implications, emphasizing the need to mitigate the spread of misinformation or the promotion of extremist viewpoints through AI-powered systems.	es
dc.format	application/pdf	es
dc.format.extent	2	es
dc.language.iso	eng	es
dc.publisher	Universidad de Sevilla. Escuela Técnica Superior de Ingeniería Informática	es
dc.relation.ispartof	Jornadas Nacionales de Investigación en Ciberseguridad (JNIC) (9ª.2024. Sevilla) (2024), pp. 486-487.
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	ChatGPT	es
dc.subject	LLMs	es
dc.subject	Moderation Policies	es
dc.subject	Kialo	es
dc.subject	Social Networks	es
dc.title	AI in the Gray: Exploring Moderation Policies in Dialogic Large Language Models vs. Human Answers in Controversial Topics [Póster]	es
dc.type	info:eu-repo/semantics/conferenceObject	es
dc.type.version	info:eu-repo/semantics/publishedVersion	es
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es
dc.publication.initialPage	486	es
dc.publication.endPage	487	es
dc.eventtitle	Jornadas Nacionales de Investigación en Ciberseguridad (JNIC) (9ª.2024. Sevilla)	es
dc.eventinstitution	Sevilla	es
dc.relation.publicationplace	Sevilla	es

Ficheros	Tamaño	Formato	Ver	Descripción
JNIC24_504.pdf	1.152Mb	[PDF]	Ver/Abrir

Este registro aparece en las siguientes colecciones

Jornadas Nacionales de Investigación en Ciberseguridad (JNIC) (9ª.2024. Sevilla)

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como: Attribution-NonCommercial-NoDerivatives 4.0 Internacional