Ni «rojo asqueroso» ni «sucio facha». La herramienta de la Universidad de Jaén para detectar discursos del odio.

ABC.- La institución jiennense desarrolla junto a la Universidad de Murcia un sistema para agilizar su detección.

Rojo no es un color agradable en boca de quien desprecia a la izquierda. Y facha expresa lo peor en la de quien relaciona a la derecha con la carcunda. Otras palabras, como cerdo y zorra, son ejemplos de polisemia malintencionada con plaza fija en los discursos del odio que inundan las redes sociales. Para detectarlos rápidamente a partir de determinadas frases, y del contexto en el que se escriben o pronuncian, sirve un novedoso sistema de las universidades de Jaén y Murcia.

El equipo de investigación Sinai de la institución jiennense y el equipo de investigación Tecnomod de

la murciana han desarrollado un sistema automático de detección del discurso de odio en español en medios sociales. El modelo combina el análisis de características lingüísticas con redes neuronales basadas en mecanismos de atención.

La mezcla permite saber cuáles son los significados que más influyen sobre una palabra en concreto, lo que resulta útil en casos de polisemia y anáfora. Con una precisión cercana al 90%, el objetivo de esta herramienta de procesamiento es agilizar la detección del lenguaje ofensivo para evitar su propagación masiva.

La ingente cantidad de publicaciones diarias en medios sociales convierte en inviables revisar sin apoyo logístico cada comentario. Para reducir el número de los que deben ser revisados por expertos o incluso para el desarrollo de sistemas autónomos de detección, los investigadores proponen un modelo de identificación automática de discursos de odio destinado a frenar su dispersión.

Estudios anteriores apuntan que la presencia de estos mensajes dirigidos a dañar por motivos de raza, género, orientación sexual, nacionalidad o religión en las plataformas de redes sociales se correlaciona con los delitos de odio en la vida real.

«No es factible depender de la supervisión manual para detener estas palabras ofensivas. Por ello, queremos contribuir a la detección del discurso de odio en español con un modelo automático y preciso que sea más rápido», expone la investigadora del Grupo Sistemas Inteligentes de Acceso a la Información de la Universidad de Jaén Salud María Jiménez Zafra, una de las autoras del estudio.

En concreto, los equipos investigadores proponen en su artículo ‘Evaluating feature combination strategies for hate-speech detection in Spanish using linguistic features and transformers’ publicado en la revista Complex & Intelligent Systems, un método que combina un sistema de extracción de características lingüísticas diseñado para el español y modelos computacionales.

«Para ello, se utiliza la plataforma denominada UMUTextStats, desarrollada por el grupo Tecnomod de la Universidad de Murcia, que obtiene de los textos características morfológicas, pragmáticas, semánticas, sintácticas, y de corrección y estilo, que reflejan qué quiere decir un texto dado y cómo lo dice», explica el investigador de la institución académica murciana José Antonio García Díaz.

A esto se suma un modelo del lenguaje basado en un sistema que interpreta cómo se relacionan las palabras, expresiones y otras características del lenguaje a partir de un gran conjunto de datos.

Para que el ordenador interprete el lenguaje natural se requiere una codificación adecuada. Con este objeto, el texto se traduce a modelos estadísticos que capturan diversas dimensiones del lenguaje. De esta forma, los investigadores incluyen 365 rasgos de interés, organizados en distintas categorías como fonéticas, morfosintácticas, semánticas, pragmáticas o jerga de los medios sociales.

Así, se contabilizan verbos, pronombres, adverbios, frases hechas o marcadores del discurso. «En el caso específico del odio, se atiende a cuestiones relacionadas como el género, los errores ortográficos, términos inclusivos, la presencia de términos relacionados con animales (zorra, perra…) o palabras malsonantes», comenta el catedrático de la Universidad de Murcia Rafael Valencia García.

Junto a estos métodos que atienden a la propia palabra, se entrenan redes neuronales, es decir, algoritmos que funcionan a imitación del cerebro humano, que cuenta con áreas especializadas en ciertas tareas, y que mejora la interpretación con la incorporación de nuevos datos.

El resultado de esta combinación es un sistema para el idioma español más preciso, generalizable e interpretable. «Nuestra propuesta, basada en el uso de características lingüísticas y modelos del lenguaje, supera la precisión de estudios anteriores y alcanza un 90,4 % en algunos de los experimentos», remarca el investigador del grupo SINAI de la Universidad de Jaén Miguel Ángel García Cumbreras.

Además, el modelo generado fue evaluado con un conjunto más amplio de datos. «Los estudios existentes hasta la fecha trabajan con uno o dos de los conjuntos de datos más conocidos en español como HaterNet y HatEval. Sin embargo, existen más que la comunidad científica debería conocer y que podrían ayudar a avanzar en el estudio de este fenómeno», precisa el catedrático Valencia García.

La siguiente fase de la investigación será mejorar la interpretabilidad del sistema para que estos modelos sean comprensibles por cualquier persona no experta, es decir, que puedan entender cómo el algoritmo ha decidido clasificar ese mensaje de una forma u otra.

El equipo de investigación apunta que este modelo se plasmará en aplicaciones que indiquen de forma rápida si un mensaje contiene elementos de odio o no. Así se agilizará el mecanismo de alerta en las plataformas de medios sociales para avisar sobre la presencia de elementos peligrosos en los contenidos o el seguimiento de usuarios que viertan continuamente mensajes de odio.

El trabajo ha sido realizado dentro de los proyectos de investigación LaTe4PSP, AIInFunds, LIVING-LANG, BigHug y WeLee financiados por la Agencia Estatal de Investigación y la Junta de Andalucía con fondos FEDER. Además, este trabajo ha sido posible gracias a una estancia de investigación de la doctora Salud María Jiménez Zafra en el grupo Tecnomod de la Universidad de Murcia y a la ayuda postdoctoral del programa PAIDI 2020 financiada por el Fondo Social Europeo y la Administración autonómica andaluza.

Ni «rojo asqueroso» ni «sucio facha». La herramienta de la Universidad de Jaén para detectar discursos del odio.

Enlaces internacionales

Enlaces de España