COMPARTIR:Share on FacebookShare on Google+Tweet about this on TwitterShare on LinkedIn

El traductor de Google y otros sistemas de traducción automática están hechos a base de algoritmos que se nutren de textos escritos en distintos idiomas para aprender de las equivalencias de una lengua a otra: desde las actas del Parlamento Europeo y de la Organización de las Naciones Unidas (ONU) hasta los subtítulos de películas, las noticias, el apéndice de vocabulario de las guías de turismo, los libros más vendidos como la Biblia y las entradas en Wikipedia, aunque los artículos varíen de una lengua a otra.

El problema es que todos estos textos están escritos originalmente por personas que tienen sus prejuicios y que recaen en los sistemas de traducción.

“Estadísticamente correcto no significa correcto. Creo que, si no vemos esto como un problema, esta cuestión no se solucionará ni habrá ninguna mejora”, denuncia en su blog Jecelyn Yeen, programadora y directora de la comunidad internacional Women Who Code en Kuala Lumpur (Malasia). Un equipo de investigadores de la Universidad de Boston (Estados Unidos) y del centro de investigación de Microsoft advirtió hace dos años en un congreso sobre esta disciplina en Barcelona que “la aplicación ciega del aprendizaje automático corre el riesgo de amplificar los sesgos presentes en los datos”, ya que los agregadores de noticias presentan estereotipos de género “preocupantes” y su uso generalizado tiende a amplificar estos prejuicios.

Las palabras para designar profesiones pertenecen a un grupo donde impera el sexismo. El anterior equipo internacional de científicos elaboró una lista de las ocupaciones más masculinizadas y feminizadas, a partir de apariciones en prensa, para demostrar el sesgo sexista de las máquinas. Entre los trabajos que habitualmente desempeñan mujeres había enfermeras, recepcionistas, peluqueras y limpiadoras. En cambio, los hombres tienden a ser visibilizados como arquitectos, expertos, ilusionistas y guerreros. Luego, los investigadores pidieron a distintas personas que clasificasen las mismas profesiones como masculinas, femeninas o neutras para comparar los resultados humanos con los de las máquinas. Vieron una correlación obvia de estereotipos y propusieron un algoritmo nuevo
para corregir el sesgo de género.

“Las máquinas aprenden a ser sexistas, porque los textos con los que las entrenas son sexistas”, coincide en señalar Marta Ruiz Costa-Jussà, investigadora Ramon y Cajal del grupo de Tecnologías y Aplicaciones del Lenguaje y el Habla (TALP, por sus siglas en catalán) en la Universitat Politècnica de Catalunya (UPC).

Incluso las personas que se dedican profesionalmente a la traducción presentan sesgos similares. Maya Busqué, intérprete de conferencias, traductora freelance y miembro de la Associació Professional de Traductors i Intèrprets de Catalunya (Aptic), hizo la prueba entre unos cuantos colegas al preguntarles cómo traducirían una frase del inglés al español que contenía la palabra scientist ( científico/a). Todos tradujeron la profesión en su versión masculina, menos una traductora que hizo una búsqueda rápida en internet a partir de los elementos de contexto de la oración para discernir si era hombre o mujer. “Huir de los sesgos sexistas y no traducir sistemáticamente términos como scientist, researcher y biologist en masculino no me parece un capricho ni una pérdida de tiempo, sino una necesidad y un acto de justicia”, cuenta en un artículo de la revista de la Asociación Española de Traductores, Correctores e Intérpretes.

Anna Dot, estudiante de doctorado en la Universitat de Vic, reflexiona sobre cómo determinados artistas utilizan el error de la traducción automática para crear su obra –a menudo de denuncia–. “No debemos ignorar el error, sino cuestionarlo”, plantea la joven investigadora que considera que muchos textos en los que se basan las máquinas también tienen “una ideología muy politizada”, porque el lenguaje “no es neutral” y está lleno de sesgos que corresponden a “los grandes prejuicios de cada sociedad”.

De hecho, el primer investigador que se focalizó únicamente en la traducción automática, el filósofo, matemático y lingüista israelí Yehoshua Bar-Hillel, del Instituto de Tecnología de Massachusetts (MIT), ya consideraba que ninguna cantidad de datos podría ser suficiente para resolver todas las ambigüedades de los textos. “En el lenguaje lo habitual son las excepciones”, apunta José Adrián R. Fonollosa, catedrático e investigador del TALP en la UPC, que pone como ejemplo una cuestión lingüística de actualidad: no es lo mismo un político preso que un preso político.

Aunque muchos de los errores se han subsanado, sobre todo a partir de la introducción de técnicas de aprendizaje profundo ( deep learning) que imitan las redes neuronales, también cuesta más trazar los fallos por las infinitas operaciones de estos sistemas. “La traducción automática sin revisión humana nos conduce a la catástrofe”, dice Busqué, que defiende el valor de las personas allí donde las máquinas no piensan.

 

COMPARTIR:Share on FacebookShare on Google+Tweet about this on TwitterShare on LinkedIn

NO COMMENTS

DEJAR UN COMENTARIO