¿El 57% de internet está generado por inteligencia artificial?
Este es uno de los casos donde, debido al mal periodismo que ni lee ni entiende ni contrasta sus fuentes, se cumple la ley de titulares de Betteridge: la pregunta del título se puede responder con un simple no. Para quienes no sepan de qué va la cosa, vayamos al principio.
El dato proviene de un estudio publicado en el 2024. Aunque mencionan brevemente la inteligencia artificial, trata el porcentaje de contenido de la web traducido con máquinas. Es decir, si alguien toma un texto, lo introduce en un traductor, como DeepL, Google Traductor o similares, y publica el resultado en una web o libro disponible en línea, está traduciendo con una máquina. Según indican, estos servicios han estado disponibles desde 1997.
Desarrollo a distintas marchas
En el procesamiento de lenguajes naturales (NLP por sus siglas inglesas) se necesita una buena cantidad de textos naturales escritos por nativos o personas que entiendan su uso. Si un idioma se habla poco, tiene poca presencia en la red o apenas se estudia, parte con desventaja en este tipo de procesamiento. Por eso, este tipo de investigaciones se centran especialmente en tan solo 20 de 7000 idiomas disponibles. Estos idiomas menos investigados son los llamados lenguajes de bajos recursos. Si se quiere entrenar un modelo extenso de lenguaje (LLM), es recomendable usar textos de calidad en contenido y lenguaje, pero en estas lenguas hay menos material para ello. Además, si una gran parte está traducido con máquinas, será más propenso a contener errores, pues son más habituales conforme más largos sean los fragmentos traducidos. Esta práctica no solo es más común en estos idiomas, sino que su frecuencia varía según su temática. En consecuencias, los LLM entrenados en estos idiomas son más proclives a sufrir alucinaciones, ser menos elocuentes y sufrir sesgos de selección.
En este estudio, se estudiaron los 90 idiomas más comunes en la web que tenían disponible la traducción por medio de máquinas. Observaron que el 57,1% de los textos estudiados podrían ser, con gran probabilidad, generados por traducción por máquinas. En lenguajes de bajos recursos, este era el caso con la mayoría de las traducciones, pues los textos se traducían generalmente del mismo modo, sin apenas variación. Esto ocurría predominantemente en temas de conversación y opinión, seguidos por temas económicos y noticias, que probablemente se traducían en masa del inglés a muchos de estos idiomas para generar beneficios con los anuncios.
La desinformación
En un artículo de Forbes del 3 de septiembre del 2024 sobre si la inteligencia artificial (IA) se está suicidando y llevándose a internet por delante, entre otros, menciona este artículo, citando que el 57% de internet está traducido o generado por la IA a través de un algoritmo de IA. Afortunadamente, no hay que pagar para leer la investigación ni el texto es bastante corto. El "o generado por la IA a través de un algoritmo de IA" es un añadido que incorpora el autor de su cosecha, quizás para reforzar su artículo y confiando en que nadie lea el enlace. Dada la fama de la revista, esta afirmación se repitió acríticamente en otros medios.
Ya no es únicamente comprobar la veracidad de la información, sino tener un poco de sentido común. ¿Realmente más de la mitad del contenido existente o nuevo que se genera podría ser producto de una herramienta que tiende a repetir fórmulas y expresiones? Eso debería notarse. Puede que consultes unos medios libres de ellos pero, si sales de esa burbuja, debería ser algo evidente si es tan común. Lo irónico es que si una de estas herramientas hubiera leído el artículo original, no lo entendería, pero no se inventaría una mentira así. Las alucinaciones no son exclusivas.
Fuentes
- Thompson, B., Dhaliwal, M. P., Frisch, P., Domhan, T., & Federico, M. (2024). A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism. arXiv preprint arXiv:2401.05749.
- Magueresse, A., Carles, V., & Heetderks, E. (2020). Low-resource languages: A review of past work and future challenges. arXiv preprint arXiv:2006.07264.