El sitio web Amazon Mechanical Turk, o mturk.com, aparece en la pantalla de un ordenador para una fotografía en Tiskilwa, Illinois, EE.UU., el miércoles 23 de abril de 2014.
Tiempo de lectura: 4 minutos

Bloomberg Opinión — Érase una vez, en el siglo XVIII, una fantástica máquina de ajedrez conocida como el Turco Mecánico que se exhibió por todo el mundo, asombrando al público con su capacidad para vencer a jugadores expertos y a jefes de estado como Napoleón Bonaparte. Años más tarde se descubrió que las extraordinarias hazañas de la máquina sólo eran posibles porque dentro de ella se escondía un humano que hacía todas las jugadas.

Hoy en día, ocurre un fenómeno similar entre bastidores en el desarrollo de la inteligencia artificial: Los humanos etiquetan gran parte de los datos utilizados para entrenar los modelos de IA y a menudo también cuidan de esos modelos en la naturaleza, lo que significa que nuestra maquinaria moderna no está tan totalmente automatizada como pensamos. Sin embargo, ahora se produce un giro en la historia: Los sistemas de IA pueden producir contenidos tan parecidos a los humanos que algunos de esos humanos entre bastidores están entrenando a la nueva IA con la antigua.

Los modelos de IA se describen a menudo como una caja negra, así que ¿qué ocurre cuando una caja negra enseña a otra? El nuevo sistema se vuelve aún más difícil de examinar. Puede hacer que los sesgos de esos sistemas estén más arraigados.

Un nuevo estudio de académicos de la EPFL suiza sugiere que los trabajadores de MTurk de Amazon.com Inc. (una plataforma de trabajo de crowdsourcing que toma su nombre del original Turco mecánico) han empezado a utilizar ChatGPT y otros grandes modelos lingüísticos para automatizar su trabajo. Los investigadores afirmaron que entre el 33% y el 46% de ellos utilizaban las herramientas de IA al realizar sus tareas.

PUBLICIDAD

Normalmente, las empresas y los académicos contratan a trabajadores de MTurk por su capacidad para hacer cosas que las computadoras no pueden, como etiquetar una imagen, valorar un anuncio o responder a las preguntas de una encuesta. Su trabajo se utiliza a menudo para entrenar algoritmos que hagan cosas como reconocer fotos o leer recibos.

Casi todas las tareas en MTurk pagan cantidades ínfimas. Sherry Stanley, residente en Virginia Occidental y trabajadora de MTurk durante más de siete años hasta hace poco, dijo que había visto a solicitantes que ofrecían pagar sólo 50 centavos por tres párrafos de trabajo escrito. Los turkers pueden aumentar sus ingresos por hora de 3 a unos US$30 si utilizan software especializado para agilizar sus tareas.

El problema de utilizar ChatGPT, sin embargo, es que no sólo agiliza el trabajo, sino que lo hace.

PUBLICIDAD

Esto tiene varias implicaciones. Por ejemplo, este comportamiento afecta a las aproximadamente 250.000 personas, la mayoría en EE.UU., que se calcula que trabajan en la plataforma MTurk. “Los trabajadores estafadores pueden explotar todo el sistema”, dice Stanley. “Y luego los buenos trabajadores son los que sufren las consecuencias”.

Las empresas que contratan a Turkers les pagan en función del número de tareas que realizan y de la calidad de su trabajo. Si algunos producen trabajo más rápido gracias a un software que imita sus capacidades humanas, eso ejerce una mayor presión sobre los trabajadores de MTurk para que aumenten su velocidad y su producción en general, algo que probablemente también experimenten otros profesionales con la llegada de la IA generativa.

Otra consecuencia son los resultados sesgados para los investigadores académicos que utilizan MTurk para realizar estudios, y para las empresas que contratan a Turkers para ayudar a entrenar sistemas de IA. Si hay menos aportación humana en esos procesos, los algoritmos y los estudios científicos que utilizan el crowdsourcing obtendrán un reflejo más deformado de la realidad.

“Los datos humanos son enormemente importantes”, afirma Veniamin Veselovsky, autor del trabajo de investigación de la EPFL. “La psicología, la ciencia social computacional, la sociología, todas dependen de ella para comprendernos mejor a “nosotros””.

PUBLICIDAD

Si más trabajadores de masas utilizan ChatGTP, también se sumarán al crecimiento del contenido sintético derivado de la IA que está llegando a la web. Los grandes modelos lingüísticos desarrollados por empresas como OpenAI y Google están a punto de desempeñar un papel más importante en nuestro llamado ecosistema de la información, sumándose a las crecientes cantidades de datos sintéticos que las empresas están produciendo para enseñar a los modelos de IA.

En general, eso hará de Internet un lugar potencialmente más confuso para aprender sobre el mundo. Entre los bots de Twitter y los anuncios generados por IA, cada vez es más difícil encontrar contenidos en la red que procedan de personas reales y vivas. Este cambio amenaza con reforzar los prejuicios que se sabe que se han incorporado a algunos modelos lingüísticos y sistemas de IA.

“Abre una serie de cuestiones éticas”, dice Veselovsky. “Estos modelos pueden representar puntos de vista, opiniones e ideologías concretas. Esto puede conducir a una falta de diversidad en los modelos que estamos entrenando”.

PUBLICIDAD

En otras palabras, si los sistemas de IA sesgados están entrenando a otros sistemas de IA, nos encontraremos atrapados en un bucle de información dudosa cuyos orígenes serán cada vez más difíciles de descifrar. Los humanos que trabajan entre bastidores de la IA son parte integrante de su desarrollo, pero sería bueno que siguieran siendo humanos el mayor tiempo posible.

Esta nota no refleja necesariamente la opinión del consejo editorial o de Bloomberg LP y sus propietarios.