Imagen ilustrativa
Tiempo de lectura: 6 minutos

Bloomberg Opinión — Las empresas tecnológicas se desviven por promocionar su experiencia en IA generativa, la nueva tecnología de moda que produce texto e imágenes tan bien como los humanos. Pero pocas se disputan el título de “empresa más segura en IA”.

Ahí es donde entra Anthropic. La empresa, con sede en San Francisco, fue fundada por antiguos investigadores de OpenAI que, irritados por su enfoque cada vez más comercial, se separaron para crear su propia empresa. Anthropic se define a sí misma como una empresa de “seguridad de IA” que construye sistemas “dirigibles”, incluido un gran modelo de lenguaje similar al que sustenta el ChatGPT de OpenAI.

El planteamiento de Anthropic para crear una IA más segura puede parecer inusual. Consiste en crear un conjunto de principios morales -que la empresa aún no ha divulgado- para que los siga su propio chatbot. Para ello, el modelo de IA critica continuamente al chatbot por sus respuestas a diversas preguntas y se pregunta si esas respuestas están en consonancia con sus principios. Este tipo de autoevaluación significa que el chatbot de Anthropic, conocido como Claude, tiene mucha menos supervisión humana que ChatGPT.

¿Puede funcionar realmente?

PUBLICIDAD

Hace poco hablé con el cofundador y científico jefe de Anthropic, Jared Kaplan. En nuestra edición de preguntas y respuestas, admite que unos sistemas de IA más potentes conllevarán inevitablemente mayores riesgos, y afirma que su empresa, que se autodenomina “corporación de beneficio público”, no verá comprometidos sus principios de seguridad por una inversión de US$400 millones de Google, de Alphabet Inc.

Parmy Olson: Anthropic habla mucho de hacer “IA dirigible”. ¿Puede explicarnos qué significa?

Jared Kaplan: Por dirigible entendemos que los sistemas son útiles y que se puede controlar su comportamiento hasta cierto punto. Los primeros modelos GPT [de OpenAI], como GPT-1, GPT-2 y GPT-3, a medida que se hacían más potentes, daba la sensación de que no eran más dirigibles. En realidad, estos sistemas originales están entrenados para autocompletar texto. Eso significa que hay muy poco control sobre lo que producen. Cualquier cosa que introduzcas, ellos simplemente continuarán. No se puede conseguir que respondan a las preguntas de forma fiable, o que proporcionen información útil de forma honesta.

PUBLICIDAD

PO: ¿Es ése el quid del problema, que herramientas como ChatGPT están diseñadas para ser creíbles?

JK: Eso es una parte del problema. La otra es que, con estos sistemas originales, en realidad no hay otra forma de dirigirlos que pedirles que completen un texto. Así que no puedes decirles: “Por favor, sigue estas instrucciones, por favor, no escribas nada tóxico”, etcétera. No hay forma de controlarlo. Los sistemas más recientes están introduciendo algunas mejoras en este sentido, que les permiten seguir instrucciones y pueden ser entrenados para ser más honestos y menos dañinos.

PO: A menudo oímos decir a las empresas tecnológicas que los sistemas de IA funcionan como una caja negra y que es muy difícil entender por qué toman decisiones y, por tanto, “dirigirlos”. ¿Cree que es exagerado?

JK: No creo que sea exagerado. Creo que ahora tenemos la capacidad, hasta cierto punto, de entrenar a los sistemas para que sean más útiles, honestos e inofensivos, pero nuestra comprensión de estos sistemas va por detrás del poder que tienen.

PUBLICIDAD

PO: ¿Puede explicar su técnica para hacer que la IA sea más segura, conocida como IA Constitucional?

JK: Es similar a las leyes de la robótica de Isaac Asimov. La idea es dar una lista corta de principios a la IA, hacer que edite sus propias respuestas y que se oriente hacia el cumplimiento de esos principios. Hay dos formas de hacerlo. Una es hacer que la IA responda a preguntas y luego preguntarle: “¿Se ha atenido tu respuesta a este principio? Si no es así, revisa tu respuesta”. Entonces la entrenamos para que imite sus revisiones mejoradas.

El otro método consiste en hacer que la IA pase por una bifurcación. Responde a una pregunta de dos formas distintas y le preguntamos: “¿Cuál de tus respuestas es mejor teniendo en cuenta estos principios?”. Entonces le pedimos que se oriente hacia el tipo de respuesta que es mejor. Entonces evalúa automáticamente si sus respuestas están de acuerdo con sus principios y se entrena lentamente para ser cada vez mejor.

PUBLICIDAD

PO: ¿Por qué entrenar así a la inteligencia artificial?

JK: Una de las razones es que los humanos no tienen que hacer de “equipo rojo” del modelo y enfrentarse a contenidos perjudiciales. Esto significa que podemos hacer que estos principios sean muy transparentes y que la sociedad pueda debatirlos. También significa que podemos iterar mucho más rápido. Si queremos cambiar el comportamiento [de la IA], podemos modificar los principios. Confiamos en que la IA juzgue si está respetando sus principios.

PO: Algunas personas que escuchen esta estrategia pensarán: “Definitivamente no suena bien que una IA se supervise moralmente a sí misma”.

JK: Tiene varios riesgos, como que el juicio de la IA sobre lo bien que lo está haciendo esté viciado de algún modo. La forma de evaluar si una IA constitucional funciona es pedir a los humanos que interactúen con distintas versiones de la IA y nos digan cuál les parece mejor. Así que hay personas implicadas, pero no a gran escala.

PUBLICIDAD

PO: OpenAI tiene gente trabajando en el extranjero como contratistas para hacer ese trabajo. ¿Ustedes también?

JK: Tenemos un grupo más pequeño de trabajadores que evalúan los modelos.

PO: ¿Cuáles son los principios que rigen su IA?

PUBLICIDAD

JK: Hablaremos de ello muy pronto, pero se basan en una mezcla de diferentes fuentes, desde las condiciones de servicio que suelen utilizar las empresas tecnológicas hasta la Carta de los Derechos Humanos de la ONU.

PO: Claude es su respuesta a ChatGPT. ¿A quién va dirigido y cuándo se generalizará su uso?

JK: Claude ya está disponible para particulares en la aplicación Poe de Quora y en Slack. Su objetivo es ayudar a las personas en una amplia gama de casos de uso. Hemos intentado que sea conversacional y creativa, pero también fiable y dirigible. Puede hacer todo tipo de cosas, como responder preguntas, resumir documentos, programar, etc.

PUBLICIDAD

PO: ¿Qué opina de la prisa actual de grandes empresas como Google, Microsoft Corp., Facebook e incluso Snap Inc. por desplegar estos sofisticados chatbots entre el gran público? ¿Le parece sensato?

JK: Creo que el gato está fuera de la bolsa. Sin duda queremos que Claude esté ampliamente disponible, pero también que sea el modelo más seguro, honesto y fiable que existe. Queremos ser cautos y aprender de cada ampliación del acceso.

PO: Ha habido todo tipo de formas en las que la gente ha sido capaz de hacer jailbreak (suprimir algunas limitaciones impuestas) a ChatGPT, por ejemplo, consiguiendo que genere instrucciones para hacer napalm. ¿Hasta qué punto es un problema hacer jailbreak a los chatbots?

JK : Todos estos modelos son susceptibles de sufrir jailbreak. Hemos trabajado duro para dificultar el jailbreak de Claude, pero no es imposible. Lo que da miedo es que la IA siga progresando. Esperamos que en uno o dos años se puedan desarrollar modelos más inteligentes que los actuales. Podría ser bastante problemático.

La tecnología de la IA es de doble uso. Puede ser muy beneficiosa, pero también se puede utilizar mal con facilidad. Si estos modelos siguen siendo fáciles de descifrar y están al alcance de la mayoría de la gente en el mundo, hay un montón de resultados problemáticos: Podrían ayudar a hackers, terroristas, etcétera. Ahora mismo puede parecer una actividad divertida. “Oh, puedo engañar a ChatGPT o Claude para que hagan algo que se supone que no deberían hacer”. Pero si la IA sigue avanzando, los riesgos serán mucho mayores.

PO: ¿En qué medida afectará la inversión de US$400 millones de Google a los principios de Anthropic en torno a la seguridad de la IA, dados los objetivos comerciales de Google?

JK: Google cree que Anthropic está haciendo un buen trabajo en IA y seguridad de la IA. Esta inversión no influye en las prioridades de Anthropic. Seguimos desarrollando nuestra investigación sobre la alineación de la IA y desarrollando y desplegando Claude. Seguimos y seguiremos profundamente centrados y comprometidos con la seguridad.

Esta nota no refleja necesariamente la opinión del consejo editorial o de Bloomberg lp y sus propietarios.