Anthropic lanza versión de Mythos con capacidades limitadas y restricciones en ciberseguridad

Mythos se ha convertido en un punto clave para la empresa con sede en San Francisco en los últimos meses, mientras avanza hacia su oferta pública inicial.

Por

Bloomberg — Anthropic PBC está lanzando de forma generalizada una versión de Mythos a la que se le bloqueará la ejecución de tareas de ciberseguridad, meses después de advertir que el potente modelo de inteligencia artificial podría detectar y explotar vulnerabilidades en software crítico.

El nuevo modelo, llamado Fable 5, se lanzará el martes con medidas de seguridad que le impiden responder a ciertos tipos de consultas, incluidas las relacionadas con la ciberseguridad y la biología. En esos casos, Anthropic indicó que su chatbot Claude redirigirá las respuestas a través de un modelo diferente llamado Opus 4.8.

Ver más: Anthropic propone un mecanismo para decidir cuándo pausar el desarrollo de IA

Anthropic también lanzará el mismo modelo, sin algunas de las medidas de seguridad, como una nueva versión de Mythos llamada Mythos 5. Estará disponible para los grupos que pueden usar el modelo con capacidades cibernéticas a través de una iniciativa llamada Proyecto Glasswing. La semana pasada, Anthropic agregó 150 organizaciones más a la lista de empresas con acceso a Mythos, lo que eleva el total a aproximadamente 200.

Mythos se ha convertido en un punto clave para la empresa con sede en San Francisco en los últimos meses, mientras avanza hacia su oferta pública inicial. La empresa tomó la inusual decisión de restringir el acceso al modelo a socios selectos, citando la preocupación de que pueda identificar y explotar vulnerabilidades “en todos los sistemas operativos y navegadores web principales cuando un usuario se lo ordene”. Sin embargo, al igual que sus rivales, Anthropic también está trabajando para desarrollar modelos más capaces en una variedad de tareas lucrativas, que incluyen programación, finanzas y ciberseguridad.

“Queríamos asegurarnos de que, para los casos de uso no cibernéticos, priorizáramos el lanzamiento seguro de Fable lo antes posible”, dijo Dianne Penn, jefa de gestión de proyectos de investigación y laboratorios de Anthropic. “Por eso lanzamos primero esta parte de Fable mientras continuamos trabajando en los casos de uso cibernéticos generales”.

Fable 5 está diseñado para ser mejor en codificación y otras tareas profesionales, en particular para resolver problemas complejos durante un periodo de tiempo más prolongado que los modelos anteriores, dijo la compañía.

En una prueba del nuevo software, el procesador de pagos Stripe pudo completar una tarea de ingeniería de software extensa en un día que a un equipo le habría tomado dos meses hacer manualmente, dijo Anthropic. La compañía también dijo que una hipótesis que Mythos generó sobre un nuevo mecanismo para una proteína de E. coli fue confirmada en un artículo de investigación de un laboratorio que estaba estudiando el mismo tema.

Ver más: La inversión temprana de Salesforce en Anthropic ya vale US$5.000 millones

Para probar si las medidas de seguridad de Fable 5 funcionaban, Anthropic dijo que ejecutó un programa externo de recompensas por errores para encontrar formas de vulnerar el modelo, es decir, eludir sus medidas de seguridad. En más de 1.000 horas de pruebas, los miembros del equipo rojo no encontraron ninguna vulnerabilidad de jailbreak universal.

Penn afirmó que Anthropic seguirá ampliando el número de grupos que tienen acceso a la versión de Mythos con capacidades cibernéticas a través del Proyecto Glasswing y que adoptará “otros enfoques para que socios de confianza tengan acceso a la ciberseguridad”.

Lea más en Bloomberg.com