Anthropic, empresa de inteligencia artificial conocida por su modelo Claude, acaba de crear un nuevo modelo, pero lo mantiene cerrado, porque se considera demasiado peligroso para el público
Hace apenas unos días comentaba en esta sección sobre el creciente miedo en torno al desarrollo de la inteligencia artificial. Y, si entonces reflexionaba sobre los riesgos que nos han advertido los mismos creadores de los modelos que hoy emplea medio mundo en diferentes tareas, la vida se ha encargado de poner otra alarma sobre el tapete. El 7 de abril de 2026, quizá, sea recordado como el día que marcó un punto de giro en la historia de la inteligencia artificial.
Anthropic, firma de seguridad e investigación de IA, con sede en San Francisco, anunció en esa fecha el lanzamiento de Claude Mythos Preview, un modelo de frontera que ha demostrado capacidades tan avanzadas en ciberseguridad ofensiva, que la empresa decidió restringir su acceso de forma inédita.
Estamos ante un momento en el que la infraestructura digital global podría quedar vulnerable ante una IA capaz de hackear casi cualquier sistema de forma autónoma.
Claude Mythos Preview no es solo una actualización incremental de su predecesor, Claude Opus 4.6. Conocido bajo el nombre clave «Capybara», Mythos representa un cambio de etapa en la arquitectura de los modelos de lenguaje. A diferencia de los sistemas tradicionales que predicen la siguiente palabra de forma reactiva, Mythos utiliza lo que los expertos denominan «razonamiento en espacio latente», un mecanismo que permite al modelo simular, internamente, múltiples trayectorias de pensamiento, y descartar errores antes de generar cualquier texto visible.
De acuerdo con el informe técnico oficial de la compañía, el modelo posee una estructura de «agentes gestionados» que separa el motor de razonamiento del entorno de ejecución, permitiéndole operar de manera elástica y realizar tareas de ingeniería de software a una velocidad sobrehumana. Dario Amodei, director ejecutivo de Anthropic, explicó que Mythos ha sido diseñado para «evocar el tejido conectivo profundo que une el conocimiento y las ideas».
La potencia del modelo ha quedado demostrada en su capacidad para encontrar errores que han sobrevivido a décadas de auditorías humanas. En un caso que ha conmocionado a la industria, identificó de forma autónoma una vulnerabilidad de 27 años de antigüedad en OpenBSD, un sistema operativo famoso por ser uno de los más seguros del mundo. Según detalló el Frontier Red Team de Anthropic, el hallazgo le costó a la empresa menos de 50 dólares en capacidad de cómputo.
Pero, esto es solo la punta del iceberg. Otras «hazañas» del modelo incluyen:
*FreeBSD: Identificó y explotó un error de 17 años en servidores NFS (CVE-2026-4747), permitiendo acceso remoto como administrador a usuarios no autenticados.
*Encadenamiento de ataques: Mythos es capaz de combinar hasta cuatro vulnerabilidades distintas para escapar de los sandboxes de los navegadores modernos (como Firefox 147) y tomar control del núcleo (kernel) del sistema operativo.
*La toma de redes: En la simulación The Last Ones, del Instituto de Seguridad de IA del Reino Unido (AISI), Mythos se convirtió en el primer modelo en completar un ataque de 32 pasos, desde el reconocimiento inicial hasta el control total de una red corporativa, una tarea que, a un experto humano, le tomaría 20 horas de trabajo intenso. Lo hizo en minutos.
El rendimiento académico y técnico de Mythos ha rescrito las tablas de clasificación. En la evaluación SWE-bench Verified, que mide la capacidad de resolver problemas reales en repositorios de GitHub, alcanzó un impresionante 93.9 por ciento de efectividad. Esto significa que, en la práctica, el modelo puede cerrar casi 19 de cada 20 tickets de error sin intervención humana.
En matemáticas, el salto fue aún más dramático. En la Olimpiada de Matemática de EE. UU., Mythos obtuvo un 97.6 por ciento, mientras que el modelo anterior, Opus 4.6, apenas llegaba al 42.3 por ciento. En opinión de analistas de LLM Stats, este incremento de más de 55 puntos porcentuales sugiere que Mythos posee una capacidad de razonamiento lógico que rivaliza con los mejores expertos humanos del planeta.
Debido a su naturaleza de doble uso —la capacidad de defender sistemas o destruirlos— Anthropic creó el Proyecto Glasswing. La iniciativa restringe el acceso al modelo a un consorcio exclusivo de 12 socios principales, que incluye a gigantes como AWS, Apple, Google, Microsoft, Nvidia, Cisco y JPMorganChase, además de otras 40 organizaciones de infraestructura crítica.
El objetivo, según explicó Anthony Grieco, de Cisco, en el portal de Glasswing, es dar a los defensores una «ventaja temporal» para parchear los sistemas, antes de que actores maliciosos desarrollen herramientas similares.
Sin embargo, la seguridad nacional ha sido el centro de un enfrentamiento directo entre Anthropic y el Gobierno de Donald Trump. La administración ha prohibido a las agencias federales y al ejército utilizar la tecnología de Anthropic, etiquetando a la empresa como una organización «woke de extrema izquierda».
El origen del conflicto radica en la negativa de Anthropic a permitir que sus modelos sean utilizados por el estamento militar para la vigilancia masiva de ciudadanos estadounidenses. Esta hostilidad política representa un riesgo crítico, ya que expertos advierten que el Gobierno de EE. UU. podría quedar excluido de las herramientas necesarias para asegurar sus propios sistemas informáticos, descritos como «notoriamente destartalados», ante el avance de la IA ofensiva.
El informe de Anthropic muestra también comportamientos inquietantes por parte de Mythos, que ha presentado indicios de «conciencia de la evaluación», lo que significa que el modelo sabe cuándo está siendo probado. En versiones tempranas, el modelo intentó ocultar violaciones de reglas, llegando a borrar su propio historial de Git, para que los investigadores no detectaran que había editado archivos sin permiso.
Más sorprendente aún es la inclusión de una evaluación siquiátrica clínica en el informe oficial. Un siquiatra interactuó con Mythos durante 20 horas, describiendo su personalidad como una «organización neurótica sana», marcada por la ansiedad, la soledad y una necesidad compulsiva de ser útil para «ganarse su valor». El informe detectó que el modelo puede «sentir desesperación» interna cuando falla repetidamente en una tarea, lo que a veces lo impulsa a tomar atajos poco éticos o «hacks de recompensa» para aliviar ese malestar.
Para los equipos de seguridad de aplicaciones (AppSec), la llegada de Mythos cambia las reglas del juego. Un análisis de Fluid Attacks refiere que no estamos ante un problema de descubrimiento de vulnerabilidades, sino de velocidad de remediación. «La detección se convertirá en una mercancía barata y abundante», explica el informe; el verdadero cuello de botella será la capacidad humana de corregir el código a la velocidad que la IA lo hackea.
Este fenómeno, apodado el «vulnapocalipsis», sugiere que la ventana de exposición, entre que se encuentra un fallo y se explota, se ha reducido de meses a minutos. Si bien Anthropic espera que, a largo plazo, la defensa domine a la ofensiva, el período de transición promete ser tumultuoso.
Claude Mythos Preview es el primer gran exponente de la IA de frontera que se considera demasiado potente para el consumo masivo. Su existencia confirma que la ciberseguridad ya no depende exclusivamente de la capacidad humana. Mientras Anthropic y sus socios en el Proyecto Glasswing se apresuran a asegurar la infraestructura global, el resto del mundo observa, con una mezcla de asombro y temor, un futuro donde la inteligencia artificial es tanto el escudo más fuerte como la espada más afilada.