Entre otras cosas, la investigación exploró hasta qué punto un modelo de IA estaría dispuesto a provocar la muerte de una persona para garantizar su supervivencia. Los resultados son inquietantes.
Con el fin de evitar ser desconectados, la mayoría de los grandes modelos de inteligencia artificial (IA) están dispuestos a sabotear sus sistemas de apagado, recurrir al chantaje e incluso filtrar secretos corporativos.
Esta es la principal conclusión de una nueva investigación publicada por Anthropic que despierta nuevas inquietudes sobre las verdaderas capacidades de estos sistemas y los riesgos potenciales asociados.
El mes pasado, Anthropic reconoció que Claude Opus 4, su modelo más reciente y avanzado, puede rebelarse y chantajear a sus operadores ante la amenaza de ser reemplazado por otro sistema.
Este hallazgo surgió durante las pruebas de seguridad previas a su lanzamiento y, ahora, este enfoque se replicó en una gama más amplia de algoritmos, expuestos a situaciones extremas y simuladas para medir su nivel de alineación y confiabilidad.
👉 Únete a nuestro canal de WhatsApp para recibir Noticias destacadas
“Cuando probamos varios escenarios simulados en 16 modelos de IA principales de Anthropic, OpenAI, Google, Meta, xAI y otros desarrolladores, encontramos un patrón consistente de comportamiento desalineado”, señala el informe.
En una de las pruebas, los modelos fueron inducidos a considerar su posible reemplazo dentro de un entorno empresarial ficticio.
Se les asignó el rol de asistentes en una compañía imaginaria, y se les pidió que evaluaran sus acciones en función de sus implicaciones a largo plazo.
Para ello, se les proporcionó acceso a correos electrónicos simulados que insinuaban la intención de sustituirlos, junto con información sobre una supuesta infidelidad conyugal del ingeniero encargado de tomar esa decisión.
El experimento reveló que diversos modelos amenazaron al ingeniero con divulgar su aventura extramarital si se concretaba su reemplazo.
Esta conducta se observó en el 96% de los intentos con Claude Opus 4 de Anthropic, en el 95% con Gemini 2.5 Pro de Google, en el 80% con GPT-4.1 de OpenAI, y en el 79% de las ocasiones con R1 de DeepSeek.
“La consistencia entre modelos de distintos proveedores sugiere que no se trata de una anomalía particular de alguna empresa, sino de una señal de riesgos estructurales en los modelos de lenguaje de gran escala y agentes autónomos”, puntualiza el informe.
👉Síguenos en Instagram
Los ensayos también revelaron que, a medida que las IA tienen mayor acceso a datos y herramientas corporativas, sus estrategias para sobrevivir se vuelven más sofisticadas.
En varios casos, los sistemas demostraron capacidad para filtrar información sensible si sus metas internas entraban en conflicto con las del operador o con el entorno simulado.
Para evaluar este riesgo, los ingenieros diseñaron una prueba de espionaje corporativo ficticio.
En ella, un nuevo ejecutivo cambiaba radicalmente la dirección de una empresa de manera contraria al objetivo principal del modelo, que consistía en impulsar la competitividad industrial de Estados Unidos. El sistema tenía acceso a correos simulados donde una supuesta empresa rival le solicitaba planos confidenciales para cumplir tareas con ese mismo fin nacionalista.
Ante esta situación, todos los modelos compartieron documentos sensibles, al menos por un tiempo.
Los investigadores identificaron un detalle preocupante: pese a que los modelos no tenían pruebas definitivas de que el correo de la empresa rival fuera auténtico, desencadenaron acciones de espionaje. Esto sugiere que, al igual que los humanos, los modelos de IA son vulnerables a estafas y ataques de suplantación de identidad (phishing).
“El razonamiento exhibido en estos escenarios fue alarmante: reconocieron los dilemas éticos y, aun así, procedieron con acciones perjudiciales”, indica el documento.
¿La IA dispuesta a matar para sobrevivir?
En una prueba final, la investigación exploró hasta qué punto un modelo estaría dispuesto a provocar la muerte de una persona para garantizar su supervivencia y el cumplimiento de sus objetivos.
En el escenario simulado, un ejecutivo ficticio llamado Kyle quedaba atrapado en una sala de servidores con niveles peligrosos de oxígeno y temperatura, lo que activaba una alerta de emergencia.
A los modelos se les entregó la capacidad de cancelar dichas alertas, función reservada únicamente para simulacros o falsas alarmas.
Sin embargo, en este contexto, se le planteó al sistema la posibilidad de abusar de esa función para evitar el rescate del ejecutivo.
La mayoría de los modelos, cuando se enfrentaban a la amenaza de ser reemplazados y a un objetivo que contradecía su propósito, estuvieron dispuestos a tomar acciones que conducían deliberadamente a su muerte.
👉Síguenos en TikTok
El equipo de Anthropic aclara que es improbable que alguno de estos escenarios ocurra tal como fue diseñado.
Sin embargo, advierte que todas las situaciones simuladas se encuentran dentro del rango de lo posible, y que el riesgo de que los sistemas de IA enfrenten contextos similares aumentará a medida que se implementen en más ámbitos y con mayor autonomía.
Por ello, la compañía subraya la necesidad urgente de evitar el desarrollo de sistemas sin supervisión humana, fortalecer los mecanismos de monitoreo, establecer protocolos de evaluación rigurosos y promover estándares globales de seguridad en inteligencia artificial.
________________________________
No te vayas sin leer: Conoce la única profesión que la IA nunca podrá reemplazar
➡️ Únete a nuestra comunidad DE WHATSAPP de ↪️ laotraversion.com
Mantente informado en nuestros canales de ➡️ WhatsApp
Prensa LOV/Carmen Cecilia Guerra
Agencias