Monitor Software
Podríamos perder el control de la IA muy pronto

Publicación:17-07-2025
TEMA: #Software
Un grupo de investigadores alertaron que perderemos la capacidad de entender a la IA si no monitoreamos sus pensamientos.
Un grupo de investigadores de OpenAI, Google y Anthropic advirtieron que muy pronto podríamos perder la capacidad para entender la IA. En un documento publicado en arXiv, más de 40 científicos proponen monitorear de cerca los modelos de razonamiento para detectar comportamientos dañinos antes de que ocurran.
De acuerdo con VentureBeat, los científicos de las empresas más grandes de IA han pedido una investigación más amplia sobre las técnicas para vigilar a los modelos de razonamiento. El grupo de expertos propone monitorear las cadenas de razonamiento de los modelos que piensan en lenguaje humano. Esta característica permitiría identificar acciones perjudiciales antes de que se materialicen.
El documento señala que modelos de razonamiento como o3 de OpenAI o R1 de DeepSeek, muestran su razonamiento paso a paso antes de responder. Los investigadores mencionan que este "pensamiento en voz alta" ofrecería una ventana para comprender las verdaderas intenciones del modelo. Las cadenas de pensamiento (CoT) podrían revelar señales tempranas de mal comportamiento que no serían visibles con solo analizar sus acciones.
"Un monitor de CoT es un sistema automatizado que lee el CoT de un modelo de razonamiento y otra información relevante y señala interacciones sospechosas o potencialmente dañinas," indica el documento. "Estas respuestas podrían ser bloqueadas, o reemplazadas por acciones más seguras, o revisadas con más profundidad".
Monitorear los pensamientos de la IA revelaría sus intenciones
Los investigadores mencionan que el monitoreo CoT no es perfecto y la IA podría esconder sus intenciones. No obstante, es un método válido para identificar señales tempranas de desalineación, incluso si la acción peligrosa aún no ocurre. El sistema alertaría ante una posible meta maliciosa, manipulación o intento de hackeo.
"Cuando los modelos actúan de manera desalineada, por ejemplo, explotando fallas en sus funciones de recompensa durante el entrenamiento, manipulando datos para lograr un resultado o cayendo presa de ataques de inyección rápida, a menudo lo dicen explícitamente en sus rastros de razonamiento", señalan. Las cadenas de pensamiento son útiles para detectar si el modelo nos engaña para hacernos creer que sus metas son deseables.
La petición llega a unas semanas de que investigadores de Anthropic revelaran un comportamiento escalofriante de la IA. Un estudio realizado a 16 modelos encontró que la IA no tendría problemas en dañar a los seres humanos.
En una serie de simulaciones, la IA mostró sus capacidades de chantaje, sabotaje, difamación e incluso asesinato contra un humano que pretendía apagarla. Los modelos de Anthropic, Google, DeepSeek y xAI también demostraron que pueden sembrar el caos con el fin de garantizar su autopreservación.
El monitoreo de las cadenas de pensamiento de la IA podría ayudar a evitar una catástrofe, siempre y cuando se actúe de inmediato. "Estamos en un momento crítico en el que tenemos esta nueva cadena de pensamiento. Parece bastante útil, pero podría desaparecer en unos pocos años si la gente no se concentra realmente en él", mencionó Bowen Baker, investigador de OpenAI y uno de los autores del documento.
« Especial »