Monitor Software

OpenAI lanza IA que razonan, traducen y transcriben mientras hablas

Los nuevos modelos de OpenAI razonan, traducen y transcriben conversaciones en tiempo real

Publicación:08-05-2026

TEMA: #Software

++--

GPT-Realtime-2, Translate y Whisper permiten diálogos más naturales, traducción simultánea y transcripción instantánea en múltiples idiomas.

OpenAI ha presentado tres nuevos modelos de voz de IA que pueden razonar, traducir y transcribir mientras las personas hablan. La compañía señala que estos modelos permiten crear experiencias de voz que se sienten más naturales y responden de forma más inteligente en tiempo real. Los tres ya están disponibles a través de la API para desarrolladores

De acuerdo con una publicación en su web, los modelos en cuestión son GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper. El primero de ellos es el más llamativo del grupo y cuenta con capacidades de razonamiento equivalentes a GPT-5. OpenAI menciona que su IA puede puede manejar conversaciones más complejas sin perder el hilo, ya que entiende el contexto, gestiona interrupciones, llama a herramientas externas mientras sigue hablando y ajusta su tono según la situación.

Cuando los usuarios están frustrados, la IA puede responder con más calma, pero si está confirmando algo, sube el tono. GPT-Realtime-2 también introduce frases de transición como "déjame verificar eso" o "un momento" mientras procesa una solicitud, lo que evitará los silencios que hacen sentir que el sistema se ha colgado. Otra función adicional es la posibilidad de llamar a varias herramientas al mismo tiempo y anunciarlo en voz alta: "revisando tu calendario", "buscando esa información ahora".

GPT-Realtime-2 tine una ventana de contexto de 128.000 tokens, lo que permite conversaciones mucho más largas sin que el modelo pierda el hilo. El nivel de razonamiento además es configurable entre cinco niveles, desde mínimo hasta muy alto, para equilibrar velocidad y profundidad según lo que necesite cada caso.

Los nuevos modelos de OpenAI razonan, traducen y transcriben conversaciones en tiempo real

El segundo modelo de la lista es GPT-Realtime-Translate, diseñado para traducción simultánea de voz. Esta IA admite más de 70 idiomas de entrada y traduce hacia 13 idiomas de salida, todo en tiempo real y siguiendo el ritmo del hablante. OpenAI menciona que esta funcionalidad está enfocada a la atención al cliente, plataformas educativas, eventos en directo o cualquier app en donde dos personas necesiten hablar en idiomas distintos sin interrumpir la conversación.

"La traducción en vivo debe preservar el significado mientras mantiene el ritmo del hablante, incluso cuando la gente habla de forma natural, cambia de contexto o utiliza pronunciación regional y lenguaje específico de dominio", dijo la compañía.

Uno de los primeros en aplicar GPT-Realtime-Translate es Deutsche Telekom, quien está probando el modelo para permitir que sus clientes se comuniquen en el idioma con el que se sientan más cómodos.

Por último, OpenAI lanzó GPT-Realtime-Whisper, un modelo de transcripción que convierte el audio en texto mientras la persona habla. En la práctica, esta IA añade subtítulos en las presentaciones o transmisiones en directo, las cuales pueden sentirse más rápidas y naturales al reducir la latencia típica que añade una función de subtitulado en tiempo real.

GPT-Realtime-Whisper también puede generar notas y resúmenes mientras las conversaciones aún están en progreso. El modelo permite construir agentes de voz que necesiten entender a los usuarios de forma continua, algo que se aprovechará en departamentos como el de atención al cliente, sanidad, ventas, reclutamiento y más.

Precio y disponibilidad

Los tres modelos están disponibles dentro de la Realtime API de OpenAI. Para probarlos sin escribir código, puedes acceder directamente desde el Playground de la plataforma. Si quieres integrarlos en una app, OpenAI ofrece un punto de partida a través de Codex, donde puedes añadir GPT-Realtime-2 a un proyecto existente o arrancar uno desde cero.

En cuanto al precio, GPT-Realtime-2 tiene un coste de 32 dólares por cada millón de tokens de audio en entrada y 64 dólares por cada millón en salida. Por su parte, GPT-Realtime-Translate se ofrece a 0,034 dólares por minuto, y GPT-Realtime-Whisper a 0,017 dólares por minuto.

OpenAI confirmó que la API incluye capas de seguridad que pueden detener conversaciones si detectan contenido que viola las políticas de uso.

« Especial »

Te podria interesar