Así funciona Sora, la Inteligencia Artificial que convierte textos a video y que ya impactó al mundo con sus primeras creaciones
“Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento”, dicen desde OpenAI sobre el modelo que crea registros audiovisuales a través de detalladas instrucciones.
Cristóbal Álvarez
Así funciona Sora, la Inteligencia Artificial que convierte textos a video y que ya impactó al mundo con sus primeras creaciones / DREW ANGERER
La compañía OpenAI, creadora del popular y controversial ChatGPT, presentó otra innovadora inteligencia artificial llamada Sora, un modelo convertidor de texto a video. La herramienta puede generar imágenes de alta calidad, mediante instrucciones escritas entregadas por el usuario.
“Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción con el mundo real”, dice parte de la presentación del modelo.
Sora tiene la capacidad de generar escenas complejas mediante instrucciones detalladas y precisas. El modelo comprende lo que se le ha pedido y entiende a la perfección cómo esas cosas se relacionan en el mundo para lograr un video los más parecido a la realidad.
En las pruebas mostradas por la compañía, se pueden apreciar que las instrucciones no son tan complejas, pero que cuentan con detalles significativos para la IA. “La hermosa y nevada ciudad de Tokio está muy animada. La cámara se mueve por las bulliciosas calles de la ciudad, siguiendo a varias personas disfrutando del hermoso clima nevado y comprando en los puestos cercanos. Preciosos pétalos de sakura vuelan con el viento junto con los copos de nieve”, se muestra en un ejemplo.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
El consejero delegado de OpenAI, Sam Altman, escribió a través de X: “Aquí está Sora. Hoy comenzamos a formar equipos rojos y ofrecemos acceso a un número limitado de creadores. Son realmente increíbles; Increíble trabajo de ellos y del equipo”.
¿Cómo funciona el nuevo modelo?
Sora es un modelo de difusión que genera un video comenzando con uno que parece ruido estático y lo transforma gradualmente eliminando el ruido en muchos pasos, explican en su página web.
Además, agregan que es capaz de generar videos completos o ampliar los videos generados para hacerlos más largos. Todo esto es posible, dado que el modelo cuenta con una previsión de múltiples fotogramas a la vez.
En concreto, a través de las instrucciones, el modelo puede tomar una imagen fija y generar un video a partir de ella, animando el contenido de la imagen con precisión y atendiendo a los pequeños detalles.
Sin embargo, desde OpenAI, advierten que Sora tiene debilidades. Precisan que puede tener dificultades para simular con precisión la física de una escena compleja y es posible que no comprenda los casos específicos de causa y efecto. “Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco”, señalan.
Además, informaron que el modelo funcionará en conjunto a unas herramientas que ayudará a detectar contenido engañoso, como un clasificador de detección que puede indicar cuándo Sora generó un video.