Así funciona Sora, la Inteligencia Artificial que convierte textos a video y que ya impactó al mundo con sus primeras creaciones
“Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento”, dicen desde OpenAI sobre el modelo que crea registros audiovisuales a través de detalladas instrucciones.
La compañía OpenAI, creadora del popular y controversial ChatGPT, presentó otra innovadora inteligencia artificial llamada Sora, un modelo convertidor de texto a video. La herramienta puede generar imágenes de alta calidad, mediante instrucciones escritas entregadas por el usuario.
“Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción con el mundo real”, dice parte de la presentación del modelo.
Revisa también:
Sora tiene la capacidad de generar escenas complejas mediante instrucciones detalladas y precisas. El modelo comprende lo que se le ha pedido y entiende a la perfección cómo esas cosas se relacionan en el mundo para lograr un video los más parecido a la realidad.
En las pruebas mostradas por la compañía, se pueden apreciar que las instrucciones no son tan complejas, pero que cuentan con detalles significativos para la IA. “La hermosa y nevada ciudad de Tokio está muy animada. La cámara se mueve por las bulliciosas calles de la ciudad, siguiendo a varias personas disfrutando del hermoso clima nevado y comprando en los puestos cercanos. Preciosos pétalos de sakura vuelan con el viento junto con los copos de nieve”, se muestra en un ejemplo.
El consejero delegado de OpenAI, Sam Altman, escribió a través de X: “Aquí está Sora. Hoy comenzamos a formar equipos rojos y ofrecemos acceso a un número limitado de creadores. Son realmente increíbles; Increíble trabajo de ellos y del equipo”.
¿Cómo funciona el nuevo modelo?
Sora es un modelo de difusión que genera un video comenzando con uno que parece ruido estático y lo transforma gradualmente eliminando el ruido en muchos pasos, explican en su página web.
Además, agregan que es capaz de generar videos completos o ampliar los videos generados para hacerlos más largos. Todo esto es posible, dado que el modelo cuenta con una previsión de múltiples fotogramas a la vez.
En concreto, a través de las instrucciones, el modelo puede tomar una imagen fija y generar un video a partir de ella, animando el contenido de la imagen con precisión y atendiendo a los pequeños detalles.
Sin embargo, desde OpenAI, advierten que Sora tiene debilidades. Precisan que puede tener dificultades para simular con precisión la física de una escena compleja y es posible que no comprenda los casos específicos de causa y efecto. “Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco”, señalan.
Además, informaron que el modelo funcionará en conjunto a unas herramientas que ayudará a detectar contenido engañoso, como un clasificador de detección que puede indicar cuándo Sora generó un video.
Revisa aquí más ejemplos:
Podcasts recomendados
Ver todos- SuscríbeteMaría José Márquez: Conociendo su mundo desde las raíces
08/11/24 - 20:00
- Suscríbete
- SuscríbeteEl poder y las prisiones preventivas
Ayer - 49:55
- Suscríbete
- SuscríbeteLos Tenores ya palpitan el Chile-Perú por eliminatorias
Ayer - 01:15:52
- Suscríbete
- SuscríbeteConsultoría en vivo
11/11/24 - 38:25
- SuscríbeteCap 20 - Temporada 3: Antonio Tabucchi
29/10/24 - 20:29