Google responde a la IA generadora de vídeos de Meta con la suya propia, denominada Imagen Video
Para no ser superado por Make-A-Video de Meta, Google ha detallado hoy su trabajo en Imagen Video, un sistema de IA que puede generar videoclips a partir de un texto (por ejemplo, "un oso de peluche lavando platos"). Aunque los resultados no son perfectos -los vídeos en bucle que genera el sistema tienden a tener artefactos y ruido-, Google afirma que Imagen Video es un paso hacia un sistema con un "alto grado de control" y conocimiento del mundo, incluida la capacidad de generar secuencias en una gama de estilos artísticos.
Como señaló Devin Coldewey en su artículo sobre Make-A-Video, los sistemas de conversión de texto en vídeo no son nuevos. A principios de este año, un grupo de investigadores de la Universidad de Tsinghua y la Academia de Inteligencia Artificial de Pekín lanzaron CogVideo, que puede traducir el texto en clips cortos de razonable alta fidelidad. Pero Imagen Video parece suponer un salto significativo sobre el estado de la técnica anterior, mostrando una aptitud para animar subtítulos que los sistemas existentes tendrían problemas para entender.
"Sin duda es una mejora", afirma Matthew Guzdial, profesor asistente de la Universidad de Alberta que estudia la IA y el aprendizaje automático. "Como se puede ver en los ejemplos de vídeo, aunque el equipo de comunicación está seleccionando los mejores resultados, sigue habiendo una extraña borrosidad y artificiosidad. Así que definitivamente esto no se va a utilizar directamente en la animación o la televisión a corto plazo. Pero sí que podría incorporarse, o algo parecido, a herramientas que ayuden a acelerar algunas cosas".
![]() |
| Créditos: Google |
![]() |
| Créditos: Google |
Imagen Video se basa en Imagen de Google, un sistema de generación de imágenes comparable a DALL-E 2 de OpenAI y Stable Diffusion . Imagen es lo que se conoce como un modelo de "difusión", que genera nuevos datos (por ejemplo, vídeos) aprendiendo a "destruir" y "recuperar" muchas muestras de datos existentes. A medida que se alimentan las muestras existentes, el modelo mejora en la recuperación de los datos que había destruido previamente para crear nuevas obras.
![]() |
| Créditos: Google |
Como explica el equipo de investigación de Google que está detrás de Imagen Video en un documento, el sistema toma una descripción de texto y genera un vídeo de 16 fotogramas y tres cuadros por segundo con una resolución de 24 por 48 píxeles. A continuación, el sistema aumenta la escala y "predice" fotogramas adicionales, produciendo un vídeo final de 128 fotogramas y 24 fotogramas por segundo a 720p (1280×768).
![]() |
| Créditos: Google |
![]() |
| Créditos: Google |
Google afirma que Imagen Video se ha entrenado con 14 millones de pares de vídeo-texto y 60 millones de pares de imagen-texto, así como con el conjunto de datos de imagen-texto LAION-400M, de acceso público, lo que le ha permitido generalizar una serie de estéticas. (No por casualidad, una parte de LAION se utilizó para entrenar Stable Diffusion). En los experimentos, descubrieron que Imagen Video podía crear vídeos del estilo de las pinturas de Van Gogh y la acuarela. Y lo que es más impresionante, afirman que Imagen Video demostró comprender la profundidad y la tridimensionalidad, lo que le permitió crear vídeos como los de los aviones no tripulados que giran y capturan objetos desde distintos ángulos sin distorsionarlos.
En una importante mejora con respecto a los sistemas de generación de imágenes disponibles en la actualidad, Imagen Video también puede renderizar texto correctamente. Mientras tanto Stable Diffusion como DALL-E 2 tienen problemas para traducir indicaciones como "un logo para 'Diffusion'" en letra legible, Imagen Video lo renderiza sin problemas, al menos a juzgar por el papel.
Esto no quiere decir que Imagen Video no tenga limitaciones. Al igual que en el caso de Make-A-Video, incluso los clips seleccionados de Imagen Video están movidos y distorsionados en algunas partes, como aludió Guzdial, con objetos que se mezclan de formas físicamente antinaturales -e imposibles-.
"En general, el problema de la conversión de texto a vídeo sigue sin resolverse, y es poco probable que alcancemos pronto una calidad similar a la de DALL-E 2 o Midjourney", prosigue Guzdial.
Para mejorar esta situación, el equipo de Imagen Video planea combinar sus fuerzas con los investigadores de Phenaki, otro sistema de conversión de texto a vídeo de Google que ha debutado hoy y que puede convertir indicaciones largas y detalladas en vídeos de más de dos minutos, aunque con una calidad inferior.
Merece la pena correr un poco el telón de Phenaki para ver a dónde puede llevar la colaboración entre ambos equipos. Mientras que Imagen Video se centra en la calidad, Phenaki da prioridad a la coherencia y la duración. El sistema puede convertir las indicaciones de un párrafo en películas de una duración arbitraria, desde una escena de una persona montando en moto hasta una nave espacial extraterrestre volando sobre una ciudad futurista. Los clips generados por Phenaki sufren los mismos fallos que los de Imagen Video, pero llama la atención lo mucho que se ajustan a las largas y matizadas descripciones de los textos que los provocan.
Por ejemplo, este es un mensaje enviado a Phenaki:
Mucho tráfico en una ciudad futurista. Una nave espacial alienígena llega a la ciudad futurista. La cámara entra en la nave espacial alienígena. La cámara avanza hasta mostrar un astronauta en la habitación azul. El astronauta está escribiendo en el teclado. La cámara se aleja del astronauta. El astronauta deja el teclado y camina hacia la izquierda. El astronauta deja el teclado y se aleja. La cámara se aleja del astronauta y mira la pantalla. La pantalla detrás del astronauta muestra peces nadando en el mar. La cámara se acerca al pez azul. Seguimos al pez azul mientras nada en el oscuro océano. La cámara apunta al cielo a través del agua. El océano y la costa de una ciudad futurista. Zoom de choque hacia un rascacielos futurista. La cámara se acerca a una de las muchas ventanas. Estamos en una sala de oficinas con escritorios vacíos. Un león corre por encima de los escritorios. La cámara se acerca a la cara del león, dentro de la oficina. El zoom se aleja hasta el león que lleva un traje oscuro en la sala de la oficina. El león vestido mira a la cámara y sonríe. La cámara se aleja lentamente hasta el exterior del rascacielos. Timelapse de la puesta de sol en la ciudad moderna.
Y aquí está el vídeo generado:
![]() |
| Créditos: Google |
Volviendo a Imagen Video, los investigadores también señalan que los datos utilizados para entrenar el sistema tenían contenido problemático, lo que podría dar lugar a que Imagen Video produjera clips gráficamente violentos o sexualmente explícitos. Google afirma que no publicará el modelo de Imagen Video ni el código fuente "hasta que se hayan resuelto estos problemas" y, a diferencia de Meta, no ofrecerá ningún tipo de formulario de inscripción para registrar el interés.
No obstante, dado que la tecnología de conversión de texto en vídeo avanza a gran velocidad, es posible que no tarde mucho en surgir un modelo de código abierto, que potencie la creatividad humana y plantee un reto insuperable en lo que respecta a las falsificaciones, los derechos de autor y la desinformación.
Fuente: Traducción del artículo "Google answers Meta’s video-generating AI with its own, dubbed Imagen Video"







Comentarios
Publicar un comentario
Gracias por comentar, revisamos el mismo y pronto lo verás publicado.