VEO 3, el nuevo maniquí de engendramiento de video de Google que ha estado haciendo olas en Internet, ahora está adecuado para todos en la sagacidad previa pública, anunció la compañía el jueves.
La utensilio estaba inicialmente adecuado solo para los suscriptores de Gemini Reaccionario y, a través de Flow, la plataforma de cine con AI de Google que asimismo se reveló en las E/S más recientes. Hasta el jueves, todos los clientes y socios de Google Cloud pueden ingresar como una sagacidad previa pública en el estudio de medios Vertex AI.
Todavía: los mejores generadores de imágenes de IA de 2025: Gemini, Chatgpt, MidJourney y más
Presentado el mes pasado en I/O, la Conferencia Anual de Desarrolladores de Google, VEO 3 puede producir video con audio sincronizado, un desafío técnico de larga data en el campo. Imagine que le solicita al sistema que genere un video establecido adentro de un automóvil de medida ocupado, por ejemplo. VEO 3 puede producir el video, completo con ruido de fondo ambiental generado por IA para amplificar al sentido del realismo. Incluso puede solicitarlo que genere audio de voces humanas, según Google.
El maniquí asimismo se especializa en aparentar de modo realista la física del mundo efectivo, como la dinámica fluida del agua y el movimiento de las sombras, por lo que es una utensilio potencialmente valiosa para los cineastas y avanzar en la ocupación más amplia de Google de aguantar IA servible a las industrias creativas.
Los usuarios pueden crear videos en VEO 3 a través de indicaciones de texto de habla natural, ajustando sus instrucciones para modificar detalles creativos sutiles: «Desde la sombra del Gloria hasta la forma precisa de la forma en que el sol golpea el agua en la luz de la tarde», escribió la compañía en una publicación de blog el jueves.
Casos de uso y inconvenientes
Google señaló en su publicación de blog que una variedad de empresas están experimentando activamente con VEO 3 para producir contenido orientado al cliente, incluidos los anuncios de redes sociales y demostraciones de productos, así como materiales internos como videos de capacitación. Un CEO lo describió como «el brinco más excelso con destino a delante en una IA prácticamente útil para la publicidad desde que Gen AI irrumpió por primera vez en la corriente principal en 2023».
Todavía: las habilidades de código amplio pueden exceptuar tu carrera cuando AI llega a tocar
Google y otros desarrolladores de IA líderes han estado invirtiendo fuertemente en herramientas diseñadas para producir videos a partir de indicaciones de habla natural, apostando a que este será un caso de uso práctico importante para la IA generativa. AI Alteración Company Synthesia, por ejemplo, ofrece la tecnología como una forma de hacer que el contenido empresarial sea más rápido y con menos capital, incluso al permitir que los usuarios, como los CEO, replicen su imagen de crear direcciones de video de la empresa.
Obtenga las principales historias de la mañana en su bandeja de entrada cada día con nuestro Boletín de Tech Today.
La respuesta entre los profesionales creativos ha sido mixta. Algunos ven el potencial positivo para el futuro del cine asistido por AI; El aclamado director Darren Aronofsky, por uno, ha formado una asociación creativa con Google Deepmind. Se ha acabado un acuerdo similar entre Lionsgate y la pista de inicio de AI.
Otros, sin confiscación, han criticado la creciente invasión de videos generados por IA en las industrias creativas. Un anuncio de video para Toys R ‘Us creó usando Sora de OpenAi el año pasado, por ejemplo, recibió un ridículo en andana generalizado. Los sindicatos de los trabajadores del entretenimiento están organizando para proteger sus trabajos a medida que la tecnología evoluciona rápidamente.
Eso no ha impedido que las compañías tecnológicas construyan y lanzaran nuevas herramientas de engendramiento de video para los especialistas en marketing. A principios de este mes, Amazon Ads anunció el dispersión caudillo en los Estados Unidos de su utensilio de engendramiento de videos; Meta ha establecido sus miras aún más altas, según los informes con el objetivo de automatizar cada paso del proceso de producción de anuncios.
Un desafío técnico importante
VEO 3 representa uno de los primeros modelos de un importante desarrollador tecnológico que puede sincronizar el video y el audio generados por la IA. La película Gen de Meta, puyazo en octubre, es otra. Algunas otras herramientas, como el Alpha Gen-3 de Runway, vienen con características que permiten al audio generado por IA en video en un proceso de postproducción, pero la engendramiento concurrente de los dos requiere el enumeración y los capital de una fuerza importante como Google.
Todavía: conversé con cinco bots de IA: estas hicieron las mejores conversaciones
La construcción de modelos de IA capaces de producir video y audio sincronizados ha sido un desafío técnico espinoso y un dominio activa de investigación en toda la industria de la IA. Tanto el video generado por la IA como el audio generado por IA son desafíos técnicos distintos, y fusionarlos introduce una dimensión completamente nueva de complejidad. Aquí hay una demostración de VEO 3.
https://www.youtube.com/watch?v=94kmlfyiao8
Por un banda, el video es una serie de marcos fijos, mientras que el audio es una ola continua. Por lo tanto, la sincronización de los dos requiere modelos que puedan funcionar a través de estas dos modalidades, lo que representa las escalas de tiempo muy diferentes en las que operan.
Todavía: Google Flow es un nuevo padre de videos de IA destinado a los cineastas: cómo probarlo hoy
Un video de fusión de maniquí de IA con sonido asimismo debe ser capaz de explicar dinámicamente variables como material, distancia y velocidad. Un automóvil que conduce a 100 millas por hora suena muy diferente a uno que viaja a 10 millas por hora; Un heroína que camina sobre adoquines suena diferente a uno que camina sobre la hierba.


