15.2 C
Madrid
viernes, octubre 24, 2025
spot_img
spot_img

Un avance notable en el video de IA impulsado por los humanos

Nota: La pΓ‘gina del tesina para este trabajo incluye 33 videos de suscripciΓ³n capacidad de suscripciΓ³n resistor por un total de la centro de un gigabyte, que desestabilizΓ³ mi sistema en la carga. Por esta razΓ³n, no lo vincularΓ© directamente. Los lectores pueden encontrar la URL en el sinopsis del artΓ­culo o PDF si lo desean.

Uno de los objetivos principales en la investigaciΓ³n presente de sΓ­ntesis de video es originar un rendimiento de video completo impulsado por la IA a partir de una sola imagen. Esta semana, un nuevo artΓ­culo de la creaciΓ³n inteligente de Bytedance describiΓ³ lo que puede ser el sistema mΓ‘s integral de este tipo hasta ahora, capaz de producir animaciones completas y semibodas que combinan detalles faciales expresivos con un movimiento preciso a gran escalera, al tiempo que logran una consistencia de identidad mejorada, un Γ‘mbito donde incluso los sistemas comerciales lΓ­deres a menudo se quedan cortos.

En el ejemplo a continuaciΓ³n, vemos una diligencia impulsada por un actor (hacia lo alto a la izquierda) y derivado de una sola imagen (hacia lo alto a la derecha), que proporciona una representaciΓ³n notablemente flexible y hΓ‘bil, sin ningΓΊn de los problemas habituales en torno a crear grandes movimientos o ‘adivinar’ sobre Γ‘reas oclusidas (es aseverar, partes de ropa y Γ‘ngulos faciales que deben ser inferidos o inventados porque no son visibles en la foto de origen sole):: foto de origen sole):: Foto de origen):: Foto de origen: Foto de origen)::

Contenido de audio. Haga clic para envidiar. Una diligencia nace de dos fuentes, incluida la sincronizaciΓ³n de labios, que normalmente es la reserva de sistemas auxiliares dedicados. Esta es una lectura escasa del sitio fuente (ver nota al principio del artΓ­culo: se aplica a todos los demΓ‘s videos integrados aquΓ­).

Aunque podemos ver algunos desafΓ­os residuales con respecto a la persistencia de la identidad a medida que cada clip procede, este es el primer sistema que he gastado que sobresale en universal (aunque no siempre) manteniendo ID durante un perΓ­odo sostenido sin el uso de LORAS:

Contenido de audio. Haga clic para envidiar. Otros ejemplos del tesina DreamActor.

El nuevo sistema, titulado Dreamactorutiliza un sistema de control hΓ­brido de tres partes que brinda atenciΓ³n dedicada a la expresiΓ³n facial, la rotaciΓ³n de la comienzo y el diseΓ±o del huesos central, acomodando asΓ­ las actuaciones impulsadas por la IA donde ni el aspecto facial ni el cuerpo sufren a costas del otro, una capacidad rara y posiblemente desconocida entre sistemas similares.

A continuaciΓ³n vemos una de estas facetas, rotaciΓ³n de la comienzoen energΓ­a. La patraΓ±a de color en la cantΓ³n de cada miniatura cerca de la derecha indica un tipo de cardΓ‘n imaginario que define la orientaciΓ³n de la comienzo independientemente del movimiento y la expresiΓ³n facial, que aquΓ­ es impulsado por un actor (debajo a la izquierda).

Haga clic para envidiar. La patraΓ±a multicolor visualizada aquΓ­ representa el eje de rotaciΓ³n de la comienzo del vicisitud, mientras que la expresiΓ³n funciona con un mΓ³dulo separado e informada por la diligencia de un actor (gastado aquΓ­ debajo a la izquierda).

Una de las funcionalidades mΓ‘s interesantes del tesina, que ni siquiera se incluye correctamente en las pruebas del documento, es su capacidad para derivar el movimiento de sincronizaciΓ³n de labios directamente del audio, una capacidad que funciona inusualmente perfectamente incluso sin un videamento actor impulsor.

Los investigadores han adquirido a los mejores titulares en esta bΓΊsqueda, incluido el tan alaborado acto de pista y viva portait, y informan que DreamActor pudo ganar mejores resultados cuantitativos.

Legado que los investigadores pueden establecer sus propios criterios, los resultados cuantitativos no son necesariamente un tΓ­pico empΓ­rico; Pero las pruebas cualitativas que lo acompaΓ±an parecen respaldar las conclusiones de los autores.

Desafortunadamente, este sistema no estΓ‘ destinado a la fuga pΓΊblica, y el ΓΊnico valΓ­a que la comunidad puede derivar del trabajo es reproducir potencialmente las metodologΓ­as descritas en el documento (como se hizo con un sorpresa importante para el Google Dreambooth igualmente cerrado en 2022).

El documento indica*:

‘La animaciΓ³n de la imagen humana tiene posibles riesgos sociales, como ser mal usado para hacer videos falsos. La tecnologΓ­a propuesta podrΓ­a estar de moda para crear videos falsos de personas, pero las herramientas de detecciΓ³n existentes (demamba, disfrazado) pueden detectar estas falsificaciones.

‘Para ceΓ±ir estos riesgos, son necesarias reglas Γ©ticas claras y pautas de uso responsables. Restringiremos estrictamente el paso a nuestros modelos y cΓ³digos centrales para evitar el mal uso.

LΓ³gicamente, las consideraciones Γ©ticas de este tipo son convenientes desde un punto de audiencia comercial, ya que proporciona una coartada para el paso de API solo al maniquΓ­, que luego se puede monetizar. Bytedance ya ha hecho esto una vez en 2025, haciendo que el omnihumano tan minucioso estΓ© acondicionado para los crΓ©ditos pagados en el sitio web de Dreamina. Por lo tanto, transmitido que DreamActor es posiblemente un producto aΓΊn mΓ‘s resistente, este parece el resultado probable. Lo que queda por ver es la medida en que sus principios, hasta donde se explican en el documento, pueden ayudar a la comunidad de cΓ³digo libre.

LEER  El futuro de la publicidad despuΓ©s de un golpe de estado de trΓ‘fico de IA

El nuevo artΓ­culo se titula Dreamactor-M1: animaciΓ³n de imagen humana holΓ­stica, expresiva y robusta con maestro hΓ­briday proviene de seis investigadores de Bytedance.

MΓ©todo

El sistema DreamActor propuesto en el documento tiene como objetivo originar animaciΓ³n humana a partir de una imagen de narraciΓ³n y un video de conducciΓ³n, utilizando un Γ‘mbito de transformador de difusiΓ³n (DIT) adaptado para el espacio disfrazado (aparentemente algΓΊn sabor de difusiΓ³n estable, aunque el documento cita solo la publicaciΓ³n de propagaciΓ³n de homogΓ©neo 2022).

En circunstancia de esperar en mΓ³dulos externos para manejar el acondicionamiento de narraciΓ³n, los autores fusionan las caracterΓ­sticas de apariencia y movimiento directamente adentro de la columna vertebral DIT, lo que permite la interacciΓ³n a travΓ©s del espacio y el tiempo a travΓ©s de la atenciΓ³n:

Esquema para el nuevo sistema: DreamActor codifica pose, movimiento facial y apariencia en latentes separados, combinΓ‘ndolos con latentes de video rentables producidos por un VAE 3D. Estas seΓ±ales se fusionan adentro de un transformador de difusiΓ³n utilizando atenciΓ³n propia y cruzada, con pesos compartidos en todas las ramas. El maniquΓ­ se supervisa comparando las panorama desoliadas con los latentes de video limpios. Fuente: https://arxiv.org/pdf/2504.01724

Para hacer esto, el maniquΓ­ utiliza un autointerreno de variacional 3D preventivo para codificar tanto el video de entrada como la imagen de narraciΓ³n. Estos latentes estΓ‘n parcheados, concatenados y alimentados en el DIT, que los procesa conjuntamente.

Esta edificaciΓ³n se aparta de la actos global de adjuntar una red secundaria para la inyecciΓ³n de narraciΓ³n, que fue el enfoque para la influyente animar a cualquier persona y animar a cualquiera 2 proyectos.

En cambio, DreamActor incorpora la fusiΓ³n en el maniquΓ­ principal en sΓ­, simplificando el diseΓ±o al tiempo que progreso el flujo de informaciΓ³n entre las seΓ±ales de apariencia y movimiento. Luego, el maniquΓ­ se entrena utilizando la coincidencia de flujo en circunstancia del objetivo de difusiΓ³n tΓ­pico (los modelos de difusiΓ³n de los trenes de coincidencia de flujo predicen directamente los campos de velocidad entre los datos y el ruido, omitiendo la estimaciΓ³n de la puntuaciΓ³n).

Preceptor de movimiento hΓ­brido

El mΓ©todo de maestro de movimiento hΓ­brido que informa las representaciones neuronales combina tokens de pose derivados de esqueletos del cuerpo 3D y esferas de la comienzo; Representaciones faciales implΓ­citas extraΓ­das por un codificador facial previamente altavado; y tokens de apariencia de narraciΓ³n muestreados de la imagen de origen.

Estos nociones se integran adentro del transformador de difusiΓ³n utilizando distintos mecanismos de atenciΓ³n, lo que permite que el sistema coordine el movimiento universal, la expresiΓ³n facial y la identidad visual a lo dispendioso del proceso de vivientes.

Para el primero de estos, en circunstancia de esperar en los puntos de narraciΓ³n faciales, DreamActor utiliza representaciones faciales implΓ­citas para llevar la vivientes de expresiones, aparentemente permitiendo un control mΓ‘s fino sobre la dinΓ‘mica facial mientras se desaniman la identidad y la comienzo pose de la expresiΓ³n.

Para crear estas representaciones, la tuberΓ­a primero detecta y cultiva la regiΓ³n de la cara en cada cuadro del video de conducciΓ³n, cambiΓ‘ndolo a 224 Γ— 224. Las caras recortadas se procesan mediante un codificador de movimiento facial previamente en el conjunto de datos PD-FGC, que luego estΓ‘ condicionado por una capa MLP.

PD-FGC, empleado en DreamActor, genera una comienzo parlante a partir de una imagen de narraciΓ³n con control de sincronizaciΓ³n de labios (de audio), pose de comienzo, movimiento Γ³ptico y expresiΓ³n (de videos separados), lo que permite una manipulaciΓ³n precisa e independiente de cada uno. Fuente: https://arxiv.org/pdf/2211.14506

El resultado es una secuencia de tokens de movimiento de la cara, que se inyectan en el transformador de difusiΓ³n a travΓ©s de una capa de atenciΓ³n cruzada.

El mismo Γ‘mbito asimismo admite un impulsado por audio VariaciΓ³n, en la que se capacita a un codificador separado que mapea la entrada del palabra directamente para indisponer los tokens de movimiento. Esto permite originar animaciΓ³n facial sincronizada, incluidos los movimientos de los labios, sin un video de conducciΓ³n.

LEER  CNTXT AI Lanza Munsit: el sistema de reconocimiento de voz en Γ‘rabe mΓ‘s preciso jamΓ‘s construido

Contenido de audio. Haga clic para envidiar. La sincronizaciΓ³n de labios se deriva puramente del audio, sin una narraciΓ³n de actor de conducciΓ³n. La ΓΊnica entrada del personaje es la foto estΓ‘tica que se ve superior a la derecha.

En segundo circunstancia, para controlar la comienzo de la comienzo independientemente de la expresiΓ³n facial, el sistema presenta una representaciΓ³n de esfera de la comienzo 3D (ver video integrado anteriormente en este artΓ­culo), que desacopla la dinΓ‘mica facial del movimiento universal de la comienzo, mejorando la precisiΓ³n y la flexibilidad durante la animaciΓ³n.

Las esferas de la comienzo se generan extrayendo parΓ‘metros faciales en 3D, como la rotaciΓ³n y la pose de la cΓ‘mara, del video de conducciΓ³n utilizando el mΓ©todo de seguimiento de Faceverse.

Esquema para el tesina FACEVERSE. Fuente: https://www.liuyebin.com/faceverse/facverse.html

Estos parΓ‘metros se utilizan para representar una esfera de color proyectada en el plano de imagen 2D, vinculado espacialmente con el cabezal de conducciΓ³n. El tamaΓ±o de la esfera coincide con el cabezal de narraciΓ³n, y su color refleja la orientaciΓ³n de la comienzo. Esta meditaciΓ³n reduce la complejidad de ilustrarse el movimiento de la comienzo en 3D, ayudando a preservar formas de comienzo estilizadas o exageradas en personajes extraΓ­dos de la animaciΓ³n.

VisualizaciΓ³n de la esfera de control que influye en la orientaciΓ³n de la comienzo.

Finalmente, para llevar el movimiento de cuerpo completo, el sistema utiliza esqueletos del cuerpo 3D con normalizaciΓ³n adaptativa de distancia Γ³sea. Los parΓ‘metros del cuerpo y la mano se estiman utilizando 4dhuman y el Hamer centrado en la mano, los cuales funcionan en el maniquΓ­ de cuerpo SMPL-X.

SMPL-X aplica una malla paramΓ©trica sobre el cuerpo humano completo en una imagen, alineΓ‘ndose con pose y expresiΓ³n estimados para permitir la manipulaciΓ³n de la pose utilizando la malla como una maestro volumΓ©trica. Fuente: https://arxiv.org/pdf/1904.05866

A partir de estas panorama, las juntas esencia se seleccionan, se proyectan en 2D y se conectan en mapas de huesos basados ​​en serie. A diferencia de los mΓ©todos como Champ, que representan mallas de cuerpo completo, este enfoque evita imponer historial predefinidos, y al esperar sΓ³lo en la estructura esquelΓ©tica, se alienta al maniquΓ­ a inferir la forma y la apariencia del cuerpo directamente de las imΓ‘genes de narraciΓ³n, ceΓ±ir el sesgo cerca de los tipos de cuerpo fijos y mejorar la extensiΓ³n en un rango de poses y construcciones.

Durante el entrenamiento, los esqueletos del cuerpo 3D se concatenan con las esferas de la comienzo y se pasan a travΓ©s de un codificador de pose, que genera caracterΓ­sticas que luego se combinan con latentes de video noise para producir los tokens de ruido utilizados por el transformador de difusiΓ³n.

En el momento de la inferencia, el sistema explica las diferencias esquelΓ©ticas entre los sujetos al ordenar las longitudes Γ³seas. El maniquΓ­ de estampaciΓ³n de imΓ‘genes previamente previa a la imagen de SeedEdit transforma las imΓ‘genes de narraciΓ³n y conducciΓ³n en una configuraciΓ³n canΓ³nica tΓ­pico. El RTMpose se usa para extraer proporciones esquelΓ©ticas, que se utilizan para ajustar el huesos de conducciΓ³n para que coincida con la cuerpo del sujeto de narraciΓ³n.

DescripciΓ³n universal de la tuberΓ­a de inferencia. Las pseudo-referencias se pueden originar para enriquecer las seΓ±ales de apariencia, mientras que las seΓ±ales de control hΓ­bridas (movimiento facial implΓ­cito y pose explΓ­cita de las esferas de la comienzo y los esqueletos del cuerpo) se extraen del video conductor. Luego se alimentan en un maniquΓ­ DIT para producir una producciΓ³n animada, con movimiento facial desacoplado de la pose del cuerpo, lo que permite el uso de audio como conductor.

Preceptor de apariencia

Para mejorar la fidelidad de la apariencia, particularmente en Γ‘reas ocluidas o raramente visibles, el sistema complementa la imagen de narraciΓ³n principal con pseudo-referencias muestreadas desde el video de entrada.

Haga clic para envidiar. El sistema anticipa la pobreza de hacer regiones ocluidas de modo precisa y consistente. Esto es tan cercano como he gastado, en un tesina de este tipo, a un enfoque de textura de carta de carta de bits de estilo CGI.

Estos marcos adicionales se eligen para la diversificaciΓ³n de pose utilizando RTMpose, y se filtran utilizando similitud basada en clip para asegurar que sigan siendo consistentes con la identidad del sujeto.

LEER  Alexa de Amazon: una nueva era de asistentes personales con IA

Todos los marcos de narraciΓ³n (primarios y pseudo) estΓ‘n codificados por el mismo codificador visual y se fusionan a travΓ©s de un mecanismo de autoatenciΓ³n, lo que permite que el maniquΓ­ acceda a seΓ±ales de apariencia complementaria. Esta configuraciΓ³n progreso la cobertura de detalles como vistas de perfil o texturas de las extremidades. Las pseudo-referencias siempre se usan durante el entrenamiento y opcionalmente durante la inferencia.

CapacitaciΓ³n

Dreamactor fue entrenado en tres etapas para introducir gradualmente la complejidad y mejorar la estabilidad.

En la primera etapa, solo se usaron esqueletos de cuerpo 3D y esferas de comienzo 3D como seΓ±ales de control, excluyendo representaciones faciales. Esto permitiΓ³ que el maniquΓ­ de vivientes de video pulvΓ­nulo, inicializado de MMDIT, se adaptara a la animaciΓ³n humana sin ser abrumado por controles de espinilla fino.

En la segunda etapa, se agregaron representaciones faciales implΓ­citas, pero todos los demΓ‘s parΓ‘metros se congelaron. Solo el codificador de movimiento de la cara y las capas de atenciΓ³n de la cara fueron entrenadas en este punto, lo que permite que el maniquΓ­ aprenda detalles expresivos de forma aislada.

En la etapa final, todos los parΓ‘metros no estaban congelados para la optimizaciΓ³n de las articulaciones a travΓ©s de la apariencia, pose y la dinΓ‘mica facial.

Datos y pruebas

Para la grado de prueba, el maniquΓ­ se inicializa desde un punto de control DIT de imagen a video previamente† y entrenado en tres etapas: 20,000 pasos para cada una de las dos primeras etapas y 30,000 pasos para el tercero.

Para mejorar la extensiΓ³n en diferentes duraciones y resoluciones, los videoclips se muestrearon aleatoriamente con longitudes entre 25 y 121 cuadros. Luego se redimensionaron a 960x640px, al tiempo que preservaron la relaciΓ³n de aspecto.

El entrenamiento se realizΓ³ en ocho GPU H20 (centradas en China), cada una con 96 GB de VRAM, utilizando el Optimizer AdamW con una tasa de formaciΓ³n (tolerablemente suscripciΓ³n) de 5E-6.

En inferencia, cada segmento de video contenΓ­a 73 cuadros. Para amparar la consistencia entre los segmentos, el disfrazado final de un segmento se reutilizΓ³ como el disfrazado autΓ©ntico para el posterior, que contextualiza la tarea como la vivientes secuencial de imagen a video.

La maestro sin clasificador se aplicΓ³ con un peso de 2.5 para imΓ‘genes de narraciΓ³n y seΓ±ales de control de movimiento.

Los autores construyeron un conjunto de datos de capacitaciΓ³n (no se establecen fuentes en el documento) que comprende 500 horas de video procedentes de diversos dominios, con casos de (entre otros) danza, deportes, cine y cuchichear en manifiesto. El conjunto de datos fue diseΓ±ado para capturar un amplio espectro de movimiento y expresiΓ³n humana, con una distribuciΓ³n uniforme entre las tomas de cuerpo completo y medio cuerpo.

Para mejorar la calidad de la sΓ­ntesis facial, Nersemble se incorporΓ³ en el proceso de preparaciΓ³n de datos.

Ejemplos del conjunto de datos Nersemble, utilizados para aumentar los datos de DreamActor. Fuente: https://www.youtube.com/watch?v=aaawqbzldu

Para la evaluaciΓ³n, los investigadores utilizaron su conjunto de datos asimismo como punto de narraciΓ³n para evaluar la extensiΓ³n en varios escenarios.

El rendimiento del maniquí se midió utilizando métricas típico del trabajo previo: Distancia de inicio de Fréchet (FID); Índice de similitud estructural (SSIM); Similitud de parche de imagen perceptual aprendida (LPIP); y relación señal / ruido mÑxima (PSNR) para la calidad a nivel de Ñmbito. La distancia de video de Fréchet (FVD) se utilizó para evaluar la coherencia temporal y la fidelidad universal del video.

Los autores realizaron experimentos en tareas de animaciΓ³n del cuerpo y animaciΓ³n de retratos, todos empleando una sola imagen de narraciΓ³n (objetivo).

Para la animaciΓ³n del cuerpo, DreamActor-M1 se comparΓ³ contra Animate a cualquiera; Morder; Mimicmotion y deshacerse.

Comparaciones cuantitativas con marcos rivales.

Aunque el PDF proporciona una imagen estΓ‘tica como comparaciΓ³n visual, uno de los videos del sitio del tesina puede resaltar las diferencias mΓ‘s claramente:

Contenido de audio. Haga clic para envidiar. Una comparaciΓ³n visual entre los marcos Challenger. El video de conducciΓ³n se ve de hacia lo alto a la izquierda, y la conclusiΓ³n de los autores de que DreamActor produce los mejores resultados parece moderado.

Para las pruebas de animaciΓ³n de retratos, el maniquΓ­ fue evaluado contra LivePorTrait; Portraito X; Skyreels-A1; y acto-one.

Comparaciones cuantitativas para la animaciΓ³n de retratos.

Los autores seΓ±alan que su mΓ©todo deseo en pruebas cuantitativas y sostienen que asimismo es superior cualitativamente.

Contenido de audio. Haga clic para envidiar. Ejemplos de comparaciones de animaciΓ³n de retratos.

PodrΓ­a decirse que el tercero y el final de los clips mostrados en el video previo exhibe una sincronizaciΓ³n de labios menos convincente en comparaciΓ³n con un par de marcos rivales, aunque la calidad universal es notablemente suscripciΓ³n.

ConclusiΓ³n

Al anticipar la pobreza de texturas que estΓ©n implΓ­citas pero que no estΓ‘n presentes en la ΓΊnica imagen objetivo que alimenta estas recreaciones, el bytedance ha abordado uno de los mayores desafΓ­os que enfrenta la vivientes de videos basada en la difusiΓ³n: texturas persistentes consistentes. El posterior paso razonable luego de perfeccionar este enfoque serΓ­a crear de alguna modo un Atlas de narraciΓ³n del clip autΓ©ntico generado que podrΓ­a aplicarse a las generaciones posteriores y posteriores, para amparar la apariencia sin LORAS.

Aunque este enfoque de este tipo aΓΊn serΓ­a una narraciΓ³n externa, esto no es diferente del mapeo de texturas en las tΓ©cnicas de CGI tradicionales, y la calidad del realismo y la plausibilidad es mucho mΓ‘s suscripciΓ³n de lo que pueden obtener esos mΓ©todos mΓ‘s antiguos.

Dicho esto, el aspecto mΓ‘s impresionante de DreamActor es el sistema combinado de orientaciΓ³n de tres partes, que une la divisiΓ³n tradicional entre la sΓ­ntesis humana centrada en la cara y centrada en el cuerpo de una modo ingeniosa.

Solo queda por ver si algunos de estos principios centrales pueden aprovecharse en ofertas mΓ‘s accesibles; Tal como estΓ‘, DreamActor parece destinado a convertirse en otra ofrecimiento de sΓ­ntesis como servicio, unida severamente vinculada por restricciones sobre el uso y por la impracticabilidad de estudiar ampliamente con una edificaciΓ³n comercial.

* Mi sustituciΓ³n de hipervΓ­nculos para los autores; citas en serie

† Como se mencionΓ³ anteriormente, no estΓ‘ claro con el sabor de la difusiΓ³n estable en este tesina.

Publicado por primera vez el viernes 4 de abril de 2025

spot_img

ArtΓ­culos relacionados

spot_img

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquΓ­

Últimos artículos