16.6 C
Madrid
miΓ©rcoles, octubre 22, 2025
spot_img
spot_img

Mejor video de IA generativo por tramas arrastrando durante el entrenamiento

Un nuevo documento esta semana en ARXIV aborda un problema que cualquiera que haya recogido el video Hunyuan o los generadores de video WAN 2.1 AI ya se habrΓ‘n incompatible: aberraciones temporalesdonde el proceso generativo tiende a acelerar abruptamente, combinar, evitar o arruinar los momentos cruciales en un video generado:

Haga clic para retozar. Algunos de los problemas tΓ©cnicos que se estΓ‘n volviendo familiarizados para los usuarios de la nueva ola de sistemas de video generativos, destacados en el nuevo artΓ­culo. A la derecha, el meta de mejorΓ­a del nuevo enfoque de flujo de flujo. Fuente: https://haroldchen19.github.io/fluxflow/

El video de hacia lo alto presenta extractos de videos de prueba de ejemplo en el sitio del plan (Despierto: proporcionado caΓ³tico) para el documento. Podemos ver varios problemas cada vez mΓ‘s familiares remediados por el mΓ©todo de los autores (que se muestra a la derecha en el video), que es efectivamente una tΓ©cnica de preprocesamiento del conjunto de datos aplicable a cualquier bloque de video generativa.

En el primer ejemplo, con ‘dos ​​niΓ±os jugando con una pelota’, generado por Cogvideox, vemos (a la izquierda en el video de compilaciΓ³n susodicho y en el ejemplo especΓ­fico a continuaciΓ³n) que la engendramiento nativa salta rΓ‘pidamente a travΓ©s de varios microfirementos esenciales, acelerando la actividad de los niΓ±os hasta un impulso de ‘dibujos animados’. Por el contrario, el mismo conjunto de datos y el mΓ©todo arrojan mejores resultados con la nueva tΓ©cnica de preprocesamiento, denominado Flujo de flujo (A la derecha de la imagen en el video a continuaciΓ³n):

Haga clic para retozar.

En el segundo ejemplo (usando Nova-0.6b), vemos que una mociΓ³n central que involucra a un felino ha sido corrompida de alguna modo o menos muestreada en la etapa de entrenamiento, hasta el punto de que el sistema generativo se ‘paraliza’ y no puede hacer que el sujeto se mueva:

Haga clic para retozar.

Este sΓ­ndrome, donde la mociΓ³n o sujeto se ‘atasca’, es uno de los errores mΓ‘s frecuentemente informados de HV y WAN, en los diversos grupos de sΓ­ntesis de imagen y video.

Algunos de estos problemas estΓ‘n relacionados con los problemas de subtΓ­tulos en el conjunto de datos de origen, que echamos un vistazo esta semana; Pero los autores del nuevo trabajo enfocan sus esfuerzos en las cualidades temporales de los datos de capacitaciΓ³n, y hacen un argumento convincente de que atracar los desafΓ­os desde esa perspectiva puede difundir resultados efectos.

Como se menciona en el artΓ­culo susodicho sobre subtitulaciΓ³n de video, ciertos deportes son particularmente difΓ­ciles de destilarse en momentos esencia, lo que significa que los eventos crΓ­ticos (como un slam-dunk) no reciben la atenciΓ³n que necesitan en el tiempo de entrenamiento:

Haga clic para retozar.

En el ejemplo susodicho, el sistema generativo no sabe cΓ³mo calar a la venidero etapa de movimiento, y transita ilΓ³gicamente de una pose a la venidero, cambiando la disposiciΓ³n y la geometrΓ­a del participante en el proceso.

Estos son grandes movimientos que se perdieron en el entrenamiento, pero igualmente vulnerables son movimientos mucho mΓ‘s pequeΓ±os pero fundamentales, como el aleteo de las alas de una polilla:

LEER  InvestigaciΓ³n de Manus AI: el avance de China en agentes de IA totalmente autΓ³nomos

Haga clic para retozar.

A diferencia del slam-dunk, el aleteo de las alas no es un evento Β«raroΒ», sino un evento persistente y monΓ³tono. Sin requisa, su consistencia se pierde en el proceso de muestreo, ya que el movimiento es tan rΓ‘pido que es muy difΓ­cil de establecer temporalmente.

Estos no son problemas particularmente nuevos, pero estΓ‘n recibiendo decano atenciΓ³n ahora que hay potentes modelos de video generativos disponibles para los entusiastas de la instalaciΓ³n circunscrito y la engendramiento gratuita.

Las comunidades de Reddit y Discord han tratado inicialmente estos problemas como Β«relacionados con el agraciadoΒ». Esta es una presunciΓ³n comprensible, ya que los sistemas en cuestiΓ³n son muy nuevos y mΓ­nimamente documentados. Por lo tanto, varios expertos han sugerido remedios diversos (y no siempre efectivos) para algunos de los problemas tΓ©cnicos documentados aquΓ­, como alterar la configuraciΓ³n en varios componentes de diversos tipos de flujos de trabajo cΓ³modos para Video Hunyuan (HV) y WAN 2.1.

En algunos casos, en empleo de producir un movimiento rΓ‘pido, tanto HV como WAN producirΓ‘n tardo movimiento. Las sugerencias de Reddit y ChatGPT (que aprovechan principalmente Reddit) incluyen cambiar el nΓΊmero de cuadros en la engendramiento solicitada, o someter radicalmente la velocidad de cuadro*.

Todo esto es poco desesperado; La verdad emergente es que aΓΊn no sabemos la causa exacta o el remedio exacto para estos temas; Claramente, desesperar la configuraciΓ³n de engendramiento para trabajar a su mΓ‘s o menos (particularmente cuando esto degrada la calidad de la salida, por ejemplo, con una tasa de FPS demasiado quebranto) es solo una parada corta, y es bueno ver que la decorado de la investigaciΓ³n aborda los problemas emergentes tan rΓ‘pidamente.

Entonces, encima de la vistazo de esta semana a cΓ³mo el subtΓ­tulos afecta el entrenamiento, echemos un vistazo al nuevo artΓ­culo sobre la regularizaciΓ³n temporal y quΓ© mejoras podrΓ­a ofrecer la decorado de video generativa flagrante.

La idea central es proporcionado simple y leve, y no es peor para eso; No obstante, el papel estΓ‘ poco acolchado para alcanzar las ocho pΓ‘ginas prescritas, y saltaremos sobre este relleno segΓΊn sea necesario.

El pez en la engendramiento nativa del situaciΓ³n Videocrafter es suspenso, mientras que la traducciΓ³n alterada de flujo de flujo captura los cambios necesarios. Fuente: https://arxiv.org/pdf/2503.15417

El nuevo trabajo se titula La regularizaciΓ³n temporal hace que su magneto de video sea mΓ‘s esforzadoy proviene de ocho investigadores de Everlyn AI, Universidad de Ciencia y TecnologΓ­a de Hong Kong (HKUST), la Universidad de Florida Central (UCF) y la Universidad de Hong Kong (HKU).

(Al momento de escribir, hay algunos problemas con el sitio del plan adjunto del artΓ­culo)

Flujo de flujo

La idea central detrΓ‘s Flujo de flujoel nuevo esquema de pre-entrenamiento de los autores es pasar los problemas generalizados parpadeo y inconsistencia temporal Al enmaraΓ±ar bloques y grupos de bloques en las Γ³rdenes de situaciΓ³n temporal, ya que los datos de origen estΓ‘n expuestos al proceso de capacitaciΓ³n:

La idea central detrΓ‘s de FluxFlow es mover bloques y grupos de bloques a posiciones inesperadas y no temporales, como una forma de aumento de datos.

El documento explica:

LEER  Operai, Anthrope y Google Inste Action a medida que disminuye el lidera de AI de EE. UU.

‘(Artefactos) se derivan de una muro fundamental: a pesar de rendir los conjuntos de datos a gran escalera, los modelos actuales a menudo dependen de patrones temporales simplificados en los datos de entrenamiento (por ejemplo, direcciones fijas de caminar o transiciones de cuadros repetitivas) en empleo de educarse dinΓ‘micas temporales diversas y plausibles.

Β«Este problema se ve exacerbado por la errata de un aumento temporal expreso durante el entrenamiento, dejando modelos propensos a sobreajustar a correlaciones temporales espurias (por ejemplo,Β» el situaciΓ³n #5 debe seguir #4 Β«) en empleo de extender en diversos escenarios de movimientoΒ».

La mayorΓ­a de los modelos de engendramiento de videos, explican los autores, todavΓ­a piden prestado demasiado imagen SΓ­ntesis, centrΓ‘ndose en la fidelidad espacial mientras ignora en gran medida el eje temporal. Aunque las tΓ©cnicas como el cultivo, el vuelco y la fluctuaciΓ³n de color han ayudado a mejorar la calidad de la imagen estΓ‘tica, no son soluciones adecuadas cuando se aplican a los videos, donde la ilusiΓ³n de movimiento depende de transiciones consistentes a travΓ©s de los marcos.

Los problemas resultantes incluyen texturas parpadeantes, cortes discordantes entre los marcos y los patrones de movimiento repetitivos o demasiado simplistas.

Haga clic para retozar.

El documento argumenta que, aunque algunos modelos, incluida la difusiΓ³n de video estable y el Llamagen, compensan con arquitecturas cada vez mΓ‘s complejas o limitaciones de ingenierΓ­a, tienen un costo en tΓ©rminos de cuenta y flexibilidad.

Hexaedro que el aumento de datos temporales ya ha demostrado ser ΓΊtil en video comprensiΓ³n Tareas (en marcos como Finecliper, Sefar y SVFormer) es sorprendente, afirman los autores, que esta tΓ‘ctica rara vez se aplica en un contexto generativo.

Comportamiento disruptivo

Los investigadores sostienen que las interrupciones simples y estructuradas en el orden temporal durante los modelos de capacitaciΓ³n ayudan a extender mejor a un movimiento realista y diverso:

‘Al entrenar en secuencias desordenadas, el magneto aprende a recuperar trayectorias plausibles, regularizando efectivamente la entropΓ­a temporal. Fluxflow une la brecha entre el aumento temporal discriminativo y generativo, ofreciendo una decisiΓ³n de mejorΓ­a de plug-and-play para la engendramiento de videos temporalmente plausible al tiempo que mejorΓ­a en normal (calidad).

Β«A diferencia de los mΓ©todos existentes que introducen cambios arquitectΓ³nicos o dependen del postprocesamiento, FluxFlow funciona directamente a nivel de datos, introduciendo perturbaciones temporales controladas durante la capacitaciΓ³nΒ».

Haga clic para retozar.

Las perturbaciones a nivel de situaciΓ³n, los autores, introducen interrupciones de golondrino fino adentro de una secuencia. Este tipo de interrupciΓ³n no es diferente al aumento de enmascaramiento, donde las secciones de datos se bloquean aleatoriamente, para evitar que el sistema se sobreajuste en los puntos de datos y fomente una mejor divulgaciΓ³n.

Pruebas

Aunque la idea central aquΓ­ no corre a un artΓ­culo de larga duraciΓ³n, correcto a su simplicidad, sin requisa, hay una secciΓ³n de prueba que podemos echar un vistazo.

Los autores probaron para cuatro consultas relacionadas con una mejor calidad temporal mientras mantienen la fidelidad espacial; capacidad de educarse dinΓ‘mica de flujo de movimiento/flujo Γ³ptico; mantenimiento de la calidad temporal en la engendramiento de extraterm; y sensibilidad a los hiperparΓ‘metros esencia.

LEER  AI Singularity and the End of Moore's Law: The Rise of Self-Learning Machines

Los investigadores aplicaron FluxFlow a tres arquitecturas generativas: basadas en U-Net, en forma de VideoCRafter2; Basado en DIT, en forma de cogvideox-2b; y basado en AR, en forma de Nova-0.6b.

Para una comparaciΓ³n lucha, ajustaron los modelos cojΓ­n de las arquitecturas con flujo de flujo como una grado de entrenamiento adicional, para una Γ©poca, en el conjunto de datos OpenVIDHD-0.4M.

Los modelos fueron evaluados contra dos puntos de narraciΓ³n populares: UCF-101; y Vbench.

Para UCF, se utilizaron las mΓ©tricas de distancia de video (FVD) y puntaje de inicio (IS). Para VBench, los investigadores se concentraron en la calidad temporal, la calidad del situaciΓ³n y la calidad normal.

EvaluaciΓ³n autΓ©ntico cuantitativa del situaciΓ³n de flujo de flujo. Β«+ LlamativoΒ» indica entrenamiento sin flujo de flujo, mientras que Β«+ num Γ— 1Β» muestra diferentes configuraciones de situaciΓ³n de flujo de flujo. Los mejores resultados estΓ‘n sombreados; El segundo mejor se subrayan para cada maniquΓ­.

Al comentar sobre estos resultados, los autores indican:

‘Tanto el corte de flujo de flujo como el pedrusco de flujo de flujo mejoran significativamente la calidad temporal, como lo demuestran las mΓ©tricas en las pestaΓ±as. 1, 2 (es asegurar, FVD, sujeto, parpadeo, movimiento y dinΓ‘mico) y resultados cualitativos en (imagen a continuaciΓ³n).

‘Por ejemplo, el movimiento del automΓ³vil a la deriva en VC2, el felino persiguiendo su trasero en Nova y el surfista que monta una ola en CVX se vuelve notablemente mΓ‘s fluida con flujo de flujo. Es importante destacar que estas mejoras temporales se logran sin martirizar la fidelidad espacial, como lo demuestran los detalles agudos de las salpicaduras de agua, los senderos de humo y las texturas de las olas, adyacente con las mΓ©tricas de fidelidad espacial y normal.

A continuaciΓ³n vemos selecciones de los resultados cualitativos a los que se refieren los autores (consulte el documento flamante para obtener resultados completos y una mejor resoluciΓ³n):

Selecciones de los resultados cualitativos.

El documento sugiere que si aceptablemente las perturbaciones de nivel de situaciΓ³n y a nivel de pedrusco mejoran la calidad temporal, los mΓ©todos a nivel de situaciΓ³n tienden a funcionar mejor. Esto se atribuye a su granularidad mΓ‘s fina, lo que permite ajustes temporales mΓ‘s precisos. Las perturbaciones a nivel de pedrusco, por el contrario, pueden introducir ruido correcto a los patrones espaciales y temporales estrictamente acoplados adentro de los bloques, lo que reduce su efectividad.

ConclusiΓ³n

Este documento, adyacente con la colaboraciΓ³n de subtΓ­tulos de Bytedance-Tsinghua resuelto esta semana, me ha dejado claro que las deficiencias aparentes en la nueva engendramiento de modelos de video generativos pueden no resultar de errores del agraciado, malas errores institucionales o limitaciones de financiamiento, sino de un enfoque de investigaciΓ³n que ha priorizado comprensiblemente desafΓ­os mΓ‘s urgentes, como la coherencia temporal y la consistencia, a lo esplΓ©ndido de estas preocupaciones menores.

Hasta hace poco, los resultados de los sistemas de video generativos autΓ³nomamente disponibles y descargable estaban tan comprometidos que no surgiΓ³ un gran empleo de esfuerzo de la comunidad entusiasta para corregir los problemas (no menos importante porque los problemas eran fundamentales y no solucionables trivialmente).

Ahora que estamos mucho mΓ‘s cerca de la etapa de larga data de la producciΓ³n de video fotorrealista puramente generada por IA, estΓ‘ claro que tanto la investigaciΓ³n como las comunidades casuales estΓ‘n tomando un interΓ©s mΓ‘s profundo y productivo en resolver los problemas restantes; Con suerte, estos no son obstΓ‘culos intratables.

* La velocidad de fotogramas nativa de WAN es un insignificante 16FPS, y en respuesta a mis propios problemas, noto que los foros han sugerido someter la velocidad de cuadro tan quebranto como 12 fps, y luego usar marcos de flujo u otros sistemas de re-flujo basados ​​en AI para interpolar las brechas entre un nΓΊmero tan escaso de marcos.

Publicado por primera vez el viernes 21 de marzo de 2025

spot_img

ArtΓ­culos relacionados

spot_img

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquΓ­

Últimos artículos