Una nueva colaboración entre la Universidad de California Merced y Adobe ofrece un avance sobre el estado de la comediante en finalización de la imagen humana -La tarea muy estudiada de partes de personas ocluidas o ocultas de ‘desobedecer’ de las imágenes de personas, como fines como la prueba potencial, la animación y la estampado de fotos.
Por otra parte de reparar imágenes dañadas o cambiarlas a capricho de un legatario, los sistemas de finalización de imágenes humanas, como el complemento, pueden imponer ropa novedosa (a través de una imagen de remisión adjunta, como en la columna central en estos dos ejemplos) en imágenes existentes. Estos ejemplos son del extenso PDF suplementario para el nuevo artículo. Fuente: https://liagm.github.io/completeme/pdf/supp.pdf
El nuevo enfoque, titulado Completo: finalización de la imagen humana basada en remisiónutiliza imágenes de entrada suplementarias para ‘sugerir’ al sistema qué contenido debe reemplazar la sección oculta o faltante de la representación humana (de ahí la aplicabilidad a los marcos de prueba basados en la moda):
El sistema completo puede ajustar el contenido de remisión a la parte oscurecida u ocluida de una imagen humana.
El nuevo sistema utiliza una edificación dual de red en U y un Atención centrada en la región (RFA) Obstrucción que reúne los bienes al dominio pertinente de la instancia de restauración de imágenes.
Los investigadores incluso ofrecen un nuevo y desafiante sistema de remisión diseñado para evaluar las tareas de finalización basadas en referencias (ya que el complemento es parte de una condena de investigación existente y continua en la visión por computadora, aunque hasta ahora no ha tenido un esquema de remisión).
En las pruebas, y en un estudio de legatario aceptablemente escalera, el nuevo método salió delante en la mayoría de las métricas y en común. En ciertos casos, los métodos rivales se fontaron por completo por el enfoque basado en remisión:
Del material complementario: el método AnyDoor tiene dificultades particulares para osar cómo interpretar una imagen de remisión.
El documento dice:
‘Experimentos extensos en nuestro punto de remisión demuestran que el complemento supera los métodos de vanguardia, tanto basados en referencias como no basados en referencias, en términos de métricas cuantitativas, resultados cualitativos y estudios de usuarios.
«Particularmente en escenarios desafiantes que involucran posturas complejas, patrones de ropa intrincados y accesorios distintivos, nuestro maniquí logra constantemente la fidelidad visual superior y la coherencia semántica».
Lamentablemente, la presencia de GitHub del tesina no contiene ningún código, ni promete ningún, y la iniciativa, que incluso tiene una modesta página del tesina, parece enmarcada como una edificación patentada.
Otros ejemplo del rendimiento subjetivo del nuevo sistema contra métodos anteriores. Más detalles más delante en el artículo.
Método
El situación completo se apoyo en una red U de remisión, que maneja la integración del material auxiliar en el proceso, y una red U cohesiva, que acomoda una gradación más amplia de procesos para obtener el resultado final, como se ilustra en el esquema conceptual a continuación:
El esquema conceptual para completar. Fuente: https://arxiv.org/pdf/2504.20042
El sistema primero codifica la imagen de entrada enmascarada en una representación subyacente. Al mismo tiempo, la remisión U-Net procesa múltiples imágenes de remisión, cada una que muestran diferentes regiones del cuerpo, para extraer características espaciales detalladas.
Estas características pasan a través de un bando de atención centrado en la región integrado en la red U ‘completa’, donde se enmascaran selectivamente utilizando las máscaras de región correspondientes, asegurando que el maniquí atiende solo a las áreas relevantes en las imágenes de remisión.
Las características enmascaradas se integran con características semánticas derivadas globales de clip a través de atención cruzada desacoplada, lo que permite que el maniquí reconstruya el contenido faltante con detalles finos y coherencia semántica.
Para mejorar el realismo y el robustez, el proceso de enmascaramiento de entrada combina oclusiones aleatorias basadas en la red con máscaras de forma del cuerpo humano, cada una aplicada con igual probabilidad, aumentando la complejidad de las regiones faltantes que el maniquí debe completar.
Solo como remisión
Métodos anteriores para la entrada de imagen basada en remisión generalmente se basan en de nivel semántico codificadores. Los proyectos de este tipo incluyen Clip en sí y Dinov2, que extraen características globales de imágenes de remisión, pero a menudo pierden los detalles espaciales finos necesarios para la preservación de identidad precisa.
Del documento de propagación para el enfoque de Dinov2 más antiguo, que se incluye en las pruebas de comparación en el nuevo estudio: las superposiciones de colores muestran los primeros tres componentes principales del descomposición de componentes principales (PCA), aplicados a parches de imagen adentro de cada columna, destacando cómo Dinov2 agrupa partes similares de objetos similares a través de imágenes variadas. A pesar de las diferencias en pose, estilo o representación, las regiones correspondientes (como alas, extremidades o ruedas) coinciden consistentemente, ilustrando la capacidad del maniquí para educarse la estructura parcial sin supervisión. Fuente: https://arxiv.org/pdf/2304.07193
Completeme aborda este aspecto a través de una remisión U-Net especializada inicializada a partir de la difusión estable 1.5, pero funciona sin el paso de ruido de difusión*.
Cada imagen de remisión, que cubre diferentes regiones del cuerpo, está codificada en características latentes detalladas a través de esta red U. Las características semánticas globales incluso se extraen por separado usando clip, y uno y otro conjuntos de características se almacenan en elegancia para un uso apto durante la integración basada en la atención. Por lo tanto, el sistema puede acomodar múltiples entradas de remisión de forma flexible, al tiempo que preserva la información de apariencia de fruto fino.
Orquestación
El cohesivo U-Net administra las etapas finales del proceso de finalización. Adaptado de la reforma de entrada de la difusión estable 1.5, toma como entrada la imagen de fuente enmascarada en forma subyacente, inmediato con características espaciales detalladas extraídas de las imágenes de remisión y las características semánticas globales extraídas por el codificador del clip.
Estas diversas entradas se reúnen a través del bando RFA, que juega un papel fundamental en la dirección del maniquí alrededor de las áreas más relevantes del material de remisión.
Ayer de ingresar al mecanismo de atención, las características de remisión se enmascaran explícitamente para eliminar regiones no relacionadas y luego concatenadas con la representación subyacente de la imagen fuente, asegurando que la atención se dirige con la longevo precisión posible.
Para mejorar esta integración, Completeme incorpora un mecanismo de atención cruzada desacoplada adaptado del situación del adaptador IP:
El adaptador IP, parte de los cuales se incorpora a Completeme, es uno de los proyectos más exitosos y a menudo apalancados de los últimos tres primaveras de crecimiento tumultuosos en arquitecturas de modelos de difusión subyacente. Fuente: https://ip-adapter.github.io/
Esto permite que el maniquí procese características visuales detalladas espacialmente y un contexto semántico más amplio a través de flujos de atención separados, que luego se combinan, lo que resulta en una reconstrucción coherente que, según los autores, conservan la identidad y los detalles de fruto fino.
Ganancia de evaluación
En desaparición de un conjunto de datos apropiado para su finalización humana basada en remisión, los investigadores han propuesto el suyo. El punto de remisión (sin nombre) se construyó curando pares de imágenes seleccionadas del conjunto de datos WPOSE diseñado para el tesina Unihuman 2023 de Adobe Research.
Ejemplos de poses del tesina Adobe Research 2023 Unihuman. Fuente: https://github.com/adobe-research/unihuman?tab=readme-ov-file#data-eprep
Los investigadores dibujaron manualmente máscaras de origen para indicar las áreas de entrada, en última instancia, obteniendo 417 grupos de imágenes tripartitas que constituyen una imagen de origen, máscara e imagen de remisión.
Dos ejemplos de grupos derivados inicialmente del conjunto de datos de remisión WPose, y curados ampliamente por los investigadores del nuevo documento.
Los autores utilizaron el Maniquí de lengua extenso Llava (LLM) para originar indicaciones de texto que describen las imágenes de origen.
Las métricas utilizadas eran más extensas de lo habitual; Por otra parte de la relación de señal / ruido máxima habitual (PSNR), el índice de similitud estructural (SSIM) y la similitud de parche de imagen perceptual aprendida (LPIP, en este caso para evaluar regiones enmascaradas), los investigadores usaron Dino para puntajes de similitud; Dreamsim para la evaluación de resultados de la gestación; y clip.
Datos y pruebas
Para probar el trabajo, los autores utilizaron tanto el maniquí de difusión V1.5 estable predeterminada como el maniquí de entrada 1.5. El codificador de imágenes del sistema utilizó el maniquí de visión de clip, inmediato con las capas de proyección, redes neuronales modestas que remodelan o alinean las panorama de clip para que coincidan con las dimensiones de características internas utilizadas por el maniquí.
El entrenamiento tuvo puesto para 30,000 iteraciones sobre ocho Nvidia A100† GPU, supervisada por pérdida de error cuadrado (MSE) medio, a un tamaño de conjunto de 64 y una tasa de estudios de 2 × 10-5. Varios nociones se eliminaron al azar durante la capacitación, para evitar que el sistema sea el sobreajuste de los datos.
El conjunto de datos se modificó desde el conjunto de datos de piezas hasta todo el conjunto de datos, basado en el conjunto de datos multimodal profundo.
Ejemplos de las piezas a un conjunto de datos completo, utilizados en el crecimiento de los datos curados para completar. Fuente: https://huanngzh.github.io/parts2whole/
Los autores afirman:
‘Para cumplir con nuestros requisitos, (reconstruimos) los pares de capacitación utilizando imágenes ocludadas con múltiples imágenes de remisión que capturan varios aspectos de la apariencia humana inmediato con sus etiquetas textuales cortas.
‘Cada muestra en nuestros datos de entrenamiento incluye seis tipos de apariencia: ropa de la parte superior del cuerpo, ropa de la parte inferior del cuerpo, ropa de cuerpo inconmovible, madeja o ropa de habitante, cara y zapatos. Para la organización de enmascaramiento, aplicamos un 50% de enmascaramiento de la red azaroso entre 1 y 30 veces, mientras que para el otro 50%, usamos una máscara de forma del cuerpo humano para aumentar la complejidad del enmascaramiento.
«A posteriori de la tubería de construcción, obtuvimos 40,000 pares de imágenes para el entrenamiento».
Rival previo no remisión Los métodos probados fueron una gran finalización de la imagen humana ocluyada (LOHC) y el Maniquí de entrada de imagen de plug-and-playnet de inpago; Los modelos basados en remisión probados fueron pintar por ejemplo; Anydoor; Leftrefill; y Mimicbrush.
Los autores comenzaron con una comparación cuantitativa sobre las métricas previamente declaradas:
Resultados para la comparación cuantitativa original.
Con respecto a la evaluación cuantitativa, los autores señalan que Completeme logra los puntajes más altos en la mayoría de las métricas perceptivas, incluidos CLIP-I, Dino, Dreamsim y LPIPS, que están destinados a capturar la vinculación semántica y la fidelidad de la apariencia entre la salida y la imagen de remisión.
Sin secuestro, el maniquí no supera a todas las líneas de almohadilla en todos los ámbitos. Notablemente, los puntajes de pincel más altos en Clip-T, Leftrefill conduce en SSIM y PSNR, y MimicBrush supera sutilmente en CLIP-I.
Si aceptablemente el complemento muestra resultados consistentemente sólidos en común, las diferencias de rendimiento son modestas en algunos casos, y ciertas métricas siguen siendo lideradas por métodos anteriores de la competencia. Quizás no sea injustamente, los autores enmarcan estos resultados como evidencia de la fuerza equilibrada de Completeme en las dimensiones estructurales y perceptivas.
Las ilustraciones para las pruebas cualitativas realizadas para el estudio son demasiado numerosas para reproducir aquí, y remitimos al disertador no solo al documento fuente, sino al extenso PDF suplementario, que contiene muchos ejemplos cualitativos adicionales.
Destacamos los principales ejemplos cualitativos presentados en el documento principal, inmediato con una selección de casos adicionales extraídos del clase de imágenes complementarios introducidos anteriormente en este artículo:
Resultados cualitativos iniciales presentados en el documento principal. Consulte el documento de origen para una mejor resolución.
De los resultados cualitativos que se muestran anteriormente, los autores comentan:
‘Dadas las entradas enmascaradas, estos métodos de no remisión generan contenido plausible para las regiones enmascaradas utilizando circunstancias de imágenes o indicaciones de texto.
«Sin secuestro, como se indica en el cuadro rojo, no pueden reproducir detalles específicos como tatuajes o patrones de ropa únicos, ya que carecen de imágenes de remisión para manejar la reconstrucción de información idéntica».
Una segunda comparación, de la cual se muestra a continuación, se centra en los cuatro métodos basados en remisión Pintar por ejemplo, AnyDoor, Lefrefill y MimicBrush. Aquí solo se proporcionaron una imagen de remisión y un mensaje de texto.
Comparación cualitativa con métodos basados en referencias. Completeme produce terminaciones más realistas y preserva mejor detalles específicos de la imagen de remisión. Las cajas rojas destacan áreas de particular interés.
Los autores afirman:
‘Dada una imagen humana enmascarada y una imagen de remisión, otros métodos pueden originar contenido plausible, pero a menudo no pueden preservar la información contextual de la remisión con precisión.
‘En algunos casos, generan contenido irrelevante o asignan incorrectamente las partes correspondientes a partir de la imagen de remisión. Por el contrario, Completeme completa efectivamente la región enmascarada preservando con precisión la información idéntica y mapeando correctamente las partes correspondientes del cuerpo humano de la imagen de remisión.
Para evaluar qué tan aceptablemente los modelos se alinean con la percepción humana, los autores realizaron un estudio de legatario que involucró a 15 anotadores y 2,895 pares de muestras. Cada par comparó la salida de completa con una de las cuatro líneas de almohadilla basadas en referencias: pintar por ejemplo, cualquiera de los que, oor, leftrefill o mimicbrush.
Los anotadores evaluaron cada resultado en función de la calidad visual de la región completa y la medida en que conservó las características de identidad de la remisión, y aquí, evaluando la calidad y la identidad común, el complemento obtuvo un resultado más definitivo:
Resultados del estudio del legatario.
Conclusión
En todo caso, los resultados cualitativos en este estudio se ven socavados por su gran tamaño, ya que un examen minucioso indica que el nuevo sistema es una entrada más efectiva en este dominio relativamente hornacina pero acalorada de estampado de imágenes neuronales.
Sin secuestro, se necesita un poco de cuidado adicional y ampliado en el PDF llamativo para apreciar qué tan aceptablemente el sistema adapta el material de remisión al dominio ocludida en comparación (en casi todos los casos) con los métodos anteriores.
Recomendamos insistentemente al disertador que examine cuidadosamente la avalancha de resultados inicialmente confusa, si no abrumadora presentada en el material suplementario.
* Es interesante observar cómo la lectura V1.5 ahora severamente severamente seguida sigue siendo la favorita de los investigadores, en parte oportuno a las pruebas similares de Legacy, pero incluso porque es la menos censurada y posiblemente más fácilmente capacitable de todas las iteraciones de difusión estables, y no comparte el obstáculo censurioso de las liberaciones de flujo foss.
† Delimitación de VRAM no dada: sería 40 GB u 80 GB por maleable.
Publicado por primera vez el martes 29 de abril de 2025