Regalado que se estima que el sector publicitario en carrera ha de segunda mano $ 740.3 mil millones de dólares en 2023, es practicable entender por qué las empresas de publicidad invierten medios considerables en este hilo particular de investigación de la visión por computadora.
Aunque insular y protectora, la industria ocasionalmente publica estudios que insinúan un trabajo patentado más innovador en el agradecimiento facial y de inspección presencial, incluido el agradecimiento de perduración, fundamental para las estadísticas de examen demográficos:
Estimación de la perduración en un contexto publicitario en el flujo es de interés para los anunciantes que pueden estar apuntando a un peña demográfico de perduración particular. En este ejemplo empírico de estimación cibernética de la perduración facial, la perduración del comediante Bob Dylan se rastrea a lo holgado de los abriles. Fuente: https://arxiv.org/pdf/1906.03625
Estos estudios, que rara vez aparecen en repositorios públicos como ARXIV, usan a los participantes legítimamente reclutados como la pulvínulo del examen basado en IA que tiene como objetivo determinar hasta qué punto, y de qué modo, el espectador se está involucrando con un anuncio.
El histograma de gradientes orientados de DLIB (HOG) a menudo se usa en los sistemas de estimación facial. Fuente: https://www.comuter.org/csdl/journal/ta/2017/02/07475863/13rrunvyarn
Instinto animal
En este sentido, lógicamente, la industria publicitaria está interesada en determinar falsos positivos (ocasiones en que un sistema analítico malinterpreta las acciones de un sujeto), y en establecer criterios claros para cuando la persona que observa sus comerciales no está completamente involucrada con el contenido.
En lo que respecta a la publicidad basada en la pantalla, los estudios tienden a centrarse en dos problemas en dos entornos. Los entornos son ‘de escritorio’ o ‘móvil’, cada uno de los cuales tiene características particulares que necesitan soluciones de seguimiento a medida; y los problemas, desde el punto de instinto del anunciante, están representados por Comportamiento del búho y comportamiento astuto – La tendencia de los espectadores a no prestar toda la atención a un anuncio que está frente a ellos.
Ejemplos de comportamiento ‘búho’ y ‘astuto’ en un tema de un esquema de investigación publicitaria. Fuente: https://arxiv.org/pdf/1508.04028
Si estás buscando remotamente Desde el anuncio previsto con toda su individuo, este es el comportamiento de ‘búho’; Si su pose de la individuo es estática pero sus luceros son deambulando Desde la pantalla, este es el comportamiento de ‘astuto’. En términos de examen y pruebas de nuevos anuncios en condiciones controladas, estas son acciones esenciales para que un sistema pueda capturar.
Un nuevo artículo de la adquisición de Affive de SmartEye aborda estos problemas, que ofrece una inmueble que aprovecha varios marcos existentes para proporcionar una función combinada y concatenada en todas las condiciones necesarias y las posibles reacciones, y para poder entender si un espectador está pesado, comprometido o de alguna modo remoto desde el contenido que el anuncio les desea ver.
Ejemplos de positivos verdaderos y falsos detectados por el nuevo sistema de atención para varias señales de distracción, que se muestran por separado para dispositivos de escritorio y móviles. Fuente: https://arxiv.org/pdf/2504.06237
El estado de los autores*:
‘La investigación limitada ha profundizado en el monitoreo de la atención durante los anuncios en carrera. Si adecuadamente estos estudios se centraron en estimar la pose de la individuo o la dirección de la inspección para identificar instancias de inspección desviada, ignoran los parámetros críticos, como el tipo de dispositivo (escritorio o móvil), la colocación de la cámara en relación con la pantalla y el tamaño de la pantalla. Estos factores influyen significativamente en la detección de atención.
‘En este artículo, proponemos una inmueble para la detección de atención que alpargata la detección de varios distractores, incluido el comportamiento del búho y la lagartija de mirar fuera de pantalla, conversar, somnolencia (a través de bostezo y pestillo de luceros prolongados), y dejar la pantalla desatendida.
‘A diferencia de los enfoques anteriores, nuestro método integra características específicas del dispositivo como el tipo de dispositivo, la colocación de la cámara, el tamaño de la pantalla (para escritorios) y la orientación de la cámara (para dispositivos móviles) con la estimación de la inspección sin procesar para mejorar la precisión de la detección de atención’.
El nuevo trabajo se titula Monitorear la atención del espectador durante los anuncios en carreray proviene de cuatro investigadores en Affiva.
Método y datos
En gran parte oportuno al secreto y la naturaleza de código cerrado de tales sistemas, el nuevo artículo no compara el enfoque de los autores directamente con los rivales, sino que presenta sus hallazgos exclusivamente como estudios de separación; El documento siquiera se adhiere en universal al formato habitual de la humanidades de visión por computadora. Por lo tanto, echaremos un vistazo a la investigación tal como se presenta.
Los autores enfatizan que solo un número constreñido de estudios han abordado la detección de atención específicamente en el contexto de anuncios en carrera. En el SDK Affdex, que ofrece un agradecimiento de múltiples fijaciones en tiempo efectivo, la atención se infiere nada más de la pose de la individuo, con los participantes etiquetados como desatento si su ángulo de la individuo pasa un principio definido.
Un ejemplo del SDK Affdex, un sistema AffIva que se base en la pose de la individuo como un indicador de atención. Fuente: https://www.youtube.com/watch?v=c2cwb5jhmby
En la colaboración de 2019 Medición cibernética de la atención visual al contenido de video utilizando el enseñanza profundoun conjunto de datos de en torno a de 28,000 participantes fue anotado para varios comportamientos desatentos, incluidos mirando, luceros cerradoso participar en actividades no relacionadasy un maniquí CNN-LSTM entrenado para detectar la atención de la apariencia facial con el tiempo.
Desde el documento de 2019, un ejemplo que ilustra los estados de atención predichos para un espectador que ve contenido de video. Fuente: https://www.jeffcohn.net/wp-content/uploads/2019/07/attention-13.pdf.pdf
Sin secuestro, los autores observan que estos esfuerzos anteriores no tuvieron en cuenta los factores específicos del dispositivo, como si el participante estaba usando un escritorio o dispositivo móvil; Siquiera consideraron el tamaño de la pantalla o la colocación de la cámara. Adicionalmente, el sistema Affdex se centra solo en identificar el desvío de la inspección, y omite otras fuentes de distracción, mientras que el trabajo de 2019 intenta detectar un conjunto más amplio de comportamientos, pero su uso de un solo CNN poco profundo puede, según el documento, el papel, el documento, ha sido inadecuado para esta tarea.
Los autores observan que algunas de las investigaciones más populares en esta carrera no están optimizadas para las pruebas de anuncios, que tiene diferentes evacuación en comparación con dominios como la conducción o la educación, donde la colocación de la cámara y la calibración generalmente se fijan de antemano, dependiendo en su punto en configuraciones no calibradas y operando internamente del rango de la inspección limitada de los dispositivos de escritorio y móviles.
Por lo tanto, han ideado una inmueble para detectar la atención del espectador durante los anuncios en carrera, aprovechando dos kits de herramientas comerciales: Affdex 2.0 y Smarteye SDK.
Ejemplos de examen facial de AFFDEX 2.0. Fuente: https://arxiv.org/pdf/2202.12059
Estos trabajos anteriores extraen características de bajo nivel, como expresiones faciales, pose de individuo y dirección de inspección. Estas características se procesan para producir indicadores de nivel superior, incluida la posición de la inspección en la pantalla; bostezo; y conversar.
El sistema identifica cuatro tipos de distracción: inspección fuera de la pantalla; modorra,; discurso; y pantallas desatendidas. Además ajusta el examen de la inspección de acuerdo con si el espectador está en un escritorio o dispositivo móvil.
Conjuntos de datos: inspección
Los autores utilizaron cuatro conjuntos de datos para impulsar y evaluar el sistema de detección de atención: tres enfocándose individualmente en el comportamiento de la inspección, conversar y bostezar; y una cuarta extraída de sesiones de pruebas publicitarias del mundo efectivo que contienen una mezcla de tipos de distracción.
Conveniente a los requisitos específicos del trabajo, se crearon conjuntos de datos personalizados para cada una de estas categorías. Todos los conjuntos de datos seleccionados se obtuvieron de un repositorio patentado con millones de sesiones grabadas de participantes que observaron anuncios en entornos de hogar o punto de trabajo, utilizando una configuración basada en la web, con consentimiento informado, y oportuno a las limitaciones de esos acuerdos de consentimiento, los autores afirman que los conjuntos de datos para el nuevo trabajo no pueden estar disponibles públicamente.
Para construir el inspección DataSet, se pidió a los participantes que siguieran un punto en movimiento en varios puntos en la pantalla, incluidos sus bordes, y luego que miraron alrededor de otro flanco de la pantalla en cuatro direcciones (hacia lo alto, debajo, izquierda y derecha) con la secuencia repetida tres veces. De esta modo, se estableció la relación entre captura y cobertura:
Capturas de pantalla que muestran el estímulo de video de la inspección en (a) escritorio y (b) dispositivos móviles. El primer y tercer cuadro muestran instrucciones para seguir un punto móvil, mientras que el segundo y cuarto impulsan a los participantes a mirar alrededor de otro flanco de la pantalla.
Los segmentos de puntos móviles fueron etiquetados como atentoy los segmentos fuera de la pantalla como inatentoproduciendo un conjunto de datos etiquetado de ejemplos positivos y negativos.
Cada video duró aproximadamente 160 segundos, con versiones separadas creadas para plataformas de escritorio y móviles, cada una con resoluciones de 1920 × 1080 y 608 × 1080, respectivamente.
Se recopilaron un total de 609 videos, que comprenden 322 escritorio y 287 grabaciones móviles. Las etiquetas se aplicaron automáticamente en función del contenido de video, y el conjunto de datos se dividió en 158 muestras de entrenamiento y 451 para pruebas.
Conjuntos de datos: conversar
En este contexto, uno de los criterios que definen la ‘errata de atención’ es cuando una persona palabra más de un segundo (¿Qué caso podría ser un comentario momentáneo, o incluso una tos)?
Regalado que el entorno controlado no registra ni analiza el audio, el discurso se infiere observando el movimiento interno de los puntos de narración faciales estimados. Por lo tanto para detectar discurso Sin audio, los autores crearon un conjunto de datos basado completamente en la entrada visual, extraída de su repositorio interno y divididos en dos partes: el primero de estos contenía aproximadamente 5,500 videos, cada uno etiquetado manualmente por tres anotadores como hablando o no (de estos, 4,400 para entrenamiento y potencia, y 1,100 para probar).
El segundo comprendía 16,000 sesiones etiquetadas automáticamente en función del tipo de sesión: 10,500 participantes de características que miran en silencio anuncios y 5,500 participantes muestran que expresan opiniones sobre las marcas.
Conjuntos de datos: bostezo
Si adecuadamente existen algunos conjuntos de datos de ‘bostezo’, incluidos Yawdd y la dificultad del conductor, los autores afirman que ningún es adecuado para escenarios de pruebas publicitarias, ya que cualquiera de los cuales aparecen simulado bostezos o de lo contrario contienen contorsiones faciales que podrían confundirse con miedo, u otras acciones que no son de cano.
Por lo tanto, los autores usaron 735 videos de su colección interna, eligiendo sesiones que probablemente contengan un caída de la mandíbula durando más de un segundo. Cada video fue etiquetado manualmente por tres anotadores como mostrados activo o bostezo inactivo. Solo el 2.6 por ciento de los cuadros contenían bostezos activos, subrayando el desequilibrio de clase, y el conjunto de datos se dividió en 670 videos de entrenamiento y 65 para las pruebas.
Conjuntos de datos: distracción
El distracción El conjunto de datos asimismo se extrajo del repositorio de pruebas de anuncios de los autores, donde los participantes habían manido anuncios reales sin tareas asignadas. Un total de 520 sesiones (193 en dispositivos móviles y 327 en entornos de escritorio) fueron seleccionadas al azar y etiquetadas manualmente por tres anotadores como atento o inatento.
Comportamiento desatento incluido inspección fuera de la pantalla, discurso, modorray pantallas desatendidas. Las sesiones abarcan diversas regiones en todo el mundo, con grabaciones de escritorio más comunes, oportuno a la colocación flexible de la cámara web.
Modelos de atención
El maniquí de atención propuesto procesa características visuales de bajo nivel, a entender, expresiones faciales; pose de la individuo; y Dirección de la inspección: extraída a través del Affdex 2.0 2.0 y Smarteye SDK mencionado anteriormente.
Luego se convierten en indicadores de stop nivel, con cada distractor manejado por un clasificador binario separado entrenado en su propio conjunto de datos para la optimización y evaluación independientes.
Esquema para el sistema de monitoreo propuesto.
El inspección El maniquí determina si el espectador está mirando o remotamente de la pantalla utilizando coordenadas de inspección normalizadas, con calibración separada para dispositivos de escritorio y móviles. Ayudar a este proceso es una máquina vectorial de soporte recto (SVM), entrenada en características espaciales y temporales, que incorpora una ventana de memoria para suavizar los cambios rápidos de la inspección.
Para detectar Hablando sin audioel sistema utilizó regiones bucales recortadas y un 3D-CNN entrenado en segmentos de video conversacionales y no conversacionales. Las etiquetas se asignaron en función del tipo de sesión, con un suavizado temporal que reduce los falsos positivos que pueden resultar de movimientos breves breves.
Bostezo se detectó utilizando cultivos de imagen de cara completa, para capturar un movimiento facial más amplio, con un 3D-CNN entrenado en marcos etiquetados manualmente (aunque la tarea fue complicada por la depreciación frecuencia de bostezo en la visualización natural y por su similitud con otras expresiones).
Descuido de la pantalla se identificó mediante la abandono de una cara o pose de individuo extrema, con predicciones hechas por un árbol de audacia.
Estado de atención final se determinó utilizando una regla fija: si algún módulo detectado detectado, el visor estaba impresionado inatento – Un enfoque que prioriza la sensibilidad y se ajusta por separado para los contextos de escritorio y móviles.
Pruebas
Como se mencionó anteriormente, las pruebas siguen un método ablativo, donde se eliminan los componentes y el propósito sobre el resultado anotado.
Diferentes categorías de errata de atención percibida identificadas en el estudio.
El maniquí de inspección identificó el comportamiento fuera de la pantalla a través de tres pasos secreto: regularizar las estimaciones de la inspección sin procesar, ajustar la salida y estimar el tamaño de la pantalla para dispositivos de escritorio.
Para comprender la importancia de cada componente, los autores los eliminaron individualmente y evaluaron el rendimiento en 226 escritorio y 225 videos móviles extraídos de dos conjuntos de datos. Los resultados, medidos por las puntuaciones G-Mean y F1, se muestran a continuación:
Resultados que indican el rendimiento del maniquí de inspección completa, pegado con versiones con pasos de procesamiento individuales eliminados.
En todos los casos, el rendimiento disminuyó cuando se omitió un paso. La normalización demostró ser especialmente valiosa en las computadoras de escritorio, donde la colocación de la cámara varía más que en los dispositivos móviles.
El estudio asimismo evaluó cómo las características visuales predijeron la orientación de la cámara móvil: la ubicación de la cara, la pose de la individuo y la inspección de los luceros obtuvieron 0.75, 0.74 y 0.60, mientras que su combinación alcanzó 0.91, destacando, el estado de los autores, la superioridad de integrar múltiples señales.
El discurso El maniquí, entrenado en la distancia tieso del resalte, logró un ROC-AUC de 0.97 en el conjunto de pruebas etiquetado manualmente, y 0.96 en el conjunto de datos etiquetado automáticamente más espacioso, lo que indica un rendimiento constante en los dos.
El bostezo El maniquí alcanzó un ROC-AUC del 96.6 por ciento usando la relación de aspecto oral sola, que mejoró al 97.5 por ciento cuando se combinó con predicciones de la mecanismo de energía de Affdex 2.0.
El maniquí de pantalla desatendida clasificó momentos como inatento Cuando Affdex 2.0 y Smarteye no pudieron detectar una cara por más de un segundo. Para evaluar la validez de esto, los autores anotaron manualmente todos estos eventos sin cara en el distracción efectivo conjunto de datos, identificando la causa subyacente de cada activación. Los casos ambiguos (como la obstrucción de la cámara o la distorsión del video) se excluyeron del examen.
Como se muestra en la tabla de resultados a continuación, solo el 27 por ciento de las activaciones de ‘no cara’ se debieron a que los usuarios salieron físicamente de la pantalla.
Diversas razones obtenidas por las cuales no se encontró una cara, en ciertos casos.
El documento dice:
«A pesar de que las pantallas desatendidas constituyeron solo el 27% de las instancias que desencadenaron la señal sin cara, se activó por otras razones indicativas de errata de atención, como los participantes que miran fuera de la pantalla con un ángulo extremo, haciendo un movimiento excesivo o ocluyeron su rostro significativamente con un objeto/mano».
En el posterior de las pruebas cuantitativas, los autores evaluaron cómo unir progresivamente diferentes señales de distracción: la inspección fuera de la pantalla (a través de la inspección y la pose de la individuo), la somnolencia, la conversación y las pantallas desatendidas) afectaron el rendimiento universal de su maniquí de atención.
Las pruebas se realizaron en dos conjuntos de datos: el distracción efectivo conjunto de datos y un subconjunto de prueba del inspección conjunto de datos. Las puntuaciones G-Mean y F1 se utilizaron para calibrar el rendimiento (aunque la somnolencia y la conversación se excluyeron del examen del conjunto de datos de la inspección, oportuno a su relevancia limitada en este contexto).
Como se muestra a continuación, la detección de atención mejoró de modo consistente a medida que se agregaron más tipos de distracción, con inspección fuera de la pantallael distractor más global, proporcionando la carrera de pulvínulo más válido.
El propósito de unir diversas señales de distracción a la inmueble.
De estos resultados, el documento establece:
‘De los resultados, primero podemos concluir que la integración de todas las señales de distracción contribuye a una viejo detección de atención.
‘En segundo punto, la mejoría en la detección de atención es consistente en los dispositivos de escritorio y móviles. En tercer punto, las sesiones móviles en el conjunto de datos efectivo muestran movimientos significativos de la individuo al mirar fácilmente, que se detectan fácilmente, lo que lleva a un viejo rendimiento para los dispositivos móviles en comparación con las computadoras de escritorio. Cuarto, unir la señal de somnolencia tiene una mejoría relativamente ligera en comparación con otras señales, ya que generalmente es raro que suceda.
«Finalmente, la señal de pantalla desatendida tiene una mejoría relativamente viejo en los dispositivos móviles en comparación con las computadoras de escritorio, ya que los dispositivos móviles se pueden dejar fácilmente desatendidos».
Los autores asimismo compararon su maniquí con Affdex 1.0, un sistema precedente utilizado en las pruebas de anuncios, e incluso la detección de la inspección basada en la individuo del maniquí flagrante superó a Affdex 1.0 en los dos tipos de dispositivos:
‘Esta mejoría es el resultado de la incorporación de movimientos de la individuo tanto en las direcciones de guiñada como en el tono, así como la normalización de la pose de la individuo para tener en cuenta los cambios menores. Los pronunciados movimientos de la individuo en el conjunto de datos móvil efectivo han provocado que nuestro maniquí de individuo funcione de modo similar a Affdex 1.0.
Los autores cierran el papel con una redonda cualitativa (quizás harto superficial), que se muestra a continuación.
Ejemplo de expectativas del maniquí de atención en dispositivos de escritorio y móviles, con cada fila presentando ejemplos de positivos verdaderos y falsos para diferentes tipos de distracción.
Los autores afirman:
‘Los resultados indican que nuestro maniquí detecta efectivamente varios distractores en configuraciones no controladas. Sin secuestro, ocasionalmente puede producir falsos positivos en ciertos casos de borde, como la inclinación severa de la individuo mientras se mantiene la inspección en la pantalla, algunas oclusiones bucales, luceros excesivamente borrosos o imágenes faciales muy oscuras. ‘
Conclusión
Si adecuadamente los resultados representan un avance medido pero significativo sobre el trabajo previo, el valencia más profundo del estudio se encuentra en la visión que ofrece al impulso persistente para lograr al estado interno del espectador. Aunque los datos se recopilaron con consentimiento, la metodología apunta alrededor de futuros marcos que podrían ocupar más allá de la configuración estructurada de investigación de mercado.
Esta conclusión harto paranoica solo está reforzada por la naturaleza enclaustrada, limitada y celosamente protegida de este hilo de investigación particular.
* Mi conversión de las citas en carrera de los autores en hipervínculos.
Publicado por primera vez el miércoles 9 de abril de 2025


