Aunque el cine y la televisión a menudo son vistos como industrias creativas y abiertas, durante mucho tiempo han sido reacios al aventura. Los altos costos de producción (que pronto pueden perder la delantera de compensación de ubicaciones en el extranjero más baratas, al menos para proyectos estadounidenses) y un panorama de producción fragmentado dificulta que las compañías independientes absorban una pérdida significativa.
Por lo tanto, durante la última plazo, la industria ha tenido un interés creciente en si el estudios mecánico puede detectar tendencias o patrones en cómo el manifiesto rebate a los proyectos de cine y televisión propuestos.
Las principales fuentes de datos siguen siendo el sistema Nielsen (que ofrece escalera, aunque sus raíces se encuentran en la televisión y la publicidad) y los métodos basados en muestras, como los grupos focales, que intercambian escalera para la demografía curada. Esta última categoría además incluye feedback de cuadros de puntuación de vistas previas de películas gratuitas; sin retención, en ese momento, la veterano parte del presupuesto de una producción ya se gastan.
La teoría/teorías del ‘gran éxito’
Inicialmente, los sistemas ML aprovecharon los métodos de observación tradicionales, como la regresión seguido, los vecinos K-nears, Kears, el descenso de gradiente casual, los árboles de atrevimiento y los bosques, y las redes neuronales, generalmente en varias combinaciones más cercanas a estilo a un observación estadístico pre-AI, como una iniciativa de la Universidad de Florida de 2019 para pronosticar los pronosticados televisores exitosos que se muestran basados en combinaciones de actores y escritores (entre otros factores):::::::::::::::::):::::::::::::::):
Un estudio de 2018 calificó el rendimiento de episodios basados en combinaciones de personajes y/o escritores (la mayoría de los episodios fueron escritos por más de una persona). Fuente: https://arxiv.org/pdf/1910.12589
El trabajo relacionado más relevante, al menos el que se implementa en la naturaleza (aunque a menudo criticado) está en el campo de los sistemas de recomendación:
Una tubería de recomendación de video típica. Los videos en el catálogo se indexan utilizando características que pueden ser anotadas manualmente o extraídas automáticamente. Las recomendaciones se generan en dos etapas seleccionando primero videos candidatos y luego clasificándolos de acuerdo con un perfil de adjudicatario inferido de las preferencias de visualización. Fuente: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full
Sin retención, este tipo de enfoques analizan proyectos que ya tienen éxito. En el caso de posibles nuevos programas o películas, no está claro qué tipo de verdad terráqueo sería más aplicable, sobre todo porque los cambios en el sabor manifiesto, combinados con mejoras y aumentos de fuentes de datos, significan que las décadas de datos consistentes generalmente no están disponibles.
Esta es una instancia del inicio en frío Problema, donde los sistemas de recomendación deben evaluar a los candidatos sin ningún datos de interacción previa. En tales casos, el filtrado colaborativo tradicional se descompone, ya que se basamento en patrones en el comportamiento del adjudicatario (como ver, encasillar o compartir) para suscitar predicciones. El problema es que en el caso de la mayoría de las películas o programas nuevas, aún no hay suficientes comentarios de la audiencia para respaldar estos métodos.
Comcast predice
Un nuevo artículo de Comcast Technology AI, en asociación con la Universidad de George Washington, propone una alternativa a este problema al provocar un maniquí de idioma con metadatos estructurados sobre películas inéditas.
Las entradas incluyen repertorio, categoría, sinopsis, calificación de contenido, talantey premiocon el maniquí que devuelve una relación clasificada de posibles éxitos futuros.
Los autores usan la salida del maniquí como un sustituto del interés de la audiencia cuando no hay datos de décimo disponibles, con la esperanza de evitar el sesgo temprano en dirección a los títulos que ya son adecuadamente conocidos.
El muy corto (tres páginas), titulado Predecir los éxitos de la película antaño de que ocurran con LLMSproviene de seis investigadores en Comcast Technology AI, y uno de GWU, y de los estados:
‘Nuestros resultados muestran que LLMS, cuando se usa metadatos de la película, puede aventajar significativamente las líneas de pulvínulo. Este enfoque podría servir como un sistema asistido para múltiples casos de uso, lo que permite la puntuación cibernética de grandes volúmenes de nuevo contenido publicado diariamente y semanalmente.
‘Al proporcionar información temprana antaño de que los equipos editoriales o algoritmos hayan acumulado datos de interacción suficientes, los LLM pueden optimizar el proceso de revisión de contenido.
«Con mejoras continuas en la eficiencia de LLM y el aumento de los agentes de recomendación, las ideas de este trabajo son valiosas y adaptables a una amplia tono de dominios».
Si el enfoque resulta robusto, podría aminorar la dependencia de la industria de métricas retrospectivas y títulos muy promovidos al introducir una forma escalable de marcar el contenido prometedor antaño del emanación. Por lo tanto, en lado de esperar a que el comportamiento del adjudicatario indique la demanda, los equipos editoriales podrían percibir pronósticos tempranos de interés de la audiencia impulsados por los metadatos, redistribuyendo la exposición en una tono más amplia de nuevos lanzamientos.
Método y datos
Los autores describen un flujo de trabajo de cuatro etapas: construcción de un conjunto de datos dedicado de inédito metadatos de la película; el establecimiento de un maniquí de remisión para la comparación; la evaluación de las LLM apropiadas utilizando tanto el razonamiento del lengua natural como la predicción basada en la incrustación; y la optimización de futuro a través de ingeniería rápida en modo generativo, utilizando modelos de idiomas LLAMA 3.1 y 3.3 de Meta.
Poliedro que los autores afirman, ningún conjunto de datos adecuado públicamente ofreció una forma directa de probar su hipótesis (adecuado a que la mayoría de las colecciones existentes son anteriores a LLMS, y carecen de metadatos detallados), crearon un conjunto de datos de remisión de la plataforma de entretenimiento de Comcast, que sirve a decenas de millones de usuarios en interfaces directas y de terceros.
El conjunto de datos rastrea las películas recientemente lanzadas, y si luego se hicieron populares, con la popularidad definida a través de las interacciones de los usuarios.
La colección se centra en películas en lado de en serie, y los autores afirman:
«Nos centramos en las películas porque están menos influenciadas por el conocimiento foráneo que las series de televisión, mejorando la confiabilidad de los experimentos».
Se asignaron etiquetas analizando el tiempo que llevó un título para ser popular en diferentes ventanas y tamaños de relación. El LLM fue solicitado con campos de metadatos como categoría, sinopsis, clasificación, era, repertorio, multitud, talante, premioy tipos de personajes.
A modo de comparación, los autores usaron dos líneas de pulvínulo: un orden accidental; y un maniquí popular de incrustación (PE) (al que llegaremos en breve).
El tesina utilizó modelos de idiomas grandes como el método de clasificación principal, generando listas ordenadas de películas con puntajes de popularidad predichos y justificaciones acompañantes, y estas futuro fueron formadas por estrategias de ingeniería rápidas diseñadas para adiestrar las predicciones del maniquí utilizando metadatos estructurados.
La logística de solicitación enmarcó el maniquí como un ‘asistente editorial’ asignado para identificar qué próximas películas tenían más probabilidades de ser popular, basándose exclusivamente en metadatos estructurados, y luego se encargó de reordenar una relación fija de títulos sin Preámbulo de nuevos fundamentos y devolver la salida en formato JSON.
Cada respuesta consistió en una relación clasificada, puntajes de popularidad asignados, justificaciones para las clasificaciones y referencias a cualquier ejemplos anteriores que influyan en el resultado. Estos múltiples niveles de metadatos tenían la intención de mejorar la comprensión contextual del maniquí y su capacidad para anticipar futuras tendencias de la audiencia.
Pruebas
El investigación siguió dos etapas principales: inicialmente, los autores probaron varias variantes del maniquí para establecer una crencha de pulvínulo, que implica la identificación de la lectura que funcionó mejor que un enfoque de orden accidental.
En segundo lado, probaron modelos de idiomas grandes en modo generativoal comparar su salida con una crencha de pulvínulo más válido, en lado de una clasificación aleatoria, elevando la dificultad de la tarea.
Esto significaba que los modelos tenían que hacerlo mejor que un sistema que ya mostraba cierta capacidad para predecir qué películas se volverían populares. Como resultado, afirman los autores, la evaluación reflejó mejor las condiciones del mundo existente, donde los equipos editoriales y los sistemas de recomendación rara vez eligen entre un maniquí y una oportunidad, pero entre sistemas competitivos con diferentes niveles de capacidad predictiva.
La delantera de la ignorancia
Una restricción secreto en esta configuración fue la brecha de tiempo entre el corte de conocimiento de los modelos y las fechas de emanación reales de las películas. Conveniente a que los modelos de idiomas fueron entrenados en datos que terminaron de seis a doce meses antaño de que las películas estuvieran disponibles, no tenían camino a la información posterior a la libertad, asegurando que las predicciones se basaron completamente en metadatos, y no en ninguna respuesta de audiencia aprendida.
Evaluación de crencha de pulvínulo
Para construir una crencha de pulvínulo, los autores generaron representaciones semánticas de metadatos de películas utilizando tres modelos de incrustación: Bert V4; Linq-Embed-Mistral 7b; y LLAMA 3.3 70B, cuantificada a una precisión de 8 bits para cumplir con las limitaciones del entorno real.
Linq-Embed-Mistral fue seleccionado para su inclusión adecuado a su posición superior en la tabla de clasificación MTEB (texto de remisión de incrustación masiva).
Cada maniquí produjo incrustaciones de vectores de películas candidatas, que luego se compararon con la incrustación promedio de los cien títulos más populares de las semanas anteriores al emanación de cada película.
La popularidad se infirió utilizando la similitud cosena entre estos incrustaciones, con puntajes de similitud más altos que indican un veterano atractivo predicho. La precisión de clasificación de cada maniquí se evaluó midiendo el rendimiento contra una crencha de pulvínulo de pedidos aleatorios.
Prosperidad del rendimiento de los modelos de incrustación populares en comparación con una crencha de pulvínulo aleatoria. Cada maniquí se probó utilizando cuatro configuraciones de metadatos: V1 incluye solo categoría; V2 incluye solo sinopsis; V3 combina categoría, sinopsis, calificación de contenido, tipos de personajes, estado de talante y era de emanación; V4 agrega fundición, tripulación y premios a la configuración V3. Los resultados muestran cómo las entradas de metadatos más ricas afectan la precisión de clasificación. Fuente: https://arxiv.org/pdf/2505.02693
Los resultados (que se muestran en lo alto) demuestran que Bert V4 y Linq-Embed-Mistral 7B entregaron las mejoras más fuertes en la identificación de los tres títulos más populares, aunque entreambos quedaron tenuemente cortos en predecir el ambiente más popular.
Bert fue seleccionado en última instancia como el maniquí de remisión para comparar con el LLMS, ya que su eficiencia y ganancias generales superaron sus limitaciones.
Evaluación de LLM
Los investigadores evaluaron el rendimiento utilizando dos enfoques de clasificación: a pareja y Listwine. La clasificación por pares evalúa si el maniquí ordena correctamente un ambiente en relación con otro; y la clasificación de Listwise considera la precisión de toda la relación ordenada de candidatos.
Esta combinación permitió evaluar no solo si los pares de películas individuales se clasificaron correctamente (precisión locorregional), sino además qué tan adecuadamente la relación completa de candidatos reflejó el seguro orden de popularidad (precisión mundial).
Se emplearon modelos completos y no cuantizados para avisar la pérdida de rendimiento, asegurando una comparación consistente y reproducible entre las predicciones basadas en LLM y las líneas de pulvínulo de incrustación.
Métrica
Para evaluar cuán efectivamente se utilizaron la popularidad de la película de los modelos de idiomas, se utilizaron métricas basadas en la clasificación y basadas en la clasificación, con particular atención a la identificación de los tres títulos más populares.
Se aplicaron cuatro métricas: la precisión@1 midió con qué frecuencia apareció el ambiente más popular en la primera posición; El rango recíproca capturó cuán parada es el ambiente existente superior clasificado en la relación prevista al tomar el inverso de su posición; Fruto acumulativa con descuento normalizada (NDCG@K) evaluó qué tan adecuadamente la clasificación completa coincidió con la popularidad existente, con puntajes más altos que indican una mejor línea; y recuperar@3 midió la proporción de títulos verdaderamente populares que aparecieron en las tres principales predicciones del maniquí.
Poliedro que la mayoría de la décimo del adjudicatario ocurre cerca de la parte superior de los menús clasificados, la evaluación se centró en títulos más bajos de kpara reverberar casos de uso prácticos.
Prosperidad del rendimiento de los modelos de idiomas grandes sobre Bert V4, medido como ganancias porcentuales en las métricas de clasificación. Los resultados se promediaron en diez ejecuciones por combinación de modelo-Prompt, con los dos títulos principales resaltados. Las cifras informadas reflejan la perfeccionamiento porcentual promedio en todas las métricas.
El rendimiento del maniquí 3.1 (8b), 3.1 (405b) y 3.3 (70b) se evaluó midiendo mejoras métricas en relación con la crencha de pulvínulo Bert V4 establecida anteriormente. Cada maniquí se probó utilizando una serie de indicaciones, que van desde reducido hasta rico en información, para examinar el emoción del detalle de entrada en la calidad de la predicción.
Los autores afirman:
‘El mejor rendimiento se logra cuando se usa Ardor 3.1 (405b) con el aviso más informativo, seguido de Ardor 3.3 (70B). Según la tendencia observada, cuando se usa un aviso complicado y dilatado (MD V4), un maniquí de lengua más complicado generalmente conduce a un rendimiento mejorado en varias métricas. Sin retención, es sensible al tipo de información agregada.
El rendimiento mejoró cuando los premios del repertorio se incluyeron como parte del aviso: en este caso, el número de premios principales recibidos por los cinco actores facturados principales en cada película. Estos metadatos más ricos formaron parte de la configuración rápida más detallada, superando una lectura más simple que excluyó el gratitud de reparto. El beneficio fue más evidente en los modelos más grandes, Ardor 3.1 (405b) y 3.3 (70b), los cuales mostraron una precisión predictiva más válido cuando se le dio esta señal adicional de prestigio y espontaneidad de la audiencia.
Por el contrario, el maniquí más pequeño, Ardor 3.1 (8b), mostró un rendimiento mejorado a medida que las indicaciones se volvieron tenuemente más detalladas, progresando de categoría a sinopsis, pero disminuyó cuando se agregaron más campos, lo que sugiere que el maniquí carecía de la capacidad de integrar indicaciones complejas de forma efectiva, lo que lleva a una universalización más débil.
Cuando las indicaciones se restringieron solo al categoría, todo Los modelos de bajo rendimiento contra la crencha de pulvínulo, lo que demuestra que los metadatos limitados eran insuficientes para apoyar predicciones significativas.
Conclusión
Los LLM se han convertido en el pibe cartel para la IA generativa, lo que podría explicar por qué se están poniendo a trabajar en áreas donde otros métodos podrían ser mejor. Aun así, todavía hay mucho que no sabemos sobre lo que pueden hacer en diferentes industrias, por lo que tiene sentido darles una oportunidad.
En este caso particular, al igual que con los mercados de títulos y el pronóstico del tiempo, solo hay una extensión limitada en la que los datos históricos pueden servir como pulvínulo de predicciones futuras. En el caso de películas y programas de televisión, los muy método de entrega ahora es un objetivo móvil, en contraste con el período entre 1978-2011, cuando el cable, el comparsa y los medios portátiles (VHS, DVD, et al.) Representaban una serie de interrupciones históricas transitivas o en desarrollo.
Siquiera puede ningún método de predicción en la medida en que el éxito o el fracaso de otro Las producciones pueden influir en la viabilidad de una propiedad propuesta, y sin retención, este es con frecuencia el caso en la industria del cine y la televisión, que le encanta hacer una tendencia.
No obstante, cuando se usa cuidadosamente, los LLM podrían ayudar a acorazar los sistemas de recomendación durante la período de comienzo en frío, ofreciendo un soporte útil en una tono de métodos predictivos.
Publicado por primera vez el martes 6 de mayo de 2025


