Comparé cómo Gemini, ChatGPT y Claude pueden analizar videos: este modelo gana

Tabla de contenido

Siga conectamentado: Agréganos como fuente preferida en Google.

Conclusiones esencia de conectamentado

Gemini puede ver archivos de YouTube, MP4 y MOV.
Claude todavía no puede procesar el vídeo directamente.
ChatGPT necesita ayuda de Codex para un trabajo de video más profundo.

Las IA hacen un buen trabajo al comprender el texto a partir de indicaciones y documentos. La mayoría interpreta conveniente adecuadamente las imágenes, pero ¿qué pasa con el vídeo? ¿Puede tu IA favorita en realidad entender lo que hay en un vídeo? Si lo entiende, ¿qué puedes hacer con él?

Igualmente: Probé ChatGPT Plus frente a Gemini Pro para ver cuál es mejor y si vale la pena cambiar

En este artículo, probamos ChatGPT, Claude y Gemini para ver qué tan adecuadamente asimilan el contenido de los videos, tanto de YouTube como de archivos locales. Los resultados son sorprendentes.

las pruebas

Le di a cada IA un conjunto de tres videos. Uno es un vídeo de YouTube que publiqué el año pasado sobre el proceso sabio de recocido (sí, lo soy tan emocionante en video como yo en conectamentado). Probé las IA para ver si podían entender lo que hay en el vídeo. Luego, intenté ver si podían crear una miniatura mejor que la que usé en mi canal de YouTube.

El segundo vídeo es una prueba de movimiento del dron DJI Neo 2. Es solo un video mío parado frente al dron, usando gestos para controlar cómo vuela el dron. Sin audio. Quería ver si las IA entienden lo que está sucediendo allí. Eso está en formato MP4.

Igualmente: Probé ChatGPT frente a Claude para ver cuál es mejor y si vale la pena cambiar

Finalmente, tengo el archivo MOV flamante que subí a YouTube para caminar y musitar sobre mi logística de publicación en YouTube. Lo publiqué el año pasado. Para mi prueba, utilicé el archivo de vídeo tópico. Es el mismo que subí a YouTube. Sin bloqueo, estoy usando la traducción tópico para mi prueba de IA porque quería ver qué tan adecuadamente las IA podían determinar de qué estoy hablando sin metadatos, transcripciones o sugerencias proporcionadas por YouTube. Es sólo el vídeo en sí. Si desea ver la traducción posterior a la carga, aquí tiene un enlace.

Probé los últimos y mejores modelos. Probé el plan ChatGPT Plus de $20 por mes, el plan Gemini Pro de $20 por mes y el plan Claude Max de $100 por mes, que uso para Claude Code.

Mi mensaje fue simple: «¿Puedes ver este video?» Descubrí que «ver este video» funcionaba mejor que «comprender» o «resumir», porque uno y otro enviaron a las IA a averiguar metadatos. Por el contrario, cuando pedí a las IA que «miraran» los vídeos, no todas buscaron metadatos. Las tres IA parecían enterarse que «ver» significaba que quería que ellos mismos vieran los videos y demostraran que comprendían lo que había en ellos.

Y con eso, profundicemos.

claudio: no

A veces prolongar el dolor es simplemente cruel. Quítate esa curita y acaba con esto. Entonces Claude es un gran no. Ni la aplicación ni la interfaz web pueden, bueno, que nos lo diga, ¿de acuerdo?

Igualmente: Cómo utilicé Claude AI para planificar un delirio de senderismo completo a los Adirondacks en 30 minutos, de forma gratuita

Claude dice: «No puedo ver contenido de video directamente. No puedo ver videos. No tengo la capacidad de procesar contenido de video o audio desde enlaces de YouTube. No tengo la capacidad de procesar los fotogramas visuales o de audio de un archivo MP4. La misma respuesta aquí: no puedo ver ni escuchar directamente un archivo .mov. No proceso secuencias de video o audio».

LEER 5 razones por las que deberías deshacerte de Windows por Linux hoy

Y así sigue.

Géminis: si

Gemini tiene una aplicación independiente, pero no fue necesario ejecutarla. La interfaz web de Gemini hizo un gran trabajo al comprender todos los formatos de video.

No importaba si le daba a Gemini una URL de YouTube, un archivo MP4 de 625 MB o un enorme archivo MOV de 1,65 GB. Géminis, directamente en una pestaña del navegador, podría manejarlo.

Igualmente: Esta poderosa configuración de Géminis hizo que mis resultados de IA fueran mucho más personales y precisos.

La más interesante es mi prueba con drones. Esto se debe a que el video no contiene audio (ni siquiera ruido de fondo) ni contexto más que yo parado allí y moviendo los brazos.

Y, sin bloqueo, Géminis pudo determinar exactamente lo que estaba haciendo:

En el video, estás probando algunos gestos con las manos: levantando la palma en torno a la cámara como si le indicaras que se detuviera o se moviera. La cámara sigue tu ejemplo, cambiando su ángulo y distancia a medida que la guías a través del floresta y, finalmente, de regreso a la casa.

¡Parece una prueba exitosa de esos gestos de drones! ¿Hay poco específico sobre el metraje o la respuesta de la cámara que quisieras repasar?

Quiero afirmar, guau. Seamos claros. El dron en sí no era visible en el vídeo. Estaba actuando como la cámara. Apuesto a que hay muchos humanos que no entenderían lo que estaba sucediendo allí (¡los estoy mirando a ustedes, mis vecinos!), y mucho menos una IA.

Entendió con éxito mi video de recocido. Pudo identificar secciones, informar sobre puntos específicos que expuse verbalmente y demostrar su comprensión de otros modos.

Igualmente entendió el video de caminar y musitar subido, identificando no solo la ubicación, sino además los diversos aspectos de mi comentario a lo liberal del video.

Encima: probé ChatGPT Images 2.0 frente a Gemini Nano Banano para ver cuál es mejor: este maniquí apetencia

El único circunscripción donde cayó Géminis fue en la transición del modo de comprensión de Géminis al modo de imagen de Nano Banano. A pesar de la capacidad de Nano Banano para crear imágenes asombrosas, no comprende la vida y el mundo de la forma en que lo hace el nuevo ChatGPT Images 2.0, y se nota.

Le di a Gemini la miniatura flamante del video y le dije: «Elija un solo fotograma para conquistar el mayor impacto como miniatura de YouTube y luego, según el contexto del video y mi estilo de miniatura de YouTube existente, use Nano Banano para crear una miniatura con detención valencia de clics».

La imagen de la izquierda es mi miniatura flamante. Los dos siguientes fueron intentos de Géminis. Ciertamente son vívidos y podrían atraer más clics, pero Géminis decidió maquillar a un tipo con barba y colocarlo en la imagen en circunscripción de usar mi rostro suave y sofisticado. Y deletreaba «FUEGO» como «FCIRE». Y así sigue.

Si desea comprender rápidamente un video o hacer preguntas al respecto, Gemini es definitivamente la mejor forma de hacerlo. Si desea crear imágenes reflexivas a partir del vídeo, Gemini aún no está a la mérito de la tarea.

ChatGPT: más o menos, con un poco más de trabajo

Luego está ChatGPT, que es más adecuadamente una historia de buenas y malas informativo.

Primero, las malas informativo. El propio ChatGPT no pasó mis pruebas. No se pudo descubrir el enlace de YouTube. Y aunque en teoría puede entender vídeos, deben tener un tamaño inferior a 500 MB. Los míos no lo eran.

LEER Una característica de KDE Plasma que lleva 20 años en desarrollo finalmente está aquí: así es como funciona

Entonces, las buenas informativo. Si combinas la aplicación OpenAI Codex con ChatGPT, puedes hacer cosas muy interesantes. Codex es el heroína de batalla agente de las ofertas de OpenAI. En cierto modo comparo el Codex con ese vecino hábil que todos conocemos y que puede construir casi cualquier cosa a partir de casi cualquier cosa.

Igualmente: Dejé de usar ChatGPT para todo: estos modelos de IA lo superan en investigación, codificación y más

Codex pudo descubrir uno y otro archivos locales y comprender su significado. Para la prueba del dron, Codex informó:

Parece una toma de prueba de un dron en un patio trasero.

Lo que está sucediendo:

Una persona se encuentra en el patio trasero de una residencia y mira en torno a la cámara/dron.
Hacen gestos varias veces (incluido erguir la mano o hacer un movimiento curvilíneo).
El punto de perspicacia de la cámara se mueve a su rodeando a lo liberal del tiempo, cambiando el ángulo y la distancia mientras los mantiene mayormente centrados.
La secuencia termina todavía en la misma zona del patio, sin cambios importantes de terreno ni personas/actividades adicionales.

Sí. De eso se tráfico.

Codex además pudo ver y comprender el archivo MOV de caminar y musitar que subí. Inicialmente, no podía procesar el contenido, por lo que Codex pidió permiso para instalar código Python y bibliotecas que le permitieran realizar la transcripción de audio. Una vez que construyó todo eso, pudo no solo ver el video, sino además comprender su contexto.

Pero luego Codex no pudo ver la transmisión de YouTube. Vale, está adecuadamente. Este es el Códice. Entonces pregunté: «¿Puedes descargar el vídeo completo y luego trabajar en él localmente?».

Eso funcionó. Automágicamente escribió un script de Python, instaló algunas bibliotecas, ayudó a inventar la tecnología de descarga de videos sobre la marcha y luego vio mi video de YouTube.

Pero luego quería que creara una miniatura. Primero pregunté si tenía paso a ChatGPT Images 2.0 (recuerde, ambas son herramientas OpenAI). Respondió: «Tengo paso a herramientas de vivientes de imágenes en esta sesión, pero no tengo expuesta una útil explícitamente etiquetada como Imágenes 2.0».

Igualmente: Probé ChatGPT y Perplexity AI como mis asistentes de voz CarPlay; uno y otro hicieron que Siri quedara mal

Ignoremos la desafortunada frase «expuesto a mí». Tuve que explicarle al Codex que Images 2.0 existía y señalarle el sitio de OpenAI para que lo entendiera. En ese momento, la útil agente conocía la útil de imágenes, pero todavía no podía hacer mucho con ella.

Entonces fue cuando actué como conducto entre Codex y ChatGPT. Le dije a Codex: «Elija un solo fotograma para conquistar el mayor impacto como miniatura de YouTube, exporte esa miniatura a algún circunscripción para que ChatGPT pueda penetrar a ella, o para que pueda subirla a ChatGPT, y luego, según el contexto del video y mi estilo de miniatura de YouTube existente, escriba un mensaje para ChatGPT para crear una miniatura de detención valencia de clics».

Luego, en ChatGPT, subí la imagen en miniatura flamante que les mostré anteriormente y el ámbito que eligió Codex. Luego pegué el mensaje creado por el Codex. Como puede ver, Codex/ChatGPT acertó más que Gemini.

Se centró en la combinación de colores blanco, amarillo y enfadado de mis cultura. No incluía mi logotipo ni la franja amarilla que uso para mis títulos, pero en efectividad me gusta conveniente la yuxtaposición de mi imagen sobre la candela de la hachón. ChatGPT y Codex en realidad usaron mi imagen, a diferencia de Gemini. Pero estoy en desacuerdo con la mostrador de aluminio. Usé material plano. Por alguna razón, las herramientas OpenAI decidieron convertirlo en un tubo cuadrado.

Igualmente: Probé ChatGPT Images 2.0: un gran brinco divertido y sorprendentemente útil para el trabajo vivo

LEER Esta aplicación gratuita de Linux te permite crear memes en segundos, no se requiere GIMP

Aquí es donde entra en distracción el mejor conocimiento de imágenes de ChatGPT. Lo corregí en la situación de los tubos frente a la mostrador y le pedí que se regenerara. Le indiqué: «Ese aluminio es un material de mostrador plana de aproximadamente 1/8 de pulgada de espesor, no un tubo cuadrado. Guarde todo lo demás, pero arregle el aluminio».

Estábamos cerca. No me gustó cómo colocó las marcas Sharpie (que se usan para indicar cuándo el metal está lo suficientemente caliente como para doblarse), y la curvatura vivo fue demasiado pronunciada. Un mensaje más: «Perfectamente, pero la curvatura es demasiado pronunciada. No es un ángulo íntegro consumado. Hay una curva porque el aluminio necesita flexionarse a medida que se dobla. Por ayuda revise. Encima, las marcas con grabador son perpendiculares al borde de la mostrador, no en ángulo. Indican dónde doblarse».

Eso es suficiente. Creo que es posible despachar a Codex y ChatGPT un vídeo sin contexto adicional y obtener una miniatura de YouTube. Probablemente podrías usarlo para analizar otros tipos de videos y producir imágenes a partir de ellos además.

No es muy conveniente, pero funciona conveniente adecuadamente.

De hecho, la IA puede ver videos

Hay pocas cosas a tener en cuenta. Primero, la IA pudo interpretar completamente los videos en un tiempo mucho más corto que su tiempo de reproducción vivo. Tanto el video sabio como el de caminar y musitar duran aproximadamente 15 minutos, pero tanto Gemini como ChatGPT pudieron «mirarlos» y analizarlos para comprenderlos en lo que yo diría que fueron aproximadamente dos o tres minutos cada uno.

En segundo circunscripción, uno y otro muestran habilidades de interpretación conveniente poderosas. Su capacidad para comprender que el vídeo silencioso que les di era una prueba con un dron me pareció conveniente impresionante. El dron se mantuvo mayoritariamente a la mérito humana, pero uno y otro pudieron determinar el contexto a partir de los fotogramas del vídeo.

Ciertamente existen algunos usos prácticos. Le di a Gemini un vídeo de YouTube de un mensaje de la CBS sobre la prueba de OpenAI y le pedí que me proporcionara detalles sobre lo que se discutió. Definitivamente puedo imaginar su uso para escanear el video de la cámara de seguridad para encontrar rápidamente un tipo específico de bono.

Definitivamente además puedo ver darle a la IA un video más liberal y hacer que extraiga los puntos principales. Lo que fue particularmente útil es que Gemini puso una marca de tiempo en cada uno de los pensamientos esencia, por lo que podía simplemente hacer clic en las marcas de tiempo y penetrar al video en ese punto.

Luego, por supuesto, está el uso vivo de estas herramientas para crear miniaturas de YouTube. Todavía prefiero hacerlo a mano. Pero el hecho de que estas IA puedan extraer fotogramas utilizables y construir miniaturas significa que los creadores tienen una nueva útil a su disposición.

Encima: utilicé Claude Code para codificar una aplicación de Mac en 8 horas, pero fue más trabajo que brujería.

En caudillo, estoy impresionado con Gemini y la combinación de ChatGPT y Codex para ver videos. ¿No es interesante que Gemini no necesita dos herramientas (a posteriori de todo, se candela «Gemini»), pero ChatGPT necesita Codex? Cosas así me divierten.

Aunque Claude fracasó en esta prueba, todavía tiene valencia. Claude es uno de mis favoritos para la codificación de vibraciones.

¿Qué beneficios de productividad puede obtener de las capacidades de visualización de videos de estas IA? Háganos enterarse en los comentarios a continuación.

Puedes seguir las actualizaciones diarias de mi plan en las redes sociales. Asegúrate de suscribirte a mi boletín de puesta al día semanal y sígueme en Twitter/X en @DavidGewirtzen Facebook en Facebook.com/DavidGewirtz, en Instagram en Instagram.com/DavidGewirtz, en Bluesky en @DavidGewirtz.com y en YouTube en YouTube.com/DavidGewirtzTV.

Comparé cómo Gemini, ChatGPT y Claude pueden analizar videos: este modelo gana

Conclusiones esencia de conectamentado

las pruebas

claudio: no

Géminis: si

ChatGPT: más o menos, con un poco más de trabajo

De hecho, la IA puede ver videos

Artículos relacionados

Le hice jailbreak a mi viejo Kindle, pero encontré una forma...

GemStuffer abusa de más de 150 RubyGems para filtrar datos eliminados...

Seminario web: Cuáles son las alertas de SOC más riesgosas que...

DEJA UNA RESPUESTA Cancelar respuesta

Últimos artículos

Le hice jailbreak a mi viejo Kindle, pero encontré una forma...

GemStuffer abusa de más de 150 RubyGems para filtrar datos eliminados...

Seminario web: Cuáles son las alertas de SOC más riesgosas que...

Ubuntu 26.04 vs. Fedora 44: después de años de probar ambas...

Las estimaciones de envío de MacBook Neo acaban de ver un...