A medida que evolucionan rápidamente los modelos de idiomas grandes (LLM), todavía lo hace su promesa como poderosos asistentes de investigación. Cada vez más, no solo están respondiendo preguntas fácticas simples, sino que abordan tareas de «investigación profunda», que implican un razonamiento de varios pasos, evaluar información conflictiva, obtener datos de toda la web y sintetizarlo en un resultado coherente.
Esta capacidad emergente ahora está siendo comercializada bajo diferentes marcas por los laboratorios principales: Openai lo ardor «investigación profunda», antrópico se refiere a él como «pensamiento extendido», Gemini de Google ofrece características «de búsqueda + pro» y la perplejidad fórmula su «búsqueda profesional» o «investigación profunda». Pero, ¿qué tan efectivas son estas ofertas en la praxis? Un nuevo noticia de Futuresearch, titulado Deep Research Bench (DRB): Evaluar los agentes de investigación web, ofrece la evaluación más rigurosa hasta la plazo, y los resultados revelan tanto capacidades impresionantes como deficiencias críticas.
¿Qué es el faja de investigación profunda?
Creado por el equipo de FutureSearch, Deep Research Bench es un punto de narración meticulosamente construido diseñado para evaluar el desempeño de los agentes de IA en tareas de investigación basadas en la web de múltiples pasos. Estas no son preguntas simples con respuestas directas: reflejan los desafíos desordenados y abiertos que enfrentan los analistas, los encargados de formular políticas e investigadores en entornos del mundo positivo.
El punto de narración incluye 89 tareas distintas en 8 categorías como:
- Encontrar número: por ejemplo, «¿Cuántos retiros de dispositivos médicos de la FDA Clase II se produjeron?»
- Validar anuncio: por ejemplo, «¿Chatgpt 10x es más intensivo en energía que la búsqueda de Google?»
- Recopilar el conjunto de datos: por ejemplo, «Tendencias laborales para desarrolladores de software de EE. UU. De 2019-2023»
Cada tipo de tarea está cuidadosamente estructurado con respuestas verificadas por humanos y se evalúa utilizando un conjunto de datos congelado de páginas web raspadas, conocidas como retroSearch. Esto garantiza la consistencia entre las evaluaciones del maniquí, evitando el estado fluctuante de la web en vivo.
La bloque del agente: reaccionar y retroSearch
En el corazón de Deep Research Bench se encuentra la bloque React, sigla de «Razón + Acto». Este método imita cómo un investigador humano podría tocar un problema: pensar en la tarea, tomar una energía como realizar una búsqueda en la web, observar los resultados y luego animarse si iterar o concluir.
Mientras que los modelos anteriores siguen este rizo explícitamente, los modelos de «pensamiento» más nuevos a menudo agilizan el proceso, incrustando el razonamiento de guisa más fluida en sus acciones. Para avalar la consistencia entre las evaluaciones, DRB presenta retroSearch, una lectura estática personalizada de la web. En oportunidad de esperar en Internet en vivo, lo que cambia constantemente, los agentes aprovechan un archivo curado de páginas web raspadas usando herramientas como Serper, Playwright y Scraperapi. La escalera es impresionante: para las tareas de suscripción complejidad como «recoger evidencia», la retrospearch puede proporcionar comunicación a más de 189,000 páginas, todas congeladas en el tiempo, asegurando un entorno de prueba adaptado y replicable.
¿Qué agentes de IA funcionan mejor?
Entre todos los contendientes, el O3 de Openai surgió como el mejor desempeño, obteniendo 0.51 de un posible 1.0 en el faja de investigación profunda. Si proporcionadamente eso puede sonar modesto, es importante comprender la dificultad del punto de narración: oportuno a la anfibología en las definiciones de tareas y la puntuación, incluso un agente impecable probablemente superaría cerca de de 0.8, lo que los investigadores llaman el «techo de ruido». En otras palabras, incluso los mejores modelos de hoy aún no alcanzan investigadores humanos metódicos proporcionadamente informados.
Aún así, la tabla de clasificación ofrece ideas reveladoras. O3 no solo lideró el paquete, sino que lo hizo con velocidad y consistencia, mostrando un robusto rendimiento en casi todos los tipos de tareas. El soneto Claude 3.7 de Anthrope siguió de cerca, demostrando versatilidad tanto en sus modos de «pensamiento» como de «no pensamiento». Gemini 2.5 Pro, el maniquí insignia de Google, se destacó por su capacidad para manejar tareas que requieren planificación estructurada y razonamiento paso a paso. Mientras tanto, el peso rajado Deepseek-R1 ofreció una agradable sorpresa, manteniendo el ritmo de GPT-4 Turbo y reduciendo la brecha de rendimiento entre los modelos abiertos y cerrados.
En militar, surgió un patrón claro: los modelos más nuevos, «habilitados para pensar» superaron consistentemente a sus homólogos anteriores, y los modelos de código cerrado mantuvieron una delantera extraordinario sobre las alternativas de peso rajado.
¿Dónde luchan los agentes?
Deletrear a través de los patrones de falta destacados en el noticia de Deep Research Bench se sintió sorprendentemente abierto. Uno de los aspectos más frustrantes que he opuesto personalmente, especialmente durante las largas sesiones de investigación o creación de contenido, es cuando un agente de IA simplemente olvida lo que estábamos haciendo. A medida que la ventana de contexto se extiende, el maniquí a menudo comienza a perder el hilo: los detalles esencia se desvanecen, los objetivos se confunden y de repente, las respuestas se sienten desarticuladas o sin rumbo. En algún momento, he aprendido que a menudo es mejor ceñir las pérdidas y comenzar desde cero, incluso si eso significa tirar todo lo que se ha generado hasta ahora.
Ese tipo de olvido no es solo accesorio, es el predictor más significativo del fracaso en la evaluación del faja de investigación profunda. Pero no es el único problema recurrente. El noticia todavía destaca cómo algunos modelos caen en el uso de la útil repetitiva, ejecutando la misma búsqueda una y otra vez como si estuvieran atascadas en un rizo. Otros muestran una mala consulta de consultas, una pareja de palabras esencia perezosamente en oportunidad de pensar críticamente sobre cómo averiguar de guisa efectiva. Y con demasiada frecuencia, los agentes son víctimas de conclusiones prematuras, entregando una respuesta medio formada que técnicamente marca la casilla pero no alcanza una idea positivo.
Incluso entre los principales modelos, las diferencias son marcadas. GPT-4 Turbo, por ejemplo, mostró una tendencia extraordinario a olvidar los pasos anteriores, mientras que Deepseek-R1 era más probable que asombro o inventara la información de sonido plausible, pero incorrecta,. En todos los ámbitos, los modelos frecuentemente no pudieron efectuar las fuentes o validar los hallazgos antiguamente de finalizar su salida. Para cualquiera que haya confiado en la IA para un trabajo serio, estos problemas se sentirán demasiado familiarizados, y subrayan cuán allá aún tenemos que entrar a la construcción de agentes que positivamente puedan pensar e investigar como humanos.
¿Qué pasa con el rendimiento basado en la memoria?
Curiosamente, Deep Research Bench todavía evaluó lo que ardor agentes «Toolress»: modelos de jerigonza que operan sin comunicación a herramientas externas, como búsqueda en la web o recuperación de documentos. Estos agentes confían completamente en sus datos y memoria de entrenamiento interno, generando respuestas basadas nada más en lo que han aprendido anteriormente durante la capacitación. En la praxis, esto significa que no pueden averiguar carencia o efectuar la información, adivinan en cojín a lo que «recuerdan».
Sorprendentemente, estos agentes de los toldosas se desempeñaron casi tan proporcionadamente como los agentes de investigación completos en ciertas tareas. Por ejemplo, en la tarea de anuncio de validar, donde el objetivo es evaluar la plausibilidad de una comunicación, obtuvieron 0.61, casi coincidiendo con el promedio de 0.62 de agentes habilitados para herramientas. Esto sugiere que modelos como O3 y Claude tienen fuertes circunstancias internos y, a menudo, pueden distinguir la fiabilidad de las afirmaciones comunes sin carencia de averiguar en la web.
Pero en tareas más exigentes, como el número de deriva, lo que requiere unir múltiples títulos de varias fuentes, o reunir evidencia, que depende de encontrar y evaluar diversos hechos en el contexto, estos modelos tocados se desmoronaron por completo. Sin información nueva o capacidades de búsqueda en tiempo positivo, simplemente carecían de los medios para producir respuestas precisas o integrales.
Este contraste destaca un matiz importante: si proporcionadamente los LLM de hoy pueden afectar mucho «aprender», la investigación profunda no solo del retiro, sino del razonamiento con información actualizada y verificable, poco que solo los agentes acuáticos de herramientas positivamente pueden entregar positivamente.
Pensamientos finales
El noticia de DRB deja en claro una cosa: si proporcionadamente los mejores agentes de IA de hoy pueden exceder a los humanos promedio en tareas estrechamente definidas, todavía se quedan antes de investigadores generalistas calificados, especialmente cuando se manejo de planificar estratégicamente, adaptar el proceso medio y razonamiento con matices.
Esta brecha se vuelve especialmente obvia durante las sesiones largas o complejas, poco que he experimentado de primera mano, donde un agente pierde gradualmente el seguimiento del propósito de la tarea, lo que lleva a un desglose frustrante en coherencia y utilidad.
Lo que hace que el faja de investigación profunda sea tan valiosa es que no solo pruebe el conocimiento a nivel de superficie: sondea la intersección del uso de herramientas, la memoria, el razonamiento y la acondicionamiento, ofreciendo un análogo más cercano a la investigación del mundo positivo que los puntos de narración como MMLU o GSM8K.
A medida que los LLM continúan integrándose en un trabajo de conocimiento serio, las herramientas de FutureSearch como DRB serán esenciales para evaluar no solo lo que estos sistemas saben, sino qué tan proporcionadamente positivamente funcionan.