En los últimos primaveras, el campo de IA ha sido cautivado por el éxito de los modelos de idiomas grandes (LLM). Inicialmente diseñado para el procesamiento del verbo natural, estos modelos se han convertido en potentes herramientas de razonamiento capaces de acometer problemas complejos con el proceso de pensamiento paso a paso de humanos. Sin confiscación, a pesar de sus habilidades de razonamiento excepcionales, los LLM vienen con inconvenientes significativos, incluidos los altos costos computacionales y las velocidades de implementación lentas, lo que las hace poco prácticas para el uso del mundo verdadero en entornos limitados por fortuna como dispositivos móviles o computación de borde. Esto ha llevado a un creciente interés en desarrollar modelos más pequeños y más eficientes que puedan ofrecer capacidades de razonamiento similares al tiempo que minimiza los costos y las demandas de fortuna. Este artículo explora el aumento de estos pequeños modelos de razonamiento, su potencial, desafíos e implicaciones para el futuro de la IA.
Un cambio en la perspectiva
Durante gran parte de la historia fresco de AI, el campo ha seguido el principio de las «leyes de escalera», lo que sugiere que el rendimiento del maniquí progreso predecible como datos, potencia de cálculo y aumento del tamaño del maniquí. Si perfectamente este enfoque ha producido modelos poderosos, además ha resultado en compensaciones significativas, incluidos altos costos de infraestructura, impacto ambiental y problemas de latencia. No todas las aplicaciones requieren las capacidades completas de modelos masivos con cientos de miles de millones de parámetros. En muchos casos prácticos, como los asistentes en el dispositivo, la atención médica y la educación, los modelos más pequeños pueden conquistar resultados similares, si pueden razonar de modo efectiva.
Comprender el razonamiento en la IA
El razonamiento en la IA se refiere a la capacidad de un maniquí para seguir cadenas lógicas, comprender la causa y el meta, deducir las implicaciones, planificar los pasos en un proceso e identificar contradicciones. Para los modelos de idiomas, esto a menudo significa no solo recuperar información sino además manipular e inferir información a través de un enfoque estructurado y paso a paso. Este nivel de razonamiento generalmente se logra al ajustar LLM para realizar un razonamiento de varios pasos ayer de conseguir a una respuesta. Si perfectamente son efectivos, estos métodos exigen fortuna computacionales significativos y pueden ser lentos y costosos de desplegar, lo que plantea preocupaciones sobre su accesibilidad e impacto ambiental.
Comprender los pequeños modelos de razonamiento
Los pequeños modelos de razonamiento tienen como objetivo replicar las capacidades de razonamiento de modelos grandes pero con una longevo eficiencia en términos de potencia computacional, uso de memoria y latencia. Estos modelos a menudo emplean una técnica emplazamiento destilación de conocimiento, donde un maniquí más pequeño (el «estudiante») aprende de un maniquí más egregio y previamente capacitado (el «músico»). El proceso de destilación implica capacitar el maniquí más pequeño en los datos generados por el más egregio, con el objetivo de transferir la capacidad de razonamiento. El maniquí de estudiante se ajusta para mejorar su rendimiento. En algunos casos, el enseñanza de refuerzo con funciones especializadas de galardón de dominio se aplica para mejorar aún más la capacidad del maniquí para realizar un razonamiento específico de tareas.
El aumento y los avances de los pequeños modelos de razonamiento
Un hito trascendente en el explicación de pequeños modelos de razonamiento caldo con el tirada de Deepseek-R1. A pesar de ser entrenado en un clúster relativamente modesto de GPU más antiguas, Deepseek-R1 logró un rendimiento comparable a modelos más grandes como Openi’s O1 en puntos de relato como MMLU y GSM-8K. Este logro ha llevado a una reconsideración del enfoque de escalera tradicional, que asumió que los modelos más grandes eran inherentemente superiores.
El éxito de Deepseek-R1 puede atribuirse a su renovador proceso de capacitación, que combinó el enseñanza de refuerzo a gran escalera sin pender del ajuste superior supervisado en las primeras fases. Esta innovación condujo a la creación de Deepseek-R1-Zero, un maniquí que demostró impresionantes habilidades de razonamiento, en comparación con los grandes modelos de razonamiento. Las mejoras adicionales, como el uso de datos de puesta en marcha en frío, mejoraron la coherencia y la ejecución de tareas del maniquí, particularmente en áreas como las matemáticas y el código.
Encima, las técnicas de destilación han demostrado ser cruciales en el explicación de modelos más pequeños y más eficientes de los más grandes. Por ejemplo, Deepseek ha animado versiones destiladas de sus modelos, con tamaños que van desde 1.500 millones a 70 mil millones de parámetros. Utilizando estos modelos, los investigadores han entrenado comparativamente un maniquí mucho más pequeño Deepseek-R1-Distill-Qwen-32b que ha superado a OpenAi’s O1-Mini en varios puntos de relato. Estos modelos ahora se pueden implementar con hardware normalizado, lo que los hace más viables para una amplia tono de aplicaciones.
¿Pueden los modelos pequeños coincidir con el razonamiento de nivel GPT?
Para evaluar si los modelos de razonamiento pequeños (SRMS) pueden igualar el poder de razonamiento de los modelos grandes (LRM) como GPT, es importante evaluar su rendimiento en puntos de relato normalizado. Por ejemplo, el maniquí Deepseek-R1 obtuvo aproximadamente de 0.844 en la prueba MMLU, comparable a modelos más grandes como O1. En el conjunto de datos GSM-8K, que se centra en las matemáticas de la escuela primaria, el maniquí destilado de Deepseek-R1 alcanzó el rendimiento de primer nivel, superando los O1 y O1-Mini.
En tareas de codificación, como las de LivecodeBench y CodeForces, los modelos destilados de Deepseek-R1 se desempeñaron de modo similar a O1-Mini y GPT-4O, lo que demuestra fuertes capacidades de razonamiento en la programación. Sin confiscación, los modelos más grandes aún tienen una delantera en las tareas que requieren una comprensión del verbo más amplia o manejar ventanas de contexto largas, ya que los modelos más pequeños tienden a ser más específicos de la tarea.
A pesar de sus fortalezas, los modelos pequeños pueden contender con tareas de razonamiento extendidas o cuando se enfrentan a datos fuera de distribución. Por ejemplo, en las simulaciones de ajedrez LLM, Deepseek-R1 cometió más errores que los modelos más grandes, lo que sugiere limitaciones en su capacidad para prolongar el enfoque y la precisión durante largos períodos.
Compensaciones e implicaciones prácticas
Las compensaciones entre el tamaño del maniquí y el rendimiento son críticas cuando se comparan SRMS con LRM de nivel GPT. Los modelos más pequeños requieren menos memoria y potencia computacional, lo que los hace ideales para dispositivos de borde, aplicaciones móviles o situaciones donde es necesaria la inferencia fuera de raya. Esta eficiencia da como resultado costos operativos más bajos, con modelos como Deepseek-R1 de hasta un 96% más saldo para funcionar que los modelos más grandes como O1.
Sin confiscación, estas ganancias de eficiencia vienen con algunos compromisos. Los modelos más pequeños generalmente se ajustan para tareas específicas, lo que puede amojonar su versatilidad en comparación con los modelos más grandes. Por ejemplo, mientras Deepseek-R1 sobresale en matemáticas y codificación, carece de capacidades multimodales, como la capacidad de interpretar imágenes, que modelos más grandes como GPT-4O pueden manejar.
A pesar de estas limitaciones, las aplicaciones prácticas de pequeños modelos de razonamiento son enormes. En la atención médica, pueden favorecer herramientas de dictamen que analizan datos médicos en servidores de hospital normalizado. En educación, se pueden utilizar para desarrollar sistemas de tutoría personalizados, proporcionando comentarios paso a paso a los estudiantes. En la investigación científica, pueden ayudar con el estudio de datos y las pruebas de hipótesis en campos como las matemáticas y la física. La naturaleza de código campechano de modelos como Deepseek-R1 además fomenta la colaboración y democratiza el comunicación a la IA, lo que permite a las organizaciones más pequeñas beneficiarse de las tecnologías avanzadas.
El resultado final
La proceso de los modelos de verbo en modelos de razonamiento más pequeños es un avance significativo en la IA. Si perfectamente estos modelos aún no coinciden completamente con las capacidades amplias de los modelos de idiomas grandes, ofrecen ventajas secreto en la eficiencia, la rentabilidad y la accesibilidad. Al conquistar un compensación entre la potencia de razonamiento y la eficiencia de los fortuna, los modelos más pequeños desempeñan un papel crucial en varias aplicaciones, lo que hace que la IA sea más destreza y sostenible para el uso del mundo verdadero.