Esta es la IA local más rápida que he probado, y ni siquiera está cerca, cómo conseguirlo

agosto 20, 2025

51

Tabla de contenido

Takeaways de picaporte de conectamentado

El maniquí GPT-OSS: 20B es muy rápido.
Obtendrá respuestas rápidas a sus consultas con GPT-OSS: 20B.
Con la última traducción de Ollama instalada, puede usar este maniquí.

Obtenga una cobertura tecnológica ZDNet más profunda: Agréguenos como una fuente de Google preferida en navegadores de cromo y cromo.

Hablemos de la IA restringido y la velocidad. Hay muchos factores que obtienen la longevo velocidad de su IA, como:

Si tiene una GPU dedicada.
La largo de contexto que usa (cuanto más pequeña, más rápida).
La complejidad de su consulta.
El LLM que usas.

He probado bastantes LLM locales diferentes, usando Ollama en Linux y MacOS, y recientemente me he antitético con uno que voló a todos los demás, con respecto a la velocidad. Ese maniquí es GPT-OSS: 20b. Descubrí que en Linux y MacOS, ese maniquí está desvaído más rápido que los otros que he usado. Este maniquí genera 30 tokens por segundo.

Asimismo: My Go -to LLM Tool acaba de dejar caer una aplicación de Mac y PC súper simple para la IA restringido: por qué debería probarla

¿Qué es un token? Piense en ellas como piezas de palabras utilizadas para el procesamiento del verbo natural. Por ejemplo, con el texto en inglés, 1 token es de aproximadamente 4 caracteres o 0.75 palabras, lo que significa GPT-OSS: 20B puede procesar 120 caracteres por segundo.

Eso no es malo.

Considere una traducción localizada de Llama3.2, que puede conquistar en torno a de 14 fichas por segundo. ¿Ves la diferencia?

LEER El mejor software CRM gratuito de 2025: experto probado

Ok, ahora que (con suerte) te he convencido de que GPT-OSS: 20B es el camino a seguir, ¿cómo lo usas como LLM restringido?

Cómo desempolvar Ollama

Lo que necesitarás: Para que esto funcione, necesitará una traducción en ejecución de Ollama (no importa qué sistema eficaz de escritorio esté utilizando) o deberá instalarlo de nuevo.

Si está utilizando Linux, puede desempolvar Ollama con el mismo comando utilizado para instalarlo, que es:

Curl -fssl https://ollama.com/install.sh | mierda

Para desempolvar Ollama en MacOS o Windows, simplemente descargaría el instalador binario, lo iniciaría y seguiría los pasos como se describe en el asistente. Si recibe un error de que no se puede instalar porque Ollama todavía se está ejecutando, deberá detener a Ollama ayer de ejecutar el instalador. Para detener a Ollama, puede encontrarlo en el preceptor de proceso de su sistema eficaz o ejecutar el comando:

Osascript -e ‘Tell la aplicación «Ollama» para dejar de fumar’

En Windows, ese comando sería:

TaskKill /im Ollama.exe /F

Es posible que te encuentres con un problema. Si, luego de desempolvar, recibe un error (al extraer GPT-ASS) que necesita para ejecutar la última traducción de Ollama, tendrá que instalar la última iteración de la página de Ollama Github. Cómo lo haces dependerá del sistema eficaz que uses.

Asimismo: cómo alimento mis archivos a una IA restringido para respuestas mejor y más relevantes

Es necesario ejecutar al menos Ollama Lectura 0.11.4 para usar los modelos GPT-ASS.

Cómo tirar del GPT-OSS LLM

El ulterior paso es extraer el LLM de la lista de comando. Recuerde, el maniquí que estamos buscando es GPT-OSS: 20B, que tiene aproximadamente 13 GB de tamaño. Asimismo está el maniquí más magnate, GPT-OSS: 120B, pero ese requiere más de 60 GB de RAM para funcionar correctamente. Si su máquina tiene menos de 60 GB de RAM, quédese con 20B.

LEER Respondí la pregunta del millón de dólares sobre los servicios de almacenamiento en la nube: aquí está mi consejo experto

Asimismo: cómo ejecutar Deepseek Ai localmente para proteger su privacidad – 2 maneras fáciles

Para extraer el LLM, ejecute el ulterior comando (independientemente del sistema eficaz):

Ollama Pull GPT-ASS: 20B

Dependiendo de la velocidad de su red, esto tardará unos minutos en completarse.

Cómo usar GPT-OSS

Ok, ahora que has actualizado Ollama y ha sacado el LLM, puedes usarlo. Si interactúa con Ollama desde la lista de comando, ejecute el maniquí con:

Ollama Run GPT-ASS: 20B

Una vez que esté en la consola Ollama, puede comenzar a consultar el LLM recién auxiliar.

Si usa la aplicación Ollama GUI (en macOS o Windows), debería poder escoger GPT-OSS: 20B del desplegable del maniquí en la aplicación.

Encima: probé la aplicación de IA restringido de Sanctum, y es exactamente lo que necesitaba para apoyar mis datos privados

Y eso es todo lo que hay para hacer uso del LLM restringido más rápido que he probado hasta la época.

Etiquetas
Softwire y aplicaciones

Artículo anterior

Obtenga Windows 10 ISO ahora mismo antes de que sea demasiado tarde

Artículo siguiente

Corea del Norte utiliza GitHub en ataques cibernéticos diplomáticos mientras el esquema de trabajadores de TI alcanza más de 320 empresas

Esta es la IA local más rápida que he probado, y ni siquiera está cerca, cómo conseguirlo

Takeaways de picaporte de conectamentado

Cómo desempolvar Ollama

Cómo tirar del GPT-OSS LLM

Cómo usar GPT-OSS

Artículos relacionados

La nueva vulnerabilidad de Chrome permite que las extensiones maliciosas aumenten...

El otrora querido PCLinuxOS ha vuelto, y sigue siendo un gran...

¿No eres fanático de macOS 26? Aquí se explica cómo bloquear...

DEJA UNA RESPUESTA Cancelar respuesta

Últimos artículos

La nueva vulnerabilidad de Chrome permite que las extensiones maliciosas aumenten...

El otrora querido PCLinuxOS ha vuelto, y sigue siendo un gran...

¿No eres fanático de macOS 26? Aquí se explica cómo bloquear...

Cómo limpiar la carpeta WinSxS en Windows de la manera correcta

SD-WAN de día 0, CVE críticos, Telegram Probe, SDK de proxy...