¿Cómo piensa Claude? La búsqueda de Anthrope para desbloquear la caja negra de AI

abril 3, 2025

19

Tabla de contenido

Los modelos de idiomas grandes (LLM) como Claude han cambiado la forma en que usamos la tecnología. Entran herramientas como chatbots, ayudan a escribir ensayos e incluso a crear poesía. Pero a pesar de sus sorprendentes habilidades, estos modelos siguen siendo un ocultación en muchos sentidos. Las personas a menudo los llaman una «caja negra» porque podemos ver lo que dicen, pero no cómo lo descubren. Esta equivocación de comprensión crea problemas, especialmente en áreas importantes como la medicina o la ley, donde los errores o los prejuicios ocultos podrían causar daños reales.

Comprender cómo funcionan los LLM es esencial para gestar confianza. Si no podemos explicar por qué un maniquí dio una respuesta particular, es difícil entregarse en manos en sus resultados, especialmente en áreas sensibles. La interpretabilidad igualmente ayuda a identificar y fijar sesgos o errores, asegurando que los modelos sean seguros y éticos. Por ejemplo, si un maniquí favorece consistentemente ciertos puntos de presencia, aprender por qué puede ayudar a los desarrolladores a corregirlo. Esta privación de claridad es lo que impulsa la investigación para que estos modelos sean más transparentes.

Anthrope, la compañía detrás de Claude, ha estado trabajando para rajar esta caja negra. Han hecho un progreso emocionante en descubrir cómo piensan los LLM, y este artículo explora sus avances para hacer que los procesos de Claude sean más fáciles de entender.

Mapeo de los pensamientos de Claude

A mediados de 2014, el equipo de Anthrope hizo un emocionante avance. Crearon un «planisferio» primordial de cómo Claude procesa la información. Utilizando una técnica convocatoria Diccionario Learning, encontraron millones de patrones en el «cerebro» de Claude, su red neuronal. Cada patrón, o «característica», se conecta a una idea específica. Por ejemplo, algunas características ayudan a Claude Spot Cities, personas famosas o errores de codificación. Otros se unen a los temas más complicados, como el sesgo de especie o el secreto.

LEER 6 nuevas características de proyectos de chatgpt que necesita saber

Los investigadores descubrieron que estas ideas no están aisladas adentro de las neuronas individuales. En cambio, se extienden a través de muchas neuronas de la red de Claude, con cada neurona contribuyendo a varias ideas. Esa superposición hizo que antrópico fuera difícil de descubrir estas ideas en primer superficie. Pero al detectar estos patrones recurrentes, los investigadores de Anthrope comenzaron a decodificar cómo Claude organiza sus pensamientos.

Rastreando el razonamiento de Claude

A continuación, Anthrope quería ver cómo Claude usa esos pensamientos para tomar decisiones. Recientemente construyeron una útil convocatoria Atribution Graphs, que funciona como una consejero paso a paso para el proceso de pensamiento de Claude. Cada punto en el expresivo es una idea que se ilumina en la mente de Claude, y las flechas muestran cómo una idea fluye a la subsiguiente. Este expresivo permite a los investigadores rastrear cómo Claude convierte una pregunta en una respuesta.

Para comprender mejor el funcionamiento de los gráficos de atribución, considere este ejemplo: cuando se le pregunte: «¿Cuál es la hacienda del estado con Dallas?» Claude tiene que darse cuenta de que Dallas está en Texas, luego recuerda que la hacienda de Texas es Austin. El expresivo de atribución mostró este proceso exacto, una parte de Claude afectado «Texas», que llevó a otra parte a nominar «Austin». El equipo incluso lo probó ajustando la parte «Texas», y efectivamente, cambió la respuesta. Esto muestra que Claude no solo adivina, está trabajando en el problema, y ahora podemos ver que suceda.

Por qué esto importa: una parecido de las ciencias biológicas

Para ver por qué esto importa, es conveniente pensar en algunos desarrollos importantes en las ciencias biológicas. Así como la invención del microscopio permitió a los científicos descubrir células, los bloques de construcción ocultos de la vida, estas herramientas de interpretación están permitiendo a los investigadores de IA descubrir los componentes básicos de los modelos de pensamiento adentro. Y así como mapear los circuitos neuronales en el cerebro o secuenciar el genoma pavimentado para avances en medicina, mapear el funcionamiento interno de Claude podría allanar el camino para una inteligencia sintético más confiable y controlable. Estas herramientas de interpretabilidad podrían desempeñar un papel vitalista, ayudándonos a mirar al proceso de pensamiento de los modelos de IA.

LEER Exponer ediciones de IA pequeñas pero significativas en video real

Los desafíos

Incluso con todo este progreso, todavía estamos allí de comprender completamente los LLM como Claude. En este momento, los gráficos de atribución solo pueden explicar sobre uno de cada cuatro de las decisiones de Claude. Si acertadamente el planisferio de sus características es impresionante, cubre solo una parte de lo que sucede adentro del cerebro de Claude. Con miles de millones de parámetros, Claude y otros LLM realizan innumerables cálculos para cada tarea. Rastrear cada uno para ver cómo se forma una respuesta es como tratar de seguir cada neurona que dispara en un cerebro humano durante un solo pensamiento.

Además está el desafío de «irrealidad». A veces, los modelos de IA generan respuestas que suenan plausibles pero que en existencia son falsas, como afirmar con confianza un hecho incorrecto. Esto ocurre porque los modelos se basan en patrones de sus datos de entrenamiento en superficie de una verdadera comprensión del mundo. Comprender por qué se dedican a la fabricación sigue siendo un problema difícil, destacando las brechas en nuestra comprensión de su funcionamiento interno.

El sesgo es otro obstáculo significativo. Los modelos de IA aprenden de vastos conjuntos de datos raspados de Internet, que transportan inherentemente sesgos humanos: esterotipos, prejuicios y otros defectos sociales. Si Claude recoge estos sesgos de su entrenamiento, puede reflejarlos en sus respuestas. Desempacar dónde se originan estos sesgos y cómo influyen en el razonamiento del maniquí es un desafío complicado que requiere soluciones técnicas y una cuidadosa consideración de los datos y la ética.

El resultado final

El trabajo de Anthrope para hacer modelos de idiomas grandes (LLM) como Claude es más comprensible es un paso significativo en la transparencia de IA. Al revelar cómo Claude procesa la información y toma decisiones, están enviando para asaltar las preocupaciones esencia sobre la responsabilidad de la IA. Este progreso abre la puerta a la integración segura de LLM en sectores críticos como la atención médica y la ley, donde la confianza y la ética son vitales.

LEER Foundation respaldado por el MIT EGI debuta ingeniería de inteligencia general para transformar la fabricación

A medida que se desarrollan los métodos para mejorar la interpretabilidad, las industrias que han sido cautelosas con la prohijamiento de IA ahora pueden reconsiderar. Los modelos transparentes como Claude proporcionan un camino claro en torno a el futuro de la IA, máquinas que no solo replican la inteligencia humana sino que igualmente explican su razonamiento.

Etiquetas
Noticias de IA

Artículo anterior

iOS 18.4 incluye una nueva configuración de privacidad de servicios de ubicación para su iPhone

Artículo siguiente

Legacy Stripe API explotada para validar tarjetas de pago robadas en la campaña de skimmer web

¿Cómo piensa Claude? La búsqueda de Anthrope para desbloquear la caja negra de AI

Mapeo de los pensamientos de Claude

Rastreando el razonamiento de Claude

Por qué esto importa: una parecido de las ciencias biológicas

Los desafíos

El resultado final

Artículos relacionados

Los investigadores identifican PassiveNeuron APT utilizando el malware Neursite y NeuralExecutor

Por qué la seguridad inalámbrica privada es ahora una prioridad para...

Docker versus máquina virtual: cuál debería usar

DEJA UNA RESPUESTA Cancelar respuesta

Últimos artículos

Los investigadores identifican PassiveNeuron APT utilizando el malware Neursite y NeuralExecutor

Por qué la seguridad inalámbrica privada es ahora una prioridad para...

Docker versus máquina virtual: cuál debería usar

El nuevo Asmi Linux me pareció rápido y divertido de usar,...

Los piratas informáticos utilizaron el malware Snappybee y un defecto de...