20.8 C
Madrid
miércoles, octubre 22, 2025
spot_img
spot_img

Nuevos trabajos de investigación Pregunta de precios ‘token’ para chats de IA

Una nueva investigación muestra que la forma en que la IA ofrece elaboración de tokens oculta el costo vivo de los usuarios. Los proveedores pueden inflar en silencio los cargos mediante el ajuste de tokens o resbalando en pasos ocultos. Algunos sistemas ejecutan procesos adicionales que no afectan la salida, pero aún se muestran en la elaboración. Se han propuesto herramientas de auditoría, pero sin supervisión vivo, los usuarios quedan pagando más de lo que creen.

En casi todos los casos, lo que nosotros, como consumidores, pagamos por las interfaces de chat con IA, como ChatGPT-4O, actualmente se mide en tokens: unidades invisibles de texto que pasan desapercibidas durante el uso, pero se cuentan con precisión exacta para fines de facturación; Y aunque cada intercambio tiene un precio por el número de tokens procesados, el heredero no tiene una forma directa de confirmar el recuento.

A pesar de nuestra (en el mejor) comprensión imperfecta de lo que obtenemos para nuestra mecanismo ‘token’ comprada, la facturación basada en tokens se ha convertido en el enfoque habitual entre los proveedores, descansando en lo que puede ser una suposición precaria de confianza.

Palabras simbólicas

Un token no es lo mismo que una palabra, aunque a menudo juega un papel similar, y la mayoría de los proveedores usan el término ‘token’ para describir pequeñas unidades de texto, como palabras, signos de puntuación o fragmentos de palabras. La palabra ‘increíble’por ejemplo, podría ser contado como un solo token por un sistema, mientras que otro podría dividirlo en y, criar y capazcon cada habitación aumentando el costo.

Este sistema se aplica tanto al texto de las entradas de un heredero como la respuesta del maniquí, con el precio basado en el número total de estas unidades.

La dificultad radica en el hecho de que los usuarios No pueda ver este proceso. La mayoría de las interfaces no muestran recuentos de tokens mientras se produce una conversación, y la forma en que se calculan los tokens es difícil de reproducir. Incluso si se muestra un recuento luego Una respuesta, es demasiado tarde para enterarse si fue calibrado, creando un desajuste entre lo que el heredero ve y lo que está pagando.

La investigación flamante apunta a problemas más profundos: un estudio muestra cómo los proveedores pueden sobrecargar sin romper las reglas, simplemente inflando los recuentos de tokens de forma que el heredero no puede ver; Otro revela el desajuste entre lo que muestran las interfaces y lo que efectivamente se elaboración, dejando a los usuarios con la ilusión de la eficiencia donde puede no acontecer ningún; y un tercero expone cómo los modelos generan rutinariamente pasos de razonamiento internos que nunca se muestran al heredero, pero aún aparecen en la elaboración.

Los resultados representan un sistema que parece Preciso, con números exactos que implican claridad, pero cuya dialéctica subyacente permanece oculta. Ya sea por diseño o un defecto estructural, el resultado es el mismo: los usuarios pagan más de lo que pueden ver, y a menudo más de lo que esperan.

Más despreciado por la docena?

En el primero de estos documentos, titulado IS ¿Tu LLM te sobrecargó? Tokenización, transparencia e incentivosde cuatro investigadores del Instituto Max Planck para Software Systems, los autores argumentan que los riesgos de facturación basada en tokens se extienden más allá de la opacidad, señalando un incentivo incorporado para que los proveedores inflen los recuentos de tokens:

LEER  Las imágenes 'protegidas' son más fáciles, no más difíciles de robar con AI

‘El núcleo del problema radica en el hecho de que la tokenización de una dependencia no es única. Por ejemplo, considere que el heredero envía el aviso «¿Dónde se llevan a extremo las próximas neuripas?» Para el proveedor, el proveedor lo alimenta en un LLM, y el maniquí genera la salida «| San | Diego |» que consiste en dos tokens.

‘Hexaedro que el heredero es al margen al proceso generativo, un proveedor egoísta tiene la capacidad de informar mal la tokenización de la salida al heredero sin siquiera cambiar la dependencia subyacente. Por ejemplo, el proveedor podría simplemente compartir la tokenización «| S | a | n | | d | i | e | g | o |» ¡Y sobrecarga al heredero por nueve tokens en oficio de dos!

El documento presenta una heurística capaz de realizar este tipo de cálculo fariseo sin alterar la producción visible, y sin violar la plausibilidad en entornos de decodificación típicos. Probado en modelos de la serie Candela, Mistral y Gemma, utilizando indicaciones reales, el método logra sobrecargas medibles sin aparecer anómalos:

Inflación de tokens usando ‘mal información plausible’. Cada panel muestra el porcentaje de tokens sobrecargados resultantes de un proveedor que aplica el operación 1 a las panorama de 400 indicaciones LMSYS, bajo parámetros de muestreo variables (M y P). Todas las panorama se generaron a la temperatura 1.3, con cinco repeticiones por configuración para calcular los intervalos de confianza del 90%. Fuente: https://arxiv.org/pdf/2505.21627

Para enfrentarse el problema, los investigadores piden facturación basada en recuento de personajes En oficio de tokens, argumentando que este es el único enfoque que brinda a los proveedores una razón para informar el uso honestamente, y afirmar que si el objetivo es un precio calibrado, entonces vinculando el costo a los personajes visibles, no los procesos ocultos, es la única opción que representa el exploración. El precio basado en el personaje, argumentan, eliminarían el motivo para informar mal al tiempo que recompensan los resultados más cortos y más eficientes.

Aquí hay una serie de consideraciones adicionales, sin confiscación (en la mayoría de los casos admitidos por los autores). En primer oficio, el esquema basado en el personaje propuesto introduce una dialéctica comercial adicional que puede dispensar al proveedor sobre el consumidor:

‘(A) proveedor que nunca informa mal tiene un incentivo claro para difundir la secuencia de token de salida más corta posible y mejorar los algoritmos de tokenización de corriente como BPE, de modo que compriman la secuencia de token de salida tanto como sea posible’ ‘

El motivo animoso aquí es que se alienta al proveedor a producir un resultado conciso y más significativo y valioso. En la praxis, obviamente hay formas menos virtuosas para que un proveedor reduzca el conteo de texto.

En segundo oficio, es moderado suponer que los autores afirman que las empresas probablemente requerirían una estatuto para transitar desde el sistema de token secreto a un método de facturación más claro y basado en texto. En el futuro, una startup insurgente puede arriesgarse diferenciar su producto lanzándolo con este tipo de maniquí de precios; Pero cualquier persona con un producto verdaderamente competitivo (y que opere a una escalera más víctima que la categoría EEE) está desincentivada para hacerlo.

Finalmente, los algoritmos hurtosos como los autores proponen vendrían con su propio costo computacional; Si el consumición de calcular un ‘recargo’ excediera el beneficio de ganancias potencial, el esquema claramente no tendría mérito. Sin confiscación, los investigadores enfatizan que su operación propuesto es efectivo y financiero.

LEER  ¿Cómo utiliza la IA impactante el pensamiento crítico?

Los autores proporcionan el código para sus teorías en Github.

El interruptor

El segundo artículo, titulado Tokens invisibles, facturas visibles: la urgente condición de auditar operaciones ocultas en los servicios de Opace LLMde investigadores de la Universidad de Maryland y Berkeley, argumenta que los incentivos desalineados en las API del maniquí de idioma comercial no se limitan a la división de tokens, sino que se extienden a clases enteras de operaciones ocultas.

Estos incluyen llamadas de maniquí interno, razonamiento reflexivo, uso de herramientas e interacciones múltiples de agentes, todas las cuales pueden facturarse al heredero sin visibilidad ni memorial.

Precios y transparencia de las API de razonamiento LLM en los principales proveedores. Todos los servicios enumerados cobran a los usuarios por tokens de razonamiento interno oculto, y ningún hace que estos tokens sean visibles en tiempo de ejecución. Los costos varían significativamente, ya que el maniquí O1-Pro de OpenAI cobra diez veces más por millón de tokens que Claude Opus 4 o Gemini 2.5 Pro, a pesar de la igualdad de opacidad. Fuente: https://www.arxiv.org/pdf/2505.18471

A diferencia de la facturación convencional, donde la cantidad y la calidad de los servicios son verificables, los autores sostienen que las plataformas LLM de hoy funcionan en opacidad estructural: Los usuarios se cobran en función del uso de token y API reportados, pero no tienen medios para confirmar que estas métricas reflejan un trabajo vivo o necesario.

El documento identifica dos formas esencia de manipulación: inflación de la cantidaddonde el número de tokens o llamadas aumenta sin beneficio del heredero; y Renovación de calidaddonde los modelos o herramientas de pequeño rendimiento se utilizan en silencio en oficio de componentes premium:

‘En las API de razonamiento LLM, los proveedores a menudo mantienen múltiples variantes de la misma clan maniquí, que difieren en capacidad, datos de capacitación u táctica de optimización (por ejemplo, ChatGPT O1, O3). La descuento del maniquí se refiere a la sustitución silenciosa de los modelos de pequeño costo, lo que puede introducir desalineación entre la calidad del servicio esperado y vivo.

‘Por ejemplo, un maniquí puede ser procesado por un maniquí de pequeño tamaño, mientras que la facturación permanece sin cambios. Esta praxis es difícil de detectar para los usuarios, ya que la respuesta final aún puede parecer plausible para muchas tareas ‘.

El documento documenta casos en los que más del noventa por ciento de los tokens facturados nunca se mostraron a los usuarios, con un razonamiento interno que inflaba el uso del token en un autor longevo a vigésimo. Justificado o no, la opacidad de estos pasos niega a los usuarios cualquier cojín para evaluar su relevancia o licitud.

En los sistemas de agente, la opacidad aumenta, a medida que los intercambios internos entre los agentes de IA pueden incurrir en cargas sin afectar significativamente la salida final:

‘Más allá del razonamiento interno, los agentes se comunican intercambiando indicaciones, resúmenes e instrucciones de planificación. Cada agente interpreta las entradas de otros y genera panorama para encauzar el flujo de trabajo. Estos mensajes entre agentes pueden consumir tokens sustanciales, que a menudo no son directamente visibles para los usuarios finales.

‘Todos los tokens consumidos durante la coordinación de los agentes, incluidas las indicaciones generadas, las respuestas e instrucciones relacionadas con la aparejo, generalmente no están aparecidas al heredero. Cuando los propios agentes usan modelos de razonamiento, la facturación se vuelve aún más opaca ‘

Para malquistar estos problemas, los autores proponen un entorno de auditoría en capas que involucre pruebas criptográficas de actividad interna, marcadores verificables de identidad de maniquí o aparejo y supervisión independiente. Sin confiscación, la preocupación subyacente es estructural: los esquemas actuales de facturación de LLM dependen de un persistente desproporcionalidad de informacióndejando a los usuarios expuestos a costos que no pueden revisar o descomponer.

LEER  AI actúa de manera diferente cuando sabe que se está probando, la investigación encuentra

Contando el invisible

El documento final, de investigadores de la Universidad de Maryland, vuelve a malquistar el problema de facturación no como una cuestión de mal uso o mal información, sino de estructura. El papel, titulado Moneda: Contando los tokens de razonamiento invisible en las API comerciales de Opaco LLMy de diez investigadores de la Universidad de Maryland, observa que la mayoría de los servicios comerciales de LLM ahora ocultan el razonamiento intermedio que contribuye a la respuesta final de un maniquí, pero todavía cobra por esas fichas.

El documento afirma que esto crea una superficie de facturación no observable donde se pueden elaborar, inyectar o inflarse las secuencias enteras sin detección*:

‘(Esta) invisibilidad permite a los proveedores Informar mal el token Counts o inyectar tokens de razonamiento de bajo costo y fabricado para inflar artificialmente los recuentos de tokens. Nos referimos a esta praxis como inflación del conteo de tokens.

‘Por ejemplo, un único ARC-AGI de entrada eficiencia ejecutado por el maniquí O3 de OpenAi consumió 111 millones de tokens, que cuesta $ 66,772.3 dada esta escalera, incluso pequeñas manipulaciones pueden conducir a un impacto financiero sustancial.

«Dicha desproporcionalidad de la información permite a las compañías de IA a sobrecargar a los usuarios, socavando así sus intereses».

Para contrarrestar esta desproporcionalidad, los autores proponen Acuñarun sistema de auditoría de terceros diseñado para revisar los tokens ocultos sin revelar su contenido, y que utiliza huellas dactilares hash y controles semánticos para detectar signos de inflación.

Descripción militar del sistema de auditoría de monedas para Opaces Commercial LLMS. El panel A muestra cómo los incrustaciones de token de razonamiento se convierten en un árbol de Merkle para la comprobación del recuento de tokens sin revelar contenido de token. El panel B ilustra las verificaciones de validez semántica, donde las redes neuronales livianas comparan los bloques de razonamiento con la respuesta final. Juntos, estos componentes permiten a los auditores de terceros detectar la inflación de token oculto al tiempo que preservan la confidencialidad del comportamiento del maniquí patentado. Fuente: https://arxiv.org/pdf/2505.13778

Un componente verifica los recuentos de tokens criptográficamente utilizando un árbol de Merkle; El otro evalúa la relevancia del contenido oculto al compararlo con la inserción de la respuesta. Esto permite a los auditores detectar el relleno o la irrelevancia: señales de que los tokens se están insertando simplemente para subir la elaboración.

Cuando se implementa en las pruebas, Coin logró una tasa de éxito de detección de casi el 95% para algunas formas de inflación, con una exposición mínima de los datos subyacentes. Aunque el sistema aún depende de la cooperación voluntaria de los proveedores, y tiene una resolución limitada en casos de borde, su punto más amplio es inconfundible: la cimentación misma de la facturación coetáneo de LLM asume una honestidad que no se puede revisar.

Conclusión

Encima de la preeminencia de obtener el plazo por plazo de los usuarios, una moneda basada en scrip (como el sistema ‘Buzz’ en Civitai) ayuda a generalizar a los usuarios allá del seguro valencia de la moneda que están gastando o el producto que están comprando. Del mismo modo, dar a un proveedor beneficio de maniobra para fijar sus propias unidades de medición deja aún más al consumidor en la oscuridad sobre lo que efectivamente están gastando, en términos de monises vivo.

Al igual que la equivocación de relojes en Las Vegas, las medidas de este tipo a menudo tienen como objetivo hacer que el consumidor sea imprudente o indiferente al costo.

El casi nada entendido simbólicoque se puede consumir y fijar de muchas maneras, quizás no sea una mecanismo de medición adecuada para el consumo de LLM, sobre todo porque puede costar muchas veces más tokens calcular un resultado más escaso de LLM en un idioma no inglés, en comparación con una sesión basada en inglés.

Sin confiscación, la producción basada en el carácter, como lo sugiren los investigadores de Max Planck, probablemente favorecería los idiomas más concisos y penalizaría los idiomas lógicamente verbosos. Hexaedro que las indicaciones visuales como un mostrador de token depreciación probablemente nos harían un poco más derrochadores en nuestras sesiones de LLM, parece poco probable que tales adiciones de GUI bártulos lleguen pronto, al menos sin acciones legislativas.

* Energía de los autores. Mi conversión de las citas en renglón de los autores a hipervínculos.

Publicado por primera vez el jueves 29 de mayo de 2025

spot_img

Artículos relacionados

spot_img

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Últimos artículos