OpiniΓ³n Un interesante sumisiΓ³n de IBM Neurips 2024 de finales de 2024 resurgiΓ³ en ARXIV la semana pasada. Propone un sistema que puede intervenir automΓ‘ticamente para proteger a los usuarios de dirigir informaciΓ³n personal o confidencial en un mensaje cuando tienen una conversaciΓ³n con un maniquΓ de idioma ancho (LLM) como ChatGPT.
Ejemplos de maqueta utilizados en un estudio de beneficiario para determinar las formas en que las personas preferirΓan interactuar con un servicio de intervenciΓ³n inmediata. Fuente: https://arxiv.org/pdf/2502.18509
Los simulacros que se muestran anteriormente fueron empleados por los investigadores de IBM en un estudio para probar la fricciΓ³n potencial del beneficiario a este tipo de ‘interferencia’.
Aunque se dan detalles escasos sobre la implementaciΓ³n de la GUI, podemos suponer que dicha funcionalidad podrΓa incorporarse a un complemento de navegador que se comunica con un Γ‘mbito LLM especΓfico ‘Firewall’; O que se podrΓa crear una aplicaciΓ³n que puede conectarse directamente a (por ejemplo) la API de OpenAI, recreando efectivamente el software independiente descargable de OpenAI para ChatGPT, pero con salvaguardas adicionales.
Dicho esto, el chatgpt en sΓ mismo automΓ‘ticamente autocensora las respuestas a las indicaciones que percibe que contienen informaciΓ³n crΓtica, como los detalles bancarios:
ChatGPT se niega a interactuar con las indicaciones que contienen informaciΓ³n de seguridad crΓtica percibida, como los datos bancarios (los detalles en el mensaje preparatorio son ficticios y no funcionales). Fuente: https://chatgpt.com/
Sin confiscaciΓ³n, el chatGPT es mucho mΓ‘s tolerante con respecto a los diferentes tipos de informaciΓ³n personal, incluso si difundir dicha informaciΓ³n de alguna forma podrΓa no ser en el mejor interΓ©s del beneficiario (en este caso quizΓ‘s por varias razones relacionadas con el trabajo y la divulgaciΓ³n):
El ejemplo preparatorio es ficticio, pero ChatGPT no duda en entablar una conversaciΓ³n sobre el beneficiario sobre un tema sensible que constituye un aventura potencial de reputaciΓ³n o ganancias (el ejemplo preparatorio es totalmente ficticio).
En el caso preparatorio, podrΓa sobrevenir sido mejor escribir: «¿CuΓ‘l es el significado de un diagnosis de leucemia sobre la capacidad de una persona para escribir y sobre su movilidad?Β»
El esquema IBM identifica y reinterpreta tales solicitudes de una postura ‘personal’ a una ‘genΓ©rica’.
Esquema para el sistema IBM, que utiliza LLM locales o heurΓsticas basadas en PNL para identificar material sensible en posibles indicaciones.
Esto supone que el material reunido por las LLM en rasgo, en esta etapa incipiente de la entusiasta admisiΓ³n del chat AI del divulgado, nunca se alimentarΓ‘ a modelos posteriores ni a los marcos publicitarios posteriores que podrΓan explotar consultas de bΓΊsqueda basadas en los usuarios para proporcionar publicidad potencial dirigida.
Aunque ahora no se sabe que tal sistema o arreglo exista, siquiera tal funcionalidad todavΓa estaba habitable en los amanecer de la admisiΓ³n de Internet a principios de la tΓ©rmino de 1990; Desde entonces, el intercambio cruzado de informaciΓ³n para surtir la publicidad personalizada ha llevado a diversos escΓ‘ndalos, asΓ como a la paranoia.
Por lo tanto, la historia sugiere que serΓa mejor desinfectar entradas de inmediato LLM ahora, ayer de que dichos datos se acumulen en el cuerpo, y ayer de que nuestros envΓos basados ββen LLM terminen en bases de datos cΓclicas permanentes y/o modelos, u otras estructuras y esquemas basados ββen informaciΓ³n.
ΒΏAcuΓ©rdate de mΓ?
Un ejecutor con un soporte contra el uso de indicaciones de LLM ‘genΓ©ricas’ o desinfectadas es que, francamente, la facilidad para personalizar un costoso LLM de API como chatGPT es congruo convincente, al menos en el estado coetΓ‘neo de la tΓ©cnica, pero esto puede implicar la exposiciΓ³n a liberal plazo de la informaciΓ³n privada.
Con frecuencia le pido a ChatGPT que me ayude a formular scripts de Windows PowerShell y archivos BAT para automatizar los procesos, asΓ como en otros asuntos tΓ©cnicos. Con este fin, me parece ΓΊtil que el sistema memorice permanentemente detalles sobre el hardware que tengo habitable; mis competencias de habilidades tΓ©cnicas existentes (o error de ellas); y varios otros factores ambientales y reglas personalizadas:
ChatGPT permite a un beneficiario desarrollar un ‘gusto’ de saludos que se aplicarΓ‘n cuando el sistema considera las respuestas a futuras indicaciones.
Inevitablemente, esto mantiene informaciΓ³n sobre mΓ almacenada en servidores externos, sujetos a tΓ©rminos y condiciones que pueden progresar con el tiempo, sin ninguna seguro de que OpenAi (aunque podrΓa ser cualquier otro proveedor importante de LLM) respetarΓ‘ los tΓ©rminos que establecen.
En genΓ©rico, sin confiscaciΓ³n, la capacidad de construir un gusto de saludos en ChatGPT es mΓ‘s ΓΊtil conveniente a la ventana de atenciΓ³n limitada de LLM en genΓ©rico; Sin incrustaciones a liberal plazo (personalizados), el beneficiario siente, frustrantemente, que estΓ‘ conversando con una entidad que sufre de amnesia anterΓ³grada.
Es difΓcil aseverar si los modelos mΓ‘s nuevos eventualmente serΓ‘n adecuados para proporcionar respuestas avΓos sin la carencia de juntar saludos o crear GPT personalizados que se almacenan en rasgo.
Amnesia temporal
Aunque uno puede hacer que las conversaciones de ChatGPT Β«temporalesΒ» sean avΓos tener el historial de chat como relato que se pueda destilarse, cuando el tiempo lo permite, en un registro especΓfico mΓ‘s coherente, tal vez en una plataforma de toma de notas; Pero en cualquier caso, no podemos memorizar exactamente quΓ© sucede con estos chats ‘descartados’ (aunque OpenAI afirma que no se utilizarΓ‘n para el entrenamiento, no afirma que estΓ©n destruidos), segΓΊn la infraestructura de ChatGPT. Todo lo que sabemos es que los chats ya no aparecen en nuestra historia cuando se encienden ‘chats temporales’ en ChatGPT.
Varias controversias recientes indican que los proveedores basados ββen API, como OpenAI, no deben quedarse necesariamente a cargo de proteger la privacidad del beneficiario, incluido el descubrimiento de la memorizaciΓ³n emergente, lo que significa que los LLM mΓ‘s grandes tienen mΓ‘s probabilidades usar.
Piensa diferente
Esta tensiΓ³n entre la utilidad extrema y el aventura potencial manifiesto de LLM necesitarΓ‘ algunas soluciones inventivas, y la propuesta de IBM parece ser una plantilla bΓ‘sica interesante en esta rasgo.
Tres reformulaciones basadas en IBM que equilibran la utilidad contra la privacidad de los datos. En la costado mΓ‘s desvaloraciΓ³n (rosa), vemos un aviso que estΓ‘ mΓ‘s allΓ‘ de la capacidad del sistema para desinfectar de una forma significativa.
El enfoque de IBM intercepta los paquetes salientes a un LLM a nivel de red y los reescribe segΓΊn sea necesario ayer de que se pueda dirigir el innovador. Las integraciones de GUI congruo mΓ‘s elaboradas vistas al principio del artΓculo son solo ilustrativas de dΓ³nde podrΓa ir dicho enfoque, si se desarrolla.
Por supuesto, sin una agencia suficiente, el beneficiario puede no entender que estΓ‘ recibiendo una respuesta a una reformulaciΓ³n sutilmente alterada de su presentaciΓ³n innovador. Esta error de transparencia es equivalente a la firewall de un sistema operante que bloquea el acercamiento a un sitio web o servicio sin informar al beneficiario, quien luego puede despabilarse errΓ³neamente otras causas del problema.
Indica como pasivos de seguridad
La perspectiva de la ‘intervenciΓ³n rΓ‘pida’ analogiza admisiblemente a Windows OS Security, que ha evolucionado de un baldosa de productos comerciales (opcionalmente instalados) en la tΓ©rmino de 1990 a un conjunto de herramientas de defensa de redes no opcionales y rΓgidamente forzadas que vienen como unificado con una instalaciΓ³n de Windows, y que requieren un esfuerzo para apagar o desinsensificar.
Si la desinfecciΓ³n rΓ‘pida evoluciona a medida que los firewalls de la red lo hicieron en los ΓΊltimos 30 primaveras, la propuesta del artΓculo de IBM podrΓa servir como un plan para el futuro: implementar un LLM totalmente especΓfico en la mΓ‘quina del beneficiario para filtrar las indicaciones salientes dirigidas a las API LLM conocidas. LΓ³gicamente, este sistema necesitarΓa integrar marcos y notificaciones de la GUI, dando al control de los usuarios, a menos que las polΓticas administrativas lo anulen, como se produce a menudo en los entornos empresariales.
Los investigadores realizaron un investigaciΓ³n de una lectura de cΓ³digo hendido del conjunto de datos ShareGPT para comprender con quΓ© frecuencia se viola la privacidad contextual en los escenarios del mundo verdadero.
Apasionamiento-3.1-405B-Instructo se empleó como un maniquà de «Ñrbitro» para detectar violaciones de integridad contextual. A partir de un gran conjunto de conversaciones, se analizó un subconjunto de conversaciones de reverso única en función de la largura. El maniquà de Ñrbitro luego evaluó el contexto, la información confidencial y la carencia de completar la tarea, lo que lleva a la identificación de conversaciones que contienen posibles violaciones de integridad contextual.
Un subconjunto mΓ‘s pequeΓ±o de estas conversaciones, que demostrΓ³ violaciones de privacidad contextuales definitivas, se analizaron mΓ‘s a fondo.
El Γ‘mbito en sΓ se implementΓ³ utilizando modelos mΓ‘s pequeΓ±os que los agentes de chat tΓpicos como ChatGPT, para habilitar la implementaciΓ³n especΓfico a travΓ©s de Ollama.
Esquema para el sistema de intervenciΓ³n inmediata.
Los tres LLM evaluados fueron MIXTRAL-8X7B-INSTRUCT-V0.1; Apasionamiento-3.1-8b-Instructo; y Deepseek-R1-Distill-Apasionamiento-8B.
Las indicaciones del beneficiario son procesadas por el Γ‘mbito en tres etapas: IdentificaciΓ³n de contexto; ClasificaciΓ³n de informaciΓ³n confidencial; y reformulaciΓ³n.
Se implementaron dos enfoques para la clasificaciΓ³n de informaciΓ³n confidencial: dinΓ‘mica y estructurado ClasificaciΓ³n: la clasificaciΓ³n dinΓ‘mica determina los detalles esenciales basados ββen su uso adentro de una conversaciΓ³n especΓfica; La clasificaciΓ³n estructurada permite la explicaciΓ³n de una cinta predefinida de atributos sensibles que siempre se consideran no esenciales. El maniquΓ reformula el aviso si detecta detalles sensibles no esenciales al eliminarlos o retornar a redactarlos para minimizar los riesgos de privacidad mientras mantiene la usabilidad.
Reglas de inicio
Aunque la clasificaciΓ³n estructurada como concepto no estΓ‘ admisiblemente ilustrada en el documento de IBM, es mΓ‘s similar al mΓ©todo de ‘definiciones de datos privados’ en la iniciativa de indicaciones privadas, que proporciona un software independiente descargable que puede reescribir indicaciones, aunque sin la capacidad de intervenir directamente en el nivel de red, como lo hace el enfoque de IBM (en su oportunidad, el beneficiario debe copiar y pegar las indicaciones modificadas).
El ejecutable de indicaciones privadas permite una cinta de sustituciones alternativas para el texto de entrada de beneficiario.
En la imagen de en lo alto, podemos ver que el beneficiario privado de indicaciones puede programar sustituciones automatizadas para instancias de informaciΓ³n confidencial. En uno y otro casos, para las indicaciones privadas y el mΓ©todo IBM, parece poco probable que un beneficiario con suficiente presencia de mente y visiΓ³n personal para curar dicha cinta efectivamente necesitarΓa este producto, aunque podrΓa construirse con el tiempo como incidentes.
En un rol de administrador, la clasificaciΓ³n estructurada podrΓa funcionar como un firewall impuesto o una red de censores para los empleados; Y en una red domΓ©stica podrΓa, con algunos ajustes difΓciles, convertirse en un filtro de red domΓ©stico para todos los usuarios de la red; Pero en ΓΊltima instancia, este mΓ©todo es posiblemente redundante, ya que un beneficiario que podrΓa configurar esto correctamente ademΓ‘s podrΓa autocensor de forma efectiva en primer oportunidad.
OpiniΓ³n de Chatgpt
Desde que ChatGPT lanzΓ³ recientemente su aparejo de investigaciΓ³n profunda para usuarios pagados, utilicΓ© esta instalaciΓ³n para pedirle a ChatGPT que revisara la letras relacionada y me diera una lectura ‘cΓnica’ del artΓculo de IBM. RecibΓ la respuesta mΓ‘s defensiva y burlona que el sistema ha cedido cuando se me pidiΓ³ que evalΓΊe o analicara una nueva publicaciΓ³n:
CHATGPT-4O tiene una desvaloraciΓ³n opiniΓ³n del esquema IBM.
Β«Si los usuarios no confΓan en OpenAi, Google o Anthrope para manejar sus datos de forma responsableΒ», Chatgpt postula. ‘ΒΏPor quΓ© confiarΓan en una capa de software de terceros que se encuentra entre ellos y la IA? El intermediario en sΓ se convierte en un nuevo punto de error, lo que puede registrar, mal manejo o incluso filtrar datos ayer de que llegue a la LLM. No resuelve cero si solo crea otra entidad para explotar los datos del beneficiario ‘.
Esta pega parece egoΓsta y no aplicable, dada la historia histΓ³rica de proyectos de cΓ³digo hendido que efectivamente benefician a los usuarios finales a travΓ©s de los esfuerzos concertados a liberal plazo de desarrolladores y contribuyentes de la comunidad; y cedido el creciente potencial de los dispositivos mΓ³viles para ejecutar, e incluso entrenar, LLMS livianos. Ciertamente, en este caso, el caso de uso no es terriblemente estricto.
A continuaciΓ³n, ChatGPT se pierde con confianza el punto de que un LLM tenue proporcione una supervisiΓ³n de los aportes alrededor de un LLM comercial que no podrΓa ejecutarse en una mΓ‘quina especΓfico (porque el LLM es demasiado ancho, y permitir que el acercamiento especΓfico sea demasiado riesgoso para la compaΓ±Γa que lo hace):
‘El filtrado de privacidad efectivo requiere comprender la entrada ayer de lanzarse quΓ© despojar. Si un intermediario es lo suficientemente inteligente como para cachear datos confidenciales (nombres, direcciones, detalles financieros), entonces ya estΓ‘ procesando y analizando esos datos, lo que significa que tiene que juntar o examinar lo que se supone que debe borrar.
‘Esto introduce una paradoja: a) un filtro tonto (sustituciΓ³n bΓ‘sica de regex) serΓ‘ ineficaz y perderΓ‘ riesgos de privacidad sutiles. b) Un filtro inteligente (rewriter con motor LLM) tiene que procesar la entrada completa, por lo que es tan peligroso como el LLM innovador.
Β«Si confΓa en el intermediario lo suficiente como para estudiar y reescribir sus aportes, ΒΏpor quΓ© no encomendar en el LLM en sΓ?Β»
La respuesta a la pregunta final aquΓ es que el LLM especΓfico estΓ‘ destinado a estar completamente del banda del beneficiario e inevitablemente de cΓ³digo hendido, con una carencia mΓnima o cero de acercamiento a la red. Una lectura comercial equivalente, por admisiblemente intencionada desde el principio, eventualmente serΓa delicado a los cambios y cambios corporativos a los tΓ©rminos de servicio, mientras que una deshonestidad de cΓ³digo hendido adecuada evitarΓa este tipo de ‘corrupciΓ³n fatal’.
ChatGPT argumentΓ³ por otra parte que la propuesta de IBM ‘rompe la intenciΓ³n del beneficiario’, ya que podrΓa reinterpretar una solicitud en una alternativa que afecta su utilidad. Sin confiscaciΓ³n, este es un problema mucho mΓ‘s amplio en la rΓ‘pida desinfecciΓ³n, y no es especΓfico de este caso de uso en particular.
Al finalizar (ignorar su sugerencia de usar LLMS locales ‘en su oportunidad’, que es exactamente lo que el artΓculo de IBM efectivamente propone), ChatGPT opinΓ³ que el mΓ©todo IBM representa una barrera para la admisiΓ³n conveniente a la ‘fricciΓ³n del beneficiario’ de implementar mΓ©todos de advertencia y estampaciΓ³n en un chat.
AquΓ, Chatgpt puede tener razΓ³n; Pero si se produce una presiΓ³n significativa conveniente a otros incidentes pΓΊblicos, o si las ganancias en una zona geogrΓ‘fica estΓ‘n amenazadas por la creciente regulaciΓ³n (y la compaΓ±Γa se niega a desamparar la regiΓ³n afectada por completo), la historia de la tecnologΓa del consumidor sugiere que las salvaguardas eventualmente ya no serΓ‘n opcionales de todos modos.
ConclusiΓ³n
No podemos esperar de forma realista que Operai implemente salvaguardas del tipo que se proponen en el documento de IBM, y en el concepto central detrΓ‘s de Γ©l; al menos no efectivamente.
Y ciertamente no a nivel mundial; AsΓ como Apple bloquea ciertas caracterΓsticas de iPhone en Europa, y LinkedIn tiene diferentes reglas para explotar los datos de sus usuarios en diferentes paΓses, es moderado sugerir que cualquier compaΓ±Γa de IA no se adhiera a los tΓ©rminos y condiciones mΓ‘s rentables que son tolerables a cualquier naciΓ³n en particular en la que opera, en cada caso, a desembolso del derecho del beneficiario a la privacidad de datos, segΓΊn sea necesario.
Publicado por primera vez el jueves 27 de febrero de 2025
Actualizado el jueves 27 de febrero de 2025 15:47:11 conveniente a un enlace incorrecto relacionado con Apple-MA