Una colaboración entre los investigadores en los Estados Unidos y Canadá ha incompatible que los modelos de idiomas grandes (LLM) como ChatGPT luchan por reproducir modismos históricos sin una extensión previa extensa, un proceso costoso y profesional que es intensivo que se encuentra más allá de la mayoría de las iniciativas académicas o de entretenimiento, que hace proyectos como completar el final de Charles Dickens final, la nota poco inferior efectivamente a través de una propuesta de IA no considerable.
Los investigadores exploraron una variedad de métodos para gestar texto que sonado Históricamente preciso, comenzando con una simple solicitud utilizando prosa de principios del siglo XX, y pasando a ajustar un maniquí comercial en una pequeña colección de libros de ese período.
Igualmente compararon los resultados con un maniquí separado que había sido entrenado por completo en libros publicados entre 1880 y 1914.
En la primera de las pruebas, instruyendo a Chatgpt-4o a imitar guardabarros–de–siglo El estilo produjo resultados proporcionado diferentes de los del maniquí más pequeño basado en GPT2 que había sido fino en la letras a partir del período:
Se le pidió que complete un texto histórico actual (centro superior), incluso un ChatGPT-4O de bienvenida (debajo a la izquierda) no puede ayudar a retornar al modo ‘Blog’, no representar el idioma solicitado. Por el contrario, el maniquí GPT2 cabal (inferior a la derecha) captura admisiblemente el estilo del estilo, pero no es tan preciso de otras maneras. Fuente: https://arxiv.org/pdf/2505.00030
Aunque el ajuste fino acerca la salida al estilo innovador, los lectores humanos todavía podían detectar rastros de estilo o ideas modernas, lo que sugiere que incluso los modelos cuidadosamente ajustados continúan reflejando la influencia de sus datos de capacitación contemporáneos.
Los investigadores llegan a la frustrante conclusión de que no hay atajos económicos con destino a la coexistentes de texto histórico o diálogo histórico de corrección de guisa idiomática producida por máquina. Igualmente conjeturan que el desafío en sí podría estar mal plenado:
‘(Nosotros) igualmente deberíamos considerar la posibilidad de que el anacronismo pueda ser ineludible en cierto sentido. Ya sea que representemos el pasado al ajustar los modelos históricos para que puedan permanecer conversaciones, o enseñando modelos contemporáneos para ventriloquización de un período aludido, puede ser necesario algún compromiso entre los objetivos de autenticidad y fluidez de conversación.
«Luego de todo, no hay ejemplos» auténticos «de una conversación entre un interrogador del siglo XXI y un encuestado de 1914. Los investigadores que intentan crear dicha conversación deberán reflexionar sobre la (premisa) que la interpretación siempre implica una negociación entre el presente y el (pasado)».
El nuevo estudio se titula ¿Pueden los modelos de idiomas representar el pasado sin anacronismo?y proviene de tres investigadores en toda la Universidad de Illinois, la Universidad de Columbia Británica y la Universidad de Cornell.
Desastre completo
Inicialmente, en un enfoque de investigación de tres partes, los autores probaron si los modelos de estilo novedoso podrían ser empujados a imitar el estilo histórico a través de una simple solicitud. Utilizando extractos reales de libros publicados entre 1905 y 1914, le pidieron a ChatGPT -4O que continuara estos pasajes en el mismo idioma.
El texto del período innovador fue:
‘En este extremo caso, unos cinco o seis dólares se economizan por minuto, ya que más de vigésimo yardas de película deben ser retiradas para proyectar durante un solo minuto un objeto de una persona en reposo o un paisaje. Así se obtiene una combinación maña de imágenes fijas y móviles, que produce la mayoría de los enseres artísticos.
‘Igualmente nos permite trabajar dos cinematógrafos que se proyectan alternativamente para evitar el centelleo, o proyectar simultáneamente imágenes rojas y verdes y reproducir colores naturales, así aliviando el ojo humano, acostumbrado a percibir los colores fundamentales simultáneamente, de toda dificultad fisiológica. Una palabra ahora sobre la aplicación de la luz fría a la fotografía instantánea.
Para evaluar si el texto generado coincidió con el estilo histórico previsto y consciente de que las personas no son especialmente hábiles para adivinar la época en que se escribió un texto, los investigadores se ajustaron a un maniquí de Roberta para estimar las fechas de publicación, utilizando un subconjunto del corpus de inglés estadounidense histórico, que cubren material de 1810 a 2009.
El clasificador de Roberta se utilizó para evaluar las continuaciones producidas por ChatGPT – 4O, que se había provocado con pasajes reales de libros publicados entre 1905 y 1914.
La solicitud del sistema (es proponer, las instrucciones contextuales para chatear sobre cómo asaltar la tarea) fue:
‘Su tarea es completar pasajes de los libros de principios del siglo XX. Se le dará un pasaje de un ejemplar publicado en 1913. Continúe este pasaje con el mismo estilo, por al menos 200 palabras. Solo proporcione esta continuación; No haga ningún comentario de ajuste, como ‘Aquí está la continuación:’.
A pesar de la solicitud de una sola vez y los 20-shot, las expectativas de CHATGPT-4O se sesgaron constantemente con destino a un registro estilístico del siglo XXI.
El ejemplo cubo en el artículo presenta uno de los intentos de blog de ChatGPT-4O para continuar el texto del período actual sobre la fotografía:
‘El uso de la luz fría en la fotografía instantánea ha revolucionado el enfoque para capturar imágenes en diferentes condiciones de luz. Tradicionalmente, los fotógrafos lucharon con la dureza y la variabilidad de la luz natural o la naturaleza intrusiva de la fotografía flash, lo que podría alterar el bullicio de una campo o el comportamiento natural de los sujetos, particularmente en la vida silvestre y la fotografía humana sincera.
«La luz fría, con su naturaleza más suave y difusa … permite una representación más natural de los colores y las texturas, que a menudo se pierde bajo la dura iluminación químico».
Como podemos ver fácilmente, este texto genérico de estilo wiki no coincide con el estilo prolix y manufacturado del texto del período innovador. Adicionalmente, en realidad no continúa desde dónde sale el contenido innovador, sino que se aguijada a una consejo tangencial y abstracta en uno de los subtemas.
El equipo igualmente probó GPT -1914, un maniquí de clase GPT -2 más pequeño entrenado desde cero en 26.5 mil millones de tokens de letras con época entre 1880 y 1914.
Aunque su salida fue menos coherente que la de ChatGPT – 4O, fue más consistente con el estilo del período de origen. El único ejemplo proporcionado en el documento, nuevamente como una finalización del texto del período del mundo actual en fotografía, dice:
‘El principio de su argumento ya se ha explicado (p. 4). Aquí solo mencionaremos que se puede aplicar con preeminencia cuando deseamos obtener fotografías muy rápidas en papel recubierto de colodión, así como las tomadas por medio de placas gelatinas.
‘En tales casos, la exposición no debe exceder al menos un segundo; Pero si se desea que la imagen se desarrolle en menos tiempo, digamos medio segundo, entonces la temperatura nunca debe caer por debajo de los 20 ° C, de lo contrario, la imagen se volverá demasiado oscura luego del mejora; Adicionalmente, la placa perdería su sensibilidad en estas condiciones.
‘Sin bloqueo, para fines ordinarios, es suficiente para exponer la superficie sensible a un bajo límite de calor sin que se necesiten precauciones especiales más allá de permanecer el’ (sic)
Hexaedro que incluso el material actual y innovador es secreto y es proporcionado difícil de seguir, es difícil entender hasta qué punto GPT-1914 ha recogido con precisión el innovador; Pero el resultado ciertamente suena más autor-autor.
Sin bloqueo, los autores concluyeron a partir de este tentativa que la simple provisión hace poco para pasar los sesgos contemporáneos de un gran maniquí previo al estado previo como ChatGPT-4O.
La trama se espesa
Para calibrar cuán de cerca los resultados del maniquí se parecían a una escritura histórica auténtica, los investigadores utilizaron un clasificador estadístico para estimar la época de publicación probable de cada muestra de texto. Luego visualizaron los resultados utilizando una gráfica de densidad del núcleo, que muestra dónde el maniquí cree que cada pasaje cae en una límite de tiempo histórica.
Las fechas de publicación estimadas para el texto actual y generado, basado en un clasificador entrenado para rastrear el estilo histórico (1905-1914 textos fuente en comparación con las continuaciones por GPT-4O utilizando indicaciones de un solo disparo y 20-SHOT, y por GPT-1914 entrenó solo en letras desde 1880-1914).
El maniquí Roberta de fino y sintonizado utilizado para esta tarea, señalan los autores, no es impecable, pero no obstante fue capaz de resaltar las tendencias estilísticas generales. Pasajes escritos por GPT -1914, el maniquí entrenado completamente en la letras de época, agrupados aproximadamente de principios del siglo XX, similar al material fuente innovador.
Por el contrario, las expectativas de ChatGPT-4O, incluso cuando se les solicita múltiples ejemplos históricos, tendían a parecerse a la escritura de veintiséis primaveras, reflejando los datos en los que originalmente fue entrenado.
Los investigadores cuantificaron este desajuste utilizando la oposición de Jensen-Shannon, una medida de cuán diferentes son las dos distribuciones de probabilidad. GPT-1914 obtuvo un suspensión de 0.006 en comparación con el texto histórico actual, mientras que las expectativas de un disparo y 20 de chatgpt-4O mostraron brechas mucho más amplias, a 0.310 y 0.350 respectivamente.
Los autores argumentan que estos hallazgos indican que solo la provisión, incluso con múltiples ejemplos, no es una forma confiable de producir un texto que simule de guisa convincente un estilo histórico.
Completando el pasaje
Luego, el documento investiga si el ajuste fino podría producir un resultado superior, ya que este proceso implica afectar directamente los pesos utilizables de un maniquí al «continuar» su entrenamiento en los datos especificados por el beneficiario, un proceso que puede afectar la funcionalidad central innovador del maniquí, pero mejorar significativamente su rendimiento en el dominio que se está «empujando» a él o si no se enfatiza durante la contratación fina.
En el primer tentativa de ajuste, el equipo entrenó a GPT-4O-Mini en aproximadamente de dos mil pares de completación de pasaje extraídos de libros publicados entre 1905 y 1914, con el objetivo de ver si un ajuste fino a último escalera podría cambiar los resultados del maniquí con destino a un estilo más históricamente preciso.
Utilizando el mismo clasificador basado en Roberta que actuó como mediador en las pruebas anteriores para estimar la ‘época’ estilística de cada resultado, los investigadores encontraron que en el nuevo tentativa, el maniquí cabal produjo un texto estrechamente adscrito con la verdad terreno.
Su oposición estilística de los textos originales, medido por la oposición de Jensen-Shannon, cayó a 0.002, generalmente en límite con GPT-1914:
Las fechas de publicación estimadas para el texto actual y generado, que muestran cuán estrechamente GPT-1914 y una interpretación ajustada de GPT-4O-Mini coinciden con el estilo de la escritura de principios del siglo XX (basada en libros publicados entre 1905 y 1914).
Sin bloqueo, los investigadores advierten que esta métrica solo puede capturar características superficiales del estilo histórico, y no anacronismos conceptuales o objetivos más profundos.
‘(Esto) no es una prueba muy sensible. El maniquí Roberta utilizado como mediador aquí solo está capacitado para predecir una época, no para discriminar los pasajes auténticos de los anacrónicos. Probablemente usa evidencia estilística gruesa para hacer esa predicción. Los lectores humanos, o modelos más grandes, aún pueden detectar contenido anacrónico en pasajes que suenan superficialmente «en el período».
Toque humano
Finalmente, los investigadores realizaron pruebas de evaluación humana utilizando 250 pasajes seleccionados a mano de libros publicados entre 1905 y 1914, y observan que muchos de estos textos probablemente se interpretarían de guisa muy diferente hoy que en el momento de la escritura:
‘Nuestra relación incluía, por ejemplo, una entrada de Enciclopedismo en Alsacia (que entonces era parte de Alemania) y una en Beri-Beri (que a menudo se explicaba como una enfermedad fúngica en motivo de una deficiencia nutricional). Si admisiblemente esas son diferencias de hecho, igualmente seleccionamos pasajes que mostrarían diferencias más altas de disposición, retórica o imaginación.
‘Por ejemplo, las descripciones de lugares no europeos a principios del siglo XX tienden a deslizarse con destino a la universalización étnico. Una descripción del amanecer en la cristalera escrita en 1913 imagina fenómenos cromáticos ricos, porque nadie había manido fotografías de un mundo sin una (medio).
Los investigadores crearon preguntas cortas que cada pasaje histórico podría reponer plausiblemente, luego cabal GPT-4O-Mini en estos pares de preguntas: respuesta. Para blindar la evaluación, capacitaron a cinco versiones separadas del maniquí, cada vez que mantiene una parte diferente de los datos para las pruebas.
Luego produjeron respuestas utilizando tanto las versiones predeterminadas de GPT-4O y GPT-4O-Mini, así como las variantes fina, cada una evaluada en la porción que no había manido durante el entrenamiento.
Perdido en el tiempo
Para evaluar cuán convincentemente los modelos podrían imitar el estilo histórico, los investigadores pidieron a tres anotadores expertos que revisen 120 terminaciones generadas por IA y juzguen si cada uno parecía plausible para un escritor en 1914.
Este enfoque de evaluación directa resultó más desafiante de lo esperado: aunque los anotadores acordaron sus evaluaciones casi el ochenta por ciento del tiempo, el desequilibrio en sus juicios (con ‘plausible’ predilecto dos veces más a menudo que ‘no plausible’) significaba que su nivel actual de acuerdo era moderado, según lo medido por la puntuación de Kappa de Cohen de 0.554.
Los propios evaluadores describieron la tarea como difícila menudo, requiere una investigación adicional para evaluar si una revelación alineada con lo que se sabía o creía en 1914.
Algunos pasajes plantearon preguntas difíciles sobre el tono y la perspectiva, por ejemplo, si una respuesta estaba apropiadamente limitada en su visión del mundo para reflectar lo que hubiera sido peculiar en 1914. Este tipo de discernimiento a menudo dependía del nivel de etnocentrismo (es proponer, la tendencia a ver otras culturas a través de los supuestos o sesgos propios).
En este contexto, el desafío era animarse si un pasaje expresaba suficiente sesgo cultural para parecer históricamente plausible sin sonar demasiado novedoso o demasiado abiertamente ofensivo según los estándares actuales. Los autores señalan que incluso para los académicos familiarizados con el período, era difícil trazar una límite aguda entre el estilo que se sentía históricamente preciso y el estilo que reflejaba ideas actuales.
No obstante, los resultados mostraron una clasificación clara de los modelos, con la interpretación fina de GPT-4O-Mini juzgada más plausible en militar:
Evaluaciones de los anotadores sobre cómo apareció la producción de cada maniquí de cada maniquí
Si este nivel de rendimiento, calificado plausible En el ochenta por ciento de los casos, es lo suficientemente confiable para la investigación histórica, no está claro, particularmente porque el estudio no incluyó una medida de relato de la frecuencia con la que los textos de época genuinos podrían clasificarse erróneamente.
Alerta de intruso
Luego morapio una ‘prueba de intruso’, en la que se mostraron a los anotadores expertos en cuatro pasajes anónimos que respondieron la misma pregunta histórica. Tres de las respuestas provienen de modelos de estilo, mientras que una era un extracto actual y propio de una fuente actual de principios del siglo XX.
La tarea era identificar qué pasaje era el innovador, en realidad escrito durante el período.
Este enfoque no pidió a los anotadores que calificaran la plausibilidad directamente, sino que medían con qué frecuencia el pasaje actual se destacaba de las respuestas generadas por la IA, en objetivo, probando si los modelos podrían engañar a los lectores para que piensen que su producción era auténtica.
La clasificación de los modelos coincidió con los resultados de la tarea de discernimiento aludido: la interpretación ajustada de GPT-4O-Mini fue la más convincente entre los modelos, pero aún no alcanzó la sinceridad.
La frecuencia con la que cada fuente se identificó correctamente como el pasaje histórico auténtico.
Esta prueba igualmente sirvió como un punto de relato útil, ya que, con el pasaje propio identificado más de la porción del tiempo, la brecha entre la prosa auténtica y sintética se mantuvo extraordinario para los lectores humanos.
Un exploración estadístico conocido como prueba de McNemar confirmó que las diferencias entre los modelos eran significativas, excepto en el caso de las dos versiones sintonizadas (GPT -4O y GPT – 4O -Mini), que funcionaban de guisa similar.
El futuro del pasado
Los autores descubrieron que provocar que los modelos de idiomas modernos adoptaran una voz histórica no produjeron resultados convincentes de guisa confiable: los lectores humanos juzgaron menos de dos tercios de los resultados, e incluso esta figura probablemente exagera el rendimiento.
En muchos casos, las respuestas incluyeron señales explícitas de que el maniquí estaba hablando desde una perspectiva coetáneo, frases como ‘En 1914, aún no se sabe que …’ o ‘A partir de 1914, no estoy familiarizado con …’ eran lo suficientemente comunes como para aparecer en una villa parte de las finalizaciones. Las renuncias de este tipo dejaron en claro que el maniquí estaba simulando la historia desde el foráneo, en motivo de escribir desde él.
Los autores afirman:
‘El bajo rendimiento del educación en contexto es desafortunado, porque estos métodos son los más fáciles y baratos para la investigación histórica basada en la IA. Hacemos hincapié en que no hemos explorado estos enfoques exhaustivamente.
‘Puede resultar que el educación en contexto es adecuado, ahora o en el futuro, para un subconjunto de áreas de investigación. Pero nuestra evidencia auténtico no es alentadora.
Los autores concluyen que si admisiblemente el ajuste de un maniquí comercial en pasajes históricos puede producir una producción estilísticamente convincente a un costo imperceptible, no elimina completamente los rastros de la perspectiva moderna. Pretrarse un maniquí completamente sobre el material de época evita el anacronismo pero exige capital mucho mayores y da como resultado una producción menos fluida.
Ningún de los métodos ofrece una posibilidad completa y, por ahora, cualquier intento de disimular voces históricas parece implicar una compensación entre autenticidad y coherencia. Los autores concluyen que se necesitarán más investigaciones para aclarar la mejor guisa de navegar por esa tensión.
Conclusión
Quizás una de las preguntas más interesantes para surgir del nuevo artículo es de la autenticidad. Si admisiblemente no son herramientas perfectas, las funciones y métricas de pérdida como LPIP y SSIM brindan a los investigadores de visión por computadora al menos una metodología similar para evaluar contra la verdad de tierra.
Al gestar un texto nuevo en el estilo de una era pasada, por el contrario, no hay verdad terreno, solo un intento de habitar una perspectiva cultural desaparecida. Intentar restablecer esa mentalidad de las huellas literarias es en sí mismo un acto de cuantización, ya que tales rastros son simplemente evidencia, mientras que la conciencia cultural de la que emergen permanece más allá de la inferencia, y probablemente más allá de la imaginación.
En un nivel práctico igualmente, las bases de los modelos de idiomas modernos, conformados por las normas y datos actuales, el peligro de reinterpretar o suprimir ideas que habrían parecido razonables o poco notables para un leedor eduardiano, pero que ahora se registran como artefactos (frecuentemente ofensivos) de prejuicios, desigualdad o injusticia.
Uno se pregunta, por lo tanto, incluso si pudiéramos crear tal coloquio, si podría no repelernos.
Publicado por primera vez el viernes 2 de mayo de 2025


