Todos hemos sentido la creciente sospecha de que lo que leemos está escrito mediante un modelo de lenguaje de gran tamaño. Pero es muy difícil precisar. Durante varios meses del año pasado, todo el mundo estuvo convencido de que ciertas palabras como «explorar» y «subrayar» podían identificar el modelo, pero la evidencia era escasa y, a medida que los modelos se volvieron más sofisticados, las palabras reveladoras se volvieron más difíciles de rastrear.
Pero resulta que la gente de Wikipedia se ha vuelto bastante buena a la hora de señalar la prosa escrita por IA. Y la guía pública de este grupo, «Signs of AI Writing», es el mejor recurso que he encontrado para averiguar si sus sospechas están justificadas. (Crédito al poeta Jameson Fitzpatrick por señalar la documentación X).
Desde 2023, los editores de Wikipedia han estado trabajando para comprender las publicaciones de IA. Este es un proyecto que llaman Proyecto AI Cleanup. Con millones de ediciones realizadas cada día, hay una gran cantidad de material para aprovechar y, al estilo de los editores clásicos de Wikipedia, el grupo ha creado una guía de campo detallada y basada en evidencia.
Primero, esta guía revisará lo que ya sabemos. Esto significa que las herramientas automatizadas son básicamente inútiles. En cambio, esta guía se centra en convenciones y frases que son poco comunes en Wikipedia pero comunes en Internet (y, por lo tanto, comunes en los datos de entrenamiento de modelos). Según la guía, los envíos de IA dedican mucho tiempo a enfatizar por qué su tema es importante, generalmente en términos generales como «momento crucial» o «movimiento más amplio». El modelo de IA también dedica mucho tiempo a detallar puntos menores en los medios para que el tema parezca digno de mención. Este es el tipo de cosas que uno esperaría de una biografía personal, pero no de una fuente independiente.
Esta guía señala una peculiaridad particularmente interesante respecto de las cláusulas finales cuyo significado es ambiguo. El modelo diría que algún evento o detalle «enfatiza» la importancia de algo, o «refleja la relevancia continua» de alguna idea general. (Los expertos en gramática lo conocerán como «participio presente»). Es un poco difícil de identificar, pero una vez que aprendas a reconocerlo, lo verás en todas partes.
La terminología de marketing también tiende a ser vaga, lo cual es muy común en Internet. El paisaje siempre es hermoso, las vistas siempre son impresionantes y todo está limpio y moderno. Como dicen nuestros editores, es «similar a transcribir un comercial de televisión».
Vale la pena leer esta guía en su totalidad, quedé muy impresionado. Anteriormente, habría dicho que la prosa del LLM se estaba desarrollando demasiado rápido para ser específico. Pero los hábitos señalados aquí están profundamente arraigados en la forma en que se entrenan e implementan los modelos de IA. Puedes ocultarlos, pero es difícil deshacerte de ellos por completo. Y a medida que el público se vuelve más experto en identificar la prosa de la IA, podrían surgir todo tipo de consecuencias interesantes.
Source link
