La startup de detección de inteligencia artificial GPTZero escaneó los 4.841 artículos aceptados en la prestigiosa Conferencia sobre sistemas de procesamiento de información neuronal (NeurIPS) celebrada en San Diego el mes pasado. La compañía descubrió 100 citas alucinatorias en 51 artículos y confirmó que eran falsas, dijo la compañía a TechCrunch.
Tener un artículo aceptado por NeurIPS es un logro digno de un currículum en el mundo de la IA. Dado que son destacados expertos en investigación de IA, se podría suponer que utilizarían el LLM para la devastadora y aburrida tarea de escribir citas.
Por tanto, este hallazgo requiere mucha precaución. Las 100 citas de alucinaciones identificadas en 51 artículos no son estadísticamente significativas. Cada artículo tiene docenas de citas. Entonces, de decenas de miles de citas, esta estadísticamente es cero.
También es importante señalar que las citas inexactas no niegan la investigación del artículo. Como dijo NeurIPS a la revista Fortune, que informó por primera vez sobre la investigación de GPTZero, «incluso si el 1,1% de los artículos tienen una o más referencias incorrectas debido al uso de LLM, esto no invalida necesariamente el contenido del artículo en sí».
Pero dicho esto, las citas falsificadas tampoco carecen de sentido. NeurIPS se enorgullece de sus “rigurosas publicaciones académicas sobre aprendizaje automático e inteligencia artificial”, dice la compañía. Luego, cada artículo es revisado por pares por varias personas a quienes se les indica que señalen las alucinaciones.
Las citas también son una especie de moneda para los investigadores. Estos se utilizan como indicadores de carrera para mostrar cuán influyente es el trabajo de un investigador entre sus colegas. Una vez que la IA los construye, su valor se diluye.
Dado el gran volumen involucrado, nadie puede culpar a los revisores por no captar algunas de las citas fabricadas por la IA. GPTZero también se apresura a señalar esto. El objetivo del ejercicio era proporcionar datos concretos sobre cómo la IA se ha infiltrado a través de un «tsunami de presentación» y «exprimió los canales de revisión de estas conferencias hasta el punto de ruptura», dijo la startup en su informe. GPTZero también hace referencia a un artículo de mayo de 2025 llamado «La crisis de revisión por pares en las conferencias de IA» que discutió este tema en conferencias de primer nivel, incluida NeurIPS.
evento de crisis tecnológica
san francisco
|
13-15 de octubre de 2026
Entonces, ¿por qué los propios investigadores no pudieron verificar la exactitud de la investigación de LLM? ¿Seguramente deben conocer la lista real de documentos que utilizaron para su trabajo?
Lo que todo esto realmente apunta a una conclusión grande e irónica. Si los principales expertos en IA del mundo no pueden garantizar que su uso del LLM sea preciso en cada detalle, aunque su reputación esté en juego, ¿qué significa eso para el resto de nosotros?
Source link
