ArXiv, un repositorio abierto ampliamente utilizado para investigaciones preimpresas, va más allá para acabar con el uso descuidado de grandes modelos de lenguaje en artículos científicos.
Aunque los artículos se publican en el sitio antes de ser revisados por pares, arXiv (pronunciado «archivo») se ha convertido en una de las principales formas en que se distribuye la investigación en campos como la informática y las matemáticas, y el sitio en sí es una fuente de datos sobre tendencias en la investigación científica.
ArXiv ya ha tomado medidas para combatir el aumento de artículos de baja calidad generados por IA, como exigir que los envíos por primera vez reciban la aprobación de autores destacados. Y la organización, que la Universidad de Cornell ha albergado durante más de 20 años, se está convirtiendo en una organización independiente sin fines de lucro que debería poder recaudar más dinero para abordar problemas como la IA.
En el último desarrollo, el jefe de informática de arXiv, Thomas Dietterich, publicó el jueves: «Si un envío contiene evidencia indiscutible de que el autor no verificó los resultados de la generación del LLM, esto significa que no se puede confiar en nada en el artículo».
La evidencia indiscutible podría incluir cosas como «referencias psicodélicas» o comentarios hacia o desde LLM, dijo Dieterich. Si se encuentra dicha evidencia, los autores del artículo enfrentan una prohibición de arXiv de un año, con el requisito de que todos los envíos posteriores de arXiv deben ser aceptados primero por una organización de revisión por pares acreditada.
Tenga en cuenta que esto no es una prohibición total del uso de LLM, sino más bien una afirmación de que, como dice Dieterich, los autores son «totalmente responsables» de su contenido, «independientemente de cómo se generó el contenido». Por lo tanto, los investigadores son responsables incluso si copian y pegan «lenguaje inapropiado, contenido plagiado, contenido sesgado, errores, referencias falsas o contenido engañoso» directamente desde el LLM.
Dieterich dijo a 404 Media que esta sería una regla de «un solo strike», pero los moderadores tendrían que señalar el problema y el presidente de la sección tendría que revisar la evidencia antes de imponer una sanción. Los autores también podrán apelar esta decisión.
Un estudio reciente revisado por pares encontró que las citas inventadas en la investigación biomédica están aumentando, probablemente debido a los LLM. Sin embargo, para ser justos, los científicos no son los únicos a los que arrestan por utilizar citas generadas por IA.
Si compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta la independencia editorial.
Source link
