Los flujos de trabajo del ingeniero de software se han transformado en los últimos años con la afluencia de herramientas de codificación de IA como Cursor y GitHub Copilot. Esto promete aumentar la productividad escribiendo automáticamente líneas de código, creando correcciones de errores y probando cambios automáticamente. La herramienta está impulsada por modelos de IA de OpenAI, Google Deepmind, Anthrope y XAI, y ha mejorado rápidamente el rendimiento en las recientes pruebas de ingeniería de software.
Sin embargo, un nuevo estudio publicado el jueves por el grupo de investigación de IA sin fines de lucro METR plantea preguntas sobre la medida en que las herramientas de codificación de IA de hoy aumentan la productividad para los desarrolladores experimentados.
METR reclutó 16 desarrolladores experimentados de código abierto y realizó un ensayo controlado aleatorio para este estudio completando 246 tareas reales en un repositorio de código grande que contribuye regularmente. Los investigadores asignaron aleatoriamente a la mitad de estas tareas como «AI-AI-AIL», dando a los desarrolladores permiso para usar herramientas de codificación de IA de última generación como Cursor Pro, y prohibir el uso de herramientas de IA para la otra mitad de las tareas.
Antes de completar la tarea asignada, los desarrolladores predijeron que el uso de herramientas de codificación de IA reduciría el tiempo de finalización en un 24%. Ese no era el caso.
«Sorprendentemente, descubrimos que permitir la IA en realidad aumenta el tiempo de finalización en un 19%. Los desarrolladores usan herramientas de IA para frenarlas», dijeron los investigadores.
En particular, solo el 56% de los desarrolladores de este estudio tuvieron experiencia en el uso de cursor, la principal herramienta de IA ofrecida en este estudio. Casi todos los desarrolladores (94%) tenían experiencia en el uso de LLM basados en la web en sus flujos de trabajo de codificación, pero este estudio fue la primera vez que usaron cursores en particular. Los investigadores señalan que los desarrolladores fueron capacitados en el uso de cursores en preparación para su investigación.
Sin embargo, los hallazgos de Metr plantean preguntas sobre las ganancias de productividad universal prometidas por las herramientas de codificación de IA en 2025. Según la investigación, los desarrolladores no deben asumir que serán conocidos como herramientas de codificación de IA, particularmente «codificadores de atmósfera».
Los investigadores de METR señalan algunas razones potenciales por las cuales los desarrolladores ralentizan a los desarrolladores en lugar de a los desarrolladores de AI. Los desarrolladores están incitando a la IA cuando usan codificadores de VIBE y esperan que responda, en lugar de codificar. La IA también tiende a luchar con la gran base de código compleja utilizada por esta prueba.
Los autores de este estudio tienen cuidado de no sacar conclusiones fuertes de estos hallazgos, y señalan explícitamente que no creen que los sistemas de IA no puedan acelerar muchos desarrolladores de software o la mayoría de los desarrolladores de software en este momento. Otros grandes estudios han demostrado que las herramientas de codificación de IA aceleran el flujo de trabajo de los ingenieros de software.
El autor también señala que el progreso de la IA ha sido sustancial en los últimos años y no espera los mismos resultados incluso en tres meses. METR también ha descubierto que las herramientas de codificación de IA han mejorado significativamente su capacidad para completar tareas complejas a largo plazo en los últimos años.
Sin embargo, este estudio ofrece otra razón para ser escéptico de los beneficios prometidos de las herramientas de codificación de IA. Otra investigación muestra que las herramientas de codificación de IA de hoy pueden introducir errores y, en algunos casos, vulnerabilidades de seguridad.
Source link
