Los últimos 12 meses han demostrado las enormes capacidades que permite la recopilación de datos en la web pública. Sin embargo, está claro que todavía hay margen de crecimiento en esta industria en 2026.
Será interesante ver cómo se desarrolla este año, con los cambios legales esperados y las batallas legales que se avecinan en la dependiente industria de la IA. Hay una cosa con la que podemos contar. Eso significa que los conceptos básicos de la recopilación de datos siguen siendo más importantes que nunca.
A continuación, los principales expertos en tecnología se reúnen para compartir ideas sobre cómo se espera que evolucione el panorama de la recopilación de datos en función de su experiencia en la industria, revelando lo que 2026 podría traer a las empresas y la IA en todo el mundo.
Uso justo de material protegido por derechos de autor.
Denas Grybauskas, director de gobernanza y estrategia de Oxylabs, explicó que «las discusiones legales y las prácticas potenciales en Estados Unidos se centrarán cada vez más en la transformación de las obras protegidas por derechos de autor. La doctrina del uso justo permite usos transformadores de las obras protegidas por derechos de autor, que agregan algo nuevo o tienen un propósito o naturaleza diferente».
“Por lo tanto, muchas discusiones legales se centrarán en si el uso de contenido, incluido el contenido web, para la capacitación en IA constituye un uso transformador suficiente para calificar como uso legítimo.
“Al mismo tiempo, donde no se aplican los principios de uso legítimo (en jurisdicciones como la UE), la industria necesitará mecanismos técnicos para la atribución de créditos y formas viables de compensar a los creadores sin comprometer la apertura de la web y la fluidez del acceso a la información pública”.
Sistema de agentes para la recogida de datos.
Julius Černiauskas, director ejecutivo de Oxylabs, dijo: «El próximo año se podrían ver desarrollos interesantes en sistemas integrales de agentes para la recopilación de datos públicos. Consideremos el proceso de web scraping, que consta de muchas tareas pequeñas. Los agentes de IA pueden automatizar estas tareas».
“Juntos, forman un sistema de múltiples agentes que puede manejar gran parte del proceso, reduciendo costos y democratizando el acceso a datos públicos al facilitar el acceso a datos públicos sin requerir habilidades específicas o equipos de ingeniería.
“Nuevamente, constantemente llegan al mercado nuevas herramientas y funciones para automatizar ciertas tareas, y habrá más el próximo año”.
Utilice LLM para el análisis
«Durante los próximos 12 meses, veremos un aumento en el uso de LLM para análisis. En los últimos años, el análisis de datos ha sido uno de los casos de uso de IA de mayor impacto en la recopilación de datos públicos», afirmó Juras Juršėnas, director de operaciones de Oxylabs.
«Sin embargo, todavía estábamos limitados por el precio (del token LLM) y las limitaciones de tamaño. Los desarrolladores y los equipos de datos siempre tenían que limpiar y reducir el tamaño del HTML antes de pasarlo a LLM para su análisis. Esto requería recursos adicionales. Ahora es posible que solo necesiten hacer esto en ciertos casos».
«El mercado está aumentando rápidamente la elección de herramientas que pueden hacer esto, por lo que es razonable esperar que aumente el uso de LLM para análisis».
calidad y cantidad
Rytis Ulys, jefe de datos e inteligencia artificial de Oxylabs, comentó: «En 2026, las búsquedas de datos se centrarán en la calidad sobre la cantidad. Estudios recientes en humanos han demostrado que incluso pequeñas cantidades de datos de baja calidad pueden arruinar un conjunto de datos completo».
“Además, descubrimos que, más allá de cierto punto, agregar datos de baja calidad produce un beneficio mínimo o incluso degrada el rendimiento en comparación con el uso de un subconjunto más específico y relevante.
«Es por eso que los fundamentos de la recopilación de datos seguirán siendo más importantes que nunca. Tablas y catálogos sólidos, calidad y linaje, y motores de consulta de baja latencia son ahora requisitos previos para la adquisición de agentes en lugar de ideas tardías. La adquisición mejorada con gráficos y vectores está pasando de publicaciones de blog a patrones, la observabilidad se extiende a indicaciones, herramientas y costos, y el cumplimiento está en el mismo plano que el rendimiento. Los datos no desaparecen, desaparecen». Controlar la IA Promovido a la superficie. «
Obtenga una mejor comprensión de la recopilación de datos en línea
Con base en estos conocimientos, podemos esperar desarrollos interesantes en sistemas integrales de agentes para la recopilación de datos públicos, un crecimiento en los LLM para análisis y un cambio hacia la calidad sobre la cantidad en la recuperación de datos.
Paralelamente, será necesario tomar decisiones legales sobre la ley de derechos de autor tanto en Estados Unidos como en Europa durante los próximos 12 meses, ya que la situación actual deja a muchas personas en territorio incierto.
En 2026, esperamos introducir nuevas herramientas y funciones para automatizar procesos y mejorar nuestra comprensión de la recopilación de datos web y su papel en la vida diaria de las empresas, brindando claridad y comprensión empresarial.
Source link
