Denas Grybauskas, director de gobernanza y estrategia de Oxylabs, describe las consideraciones clave de la ley de IA de la UE que deben tenerse en cuenta desde una perspectiva tanto legal como ética para garantizar que se sigan las mejores prácticas de recopilación de datos web.
El web scraping se enfrenta hoy en día a una dicotomía interesante. Es una parte fundamental de la experiencia de Internet que impulsa los principales sitios, pero la gran cantidad de datos recopilados con fines de entrenamiento de IA la ha puesto bajo escrutinio.
A medida que el auge de la IA está cambiando toda la naturaleza de la web, también se están reavivando viejos debates sobre cómo se accede a los datos públicos. Si a esto le sumamos los titulares sobre la piratería de la IA, la imagen de cómo se utilizan los datos se vuelve confusa, lo que dificulta la navegación de las empresas.
Como se discutió en la sesión de OxyCon que presidí este año, la legislación de la UE sobre IA introduce desafíos adicionales a los que debe enfrentarse la industria. No hay duda de que las empresas que utilizan muchos datos no reciben el «código de circulación» para el web scraping, y muchos elementos de la ley siguen sin estar claros, lo que crea trampas fáciles en las que pueden caer las empresas.
situación jurídica incierta
Hay cuestiones legales recurrentes que las empresas deben tener en cuenta a la hora de recopilar datos web.
Incumplimiento de contrato: Los reclamos legales más comunes relacionados con la recopilación de datos web son por incumplimiento de contrato, que ocurre cuando una de las partes no cumple con lo que acordó hacer al aceptar los Términos de uso. Digamos que una empresa tiene cuentas en un sitio web en particular, como un sitio de redes sociales, y decide eliminar ese sitio al mismo tiempo. En ese caso, por supuesto, estará expuesto a mayores riesgos. La extracción de contenido de los sitios de redes sociales después de aceptar un índice es una de las principales causas de litigios en esta área. Todavía se puede argumentar (y en algunos casos lo fue) que el acto de scraping no está relacionado con el propósito del sitio de redes sociales o la creación de la cuenta. Por lo tanto, los Términos de servicio no deberían regular la extracción de datos públicos. Sin embargo, demostrar este punto requiere esfuerzo. Infracción de derechos de autor: Las demandas legales que más titulares acaparan hoy en día involucran infracciones de derechos de autor, particularmente aquellas que conducen a demandas colectivas de alto perfil. Estos casos han causado la mayor controversia, y a principios de este año estallaron protestas en Londres por acusaciones de que Mehta robó los libros. Los medios de comunicación informan actualmente sobre un editor de música involucrado en una batalla legal con Anthropic por reclamos de derechos de autor de IA. Este tipo de demandas reflejan el debate en curso sobre qué datos se pueden utilizar con fines de capacitación en IA y cómo deberían participar los creadores. Datos personales: en algunos casos, los datos disponibles públicamente pueden incluir información personal. Aunque técnicamente son “públicos”, los datos personales siguen protegidos por leyes de privacidad, normalmente sujetos a excepciones y condiciones como las descritas en la CCPA. Por lo tanto, las empresas deben evaluar minuciosamente si recopilar dicha información es necesario y ético. Es muy probable que las cuestiones de privacidad y propiedad de los datos sigan siendo las principales áreas de atención en los tribunales y en los debates públicos sobre los datos web durante algún tiempo.
La percepción subyacente de que las prácticas de web scraping existen en una «zona gris» a menudo surge de una falta de claridad. El panorama legal actual carece de una guía de «ventanilla única» clara y fácil de entender para «despejar» el problema y lograr el pleno cumplimiento.
A pesar de las buenas intenciones, la legislación de la UE sobre IA no lo prevé.
Cómo la IA afecta el web scraping
El auge de la IA ha vuelto a poner en el centro de atención la necesidad de claridad jurídica. Esto ha aumentado la demanda de datos y el término “extracción de datos” ha surgido en el debate generalizado. La cantidad de web scraping realizado por las empresas se ha disparado y, como era de esperar, esto ha puesto las cuestiones de derechos de autor en el centro de atención.
Sin embargo, existen algunos argumentos legítimos en el sistema legal estadounidense, como el de que la agregación de datos públicos (con derechos de autor) puede incluirse en la doctrina del uso legítimo. Por ejemplo, si una empresa es transparente sobre los datos públicos que utiliza y los transforma en algo nuevo, esto podría considerarse uso legítimo. Según un caso reciente de Estados Unidos (el caso Anthropic), una de las condiciones clave es que el trabajo (en el que se agregan y utilizan datos públicos) sea transformador.
Actualmente, el uso legítimo en los Estados Unidos no se puede impedir completamente legalmente mediante un contrato. Sin embargo, el uso legítimo le permite reutilizar material protegido por derechos de autor de formas completamente nuevas. Este ejemplo ha sido convertido desde un estado con derechos de autor.
Al hacer esto, las empresas deben ser conscientes de varios factores para poder actuar de forma ética y dentro de los límites de la ley vigente. Por ejemplo, los tribunales consideran lo siguiente para definir el uso legítimo y dictaminar sobre la infracción de derechos de autor:
La naturaleza del trabajo protegido por derechos de autor: ¿es privado o personal de alguna manera? ¿Con qué frecuencia se utiliza la obra protegida por derechos de autor? ¿Ha ocurrido un cambio? ¿Cuál es el impacto económico de las obras protegidas por derechos de autor? ¿Se vio afectada la obra original?
Al recopilar datos públicamente para entrenar un modelo de IA, es importante permanecer alerta y consciente, independientemente de la ubicación. La UE tiene un régimen de derechos de bases de datos y una Directiva DSM que incluye exenciones para la minería de textos y datos. Aunque los sistemas legales varían, siempre es importante evaluar la fuente de los datos que se utilizan y la jurisdicción de su empresa para comprender qué reglas se aplican y cuál es el mejor curso de acción para mantenerse dentro de estas reglas.
¿Cómo pueden las empresas preparar capacitaciones sobre datos públicos?
Para garantizar la vigilancia, todos los adoptantes y proveedores de sistemas de IA deben realizar una evaluación de riesgos exhaustiva antes de implementar la recopilación de datos web en el mercado. Esta investigación debe incluir la comprensión de las regulaciones locales específicas y garantizar que el personal clave conozca plenamente los derechos de autor, la privacidad y otras leyes.
Las leyes y regulaciones actuales sobre la IA están increíblemente fragmentadas, lo que crea un entorno difícil de navegar. Una comprensión integral de estas leyes, incluidas las leyes de inteligencia artificial y las regulaciones más amplias de la UE, permitirá a las empresas implementar prácticas fluidas de recopilación de datos web.
Al final del día, las empresas cuyos modelos de IA resistirán la prueba del tiempo son aquellas que no sólo construyen teniendo en cuenta el cumplimiento, sino que realmente construyen sistemas que pueden adaptarse fácilmente a las regulaciones.
Implementación práctica de la ley de IA de la UE
Desafortunadamente, en la Unión Europea, las empresas todavía carecen de una guía completa sobre el web scraping. En cambio, proporciona conocimiento de obligaciones específicas hacia el proveedor del módulo de funciones. El resultado es fragmentado e inestable, sin un camino claro hacia el éxito.
Una comprensión profunda de las mejores prácticas junto con la evaluación de riesgos es clave para el éxito en este entorno legal.
Para que la tecnología en el mundo actual siga siendo lo más justa, ética y representativa posible, debemos esforzarnos por garantizar que los datos públicos permanezcan abiertos para fines de capacitación en IA. Internet en su conjunto es un conjunto de datos diverso que, con una orientación legal adecuada, puede aprovecharse para fomentar la innovación.
Source link
