La industria de la IA ha contratado problemas de datos de capacitación a raíz del acuerdo de derechos de autor de $ 1.5 mil millones de Anthrope. Hay hasta otros 40 casos pendientes que buscan daños para los datos no autorizados, incluido uno que lleva a la mitad de la corte para crear una imagen de Superman.
Sin ciertos sistemas de licencia, las compañías de IA podrían enfrentar una avalancha de demandas por derechos de autor.
Ahora, un grupo de ingenieros y editores web ha lanzado un sistema que permite la licencia de datos a escala, siempre que las compañías de IA lo asuman. El sistema, conocido como la Licencia Real Simple (RSL), ya es compatible con los principales editores web como Reddit, Quora y Yahoo. La pregunta es si el impulso es suficiente para llevar los principales laboratorios de IA a la mesa de negociación.
Según Eckart Walther, cofundador de RSL, el estándar RSS también estaba co-creando, con el objetivo de crear un sistema de licencias de datos de capacitación que pudiera ampliarse en Internet. «Necesitamos un acuerdo de licencia legible por máquina para Internet», dijo Walther a TechCrunch. «Eso es realmente lo que resuelve RSL».
Durante años, grupos como la Alianza de Proveedores de datos de datos han presionado para las prácticas de recolección más claras, pero RSL es el primer intento de infraestructura técnica y legal que realmente podría funcionar. En el lado técnico, el Protocolo RSL presenta términos de licencia específicos que los editores pueden configurar en contenido, ya sea que requieran licencias personalizadas o adopten los términos Creative Commons. Los sitios web participantes contienen terminología como parte del archivo «robots.txt» en un formato prebacado, lo que facilita la identificación de qué datos se ajustan a los criterios.
Legalmente, el equipo RSL ha fundado el RSL Collective, una organización de licencias colectivas que puede negociar términos y reunir regalías, similares a los músicos y la película MPLC ASCAP. Al igual que la música y el cine, el objetivo es proporcionar un solo contacto para pagar regalías de licenciantes y proporcionar al titular de los derechos una forma de condicionar una gran cantidad de posibles licenciantes a la vez.
Muchos editores web ya se han unido al grupo, incluidos Yahoo, Reddit, Medium, O’Reilly Media, Ziff Davis (propietario de Mashable y CNET), Internet Brands (propietario de WebMD), People Inc. y The Daily Beast. Otros como Fastly, Quora y Adweek apoyan los estándares sin participar en grupos.
Eventos de TechCrunch
San Francisco
|
27-29 de octubre de 2025
En particular, RSL Collective incluye editores que ya tienen transacciones con licencia. En particular, Reddit, que recibe aproximadamente $ 60 millones al año de Google para usar sus datos de capacitación. No hay nada en el sistema RSL que evite que las empresas corten sus propias transacciones, así como Taylor Swift puede establecer términos especiales para sus licencias mientras recolectan regalías a través de ASCAP. Sin embargo, para los editores, si es demasiado pequeño para obtener un acuerdo propio, los términos colectivos RSL pueden ser su única opción.
Sin embargo, si bien es fácil determinar cuándo se reproduce una canción, los modelos de IA plantean desafíos únicos cuando se trata de saber cuándo se programan las lealtades para datos de entrenamiento específicos. Este problema es el más fácil para productos como el resumen de búsqueda de IA de Google. Esto extrae datos en tiempo real de la web y mantiene la estricta atribución de cada hecho.
Sin embargo, si no se registran registros cuando se produce el entrenamiento, es casi imposible confirmar que se ha ingerido un documento en particular en LLM. Es especialmente difícil cuando los editores les piden que paguen por inferencia en lugar de recibir la tarifa general, una opción ofrecida por cualquiera de sus licencias RSL de acciones.
Aún así, los creadores de RSL creen que las compañías de IA pueden gestionar el nivel de dificultad. «Algunos de los acuerdos de licencia que ya han hecho requieren que informen sobre él, por lo que es posible», dice Doug Leeds, cofundador de RSL y ex CEO de IAC Publishing. «No tiene que ser perfecto, tiene que ser suficiente para pagar a la gente».
La pregunta más importante es si las compañías de IA aceptarán el sistema. Así como compañías como Scaleai y Mercor han tenido éxito, Frontier Labs no tiene problemas para pagar los datos, pero la web tradicionalmente se ha considerado una fuente de datos baratos y de baja calidad. Con conjuntos de datos como rastreos generales ya disponibles, puede ser difícil extraer regalías de lo que los laboratorios usan para obtener de forma gratuita. Además, como muestra el reciente desempolvado entre CloudFlare y la perplejidad, no es fácil transmitir la diferencia entre el raspado web y la navegación mejorada por la máquina.
Cuando puse esta pregunta en Leeds, señaló un comentario reciente de un líder de IA que busca un sistema como RSL. En particular, proviene de Sundal Pichai en la cumbre de Dealbook del año pasado. Ya sea que las solicitudes del sistema de licencias son graves o no, el equipo RSL planea mantenerlas. «Han estado diciendo externamente a todos, este tipo de cosas deben existir», me dijo Leeds. «Necesitamos un protocolo. Necesitamos un sistema».
Ahora podrían obtenerlo.
Source link
