El miércoles, Wikimedia Deutschland anunció una nueva base de datos que hará que el rico conocimiento de Wikipedia sea más accesible para los modelos de IA.
Llamado el proyecto de incrustación de Wikidata, el sistema aplica una técnica que consta de casi 120 millones de entradas a los datos existentes sobre Wikipedia y sus plataformas hermanas, una técnica que ayuda a las computadoras a comprender el significado y las relaciones entre las palabras.
Combinado con un nuevo soporte para el Protocolo de contexto del modelo (MCP), un estándar que ayuda a los sistemas de IA a comunicarse con fuentes de datos, este proyecto hace que los datos sean más accesibles para las consultas de lenguaje natural LLMS.
El proyecto fue llevado a cabo por la rama alemana de Wikimedia en colaboración con la compañía de búsqueda neuronal Jina.ai y Datatax, una compañía de datos de capacitación en tiempo real propiedad de IBM.
Wikidata ha estado proporcionando datos legibles por máquina de la propiedad Wikimedia durante muchos años, pero las herramientas existentes ahora solo permiten búsquedas de palabras clave, consultas SPARQL y lenguajes de consulta especiales. El nuevo sistema funciona bien al proporcionar a los desarrolladores la oportunidad de fundamentar el modelo con el conocimiento verificado por los editores de Wikipedia, gracias a un sistema de generación buscada (RAG) que permite que los modelos de IA obtengan información externa.
Los datos están configurados para proporcionar contextos semánticos importantes. Por ejemplo, la consulta de una base de datos del término «científicos» crea una lista de destacados científicos y científicos nucleares que trabajaron en Bell Lab. También existe la traducción de la palabra «científico» en un lenguaje diferente, la imagen de los científicos en el lugar de trabajo que ha despejado Wikimedia y extrapolación a conceptos relacionados como «investigador» y «erudito».
La base de datos se publica en ToolForge. Wikidata también está celebrando un seminario web para desarrolladores de interés el 9 de octubre.
Eventos de TechCrunch
San Francisco
|
27-29 de octubre de 2025
Este nuevo proyecto se debe a que los desarrolladores de IA se apresuran a una fuente de datos de alta calidad que pueden usar para ajustar sus modelos. Los sistemas de capacitación son más refinados y a menudo ensamblan como entornos de entrenamiento complejos en lugar de conjuntos de datos simples, pero requieren datos muy curados para funcionar. La necesidad de datos confiables es particularmente urgente para las implementaciones que requieren alta precisión, y algunos pasan por alto wikipedia, pero esos datos están significativamente más orientados que los conjuntos de datos de captura como Common Crawl, una gran colección de páginas web raspó todo el Internet.
En algunos casos, conducir datos de alta calidad puede tener consecuencias costosas para los laboratorios de IA. En agosto, la humanidad ofreció resolver una demanda con el grupo de autores cuyas obras se estaban utilizando como material de capacitación al aceptar pagar $ 1.5 mil millones para finalizar las acusaciones de fraude.
En una declaración a los medios de comunicación, el gerente de proyecto de Wikidata AI, Philip Saade, destacó la independencia de su proyecto de los principales laboratorios de IA o grandes compañías de alta tecnología. «El lanzamiento de este proyecto integrado muestra que una IA fuerte no necesita ser controlada por un pequeño número de compañías», dijo Saadé a los periodistas. «Podría ser abierto, solidario y construido para servir a todos».
Source link
