La startup francesa de IA Mistral lanzó el martes su nueva familia Mistral 3 de modelos de peso abierto. Es un lanzamiento destinado a liderar el camino para acercar la IA al público y demostrar que puede servir a los clientes empresariales mejor que sus rivales de las grandes tecnologías.
El lanzamiento de 10 modelos incluye un modelo Frontier grande con capacidades multimodales y multilingües, y nueve modelos más pequeños que están habilitados para conexión fuera de línea y son totalmente personalizables.
El anuncio se produce cuando Mistral, que desarrolla modelos de lenguaje de peso abierto y el chatbot de IA Le Chat centrado en Europa, parece estar poniéndose al día con algunos de los modelos de frontera de código cerrado de Silicon Valley. Los modelos de peso abierto exponen los pesos del modelo, por lo que cualquiera puede descargarlos y ejecutarlos. Los modelos de código cerrado, como ChatGPT de OpenAI, por otro lado, mantienen los pesos patentados y solo brindan acceso a través de una API o una interfaz controlada.
La startup de dos años, fundada por antiguos investigadores de DeepMind y Meta, ha recaudado alrededor de 2.700 millones de dólares hasta ahora con una valoración de 13.700 millones de dólares, lo que es un orden de magnitud en comparación con las cifras acumuladas por competidores como OpenAI (57.000 millones de dólares recaudados con una valoración de 500.000 millones de dólares) y Anthropic (45.000 millones de dólares recaudados con una valoración de 350.000 millones de dólares).
Pero Mistral está tratando de demostrar que más grande no siempre es mejor, especialmente para casos de uso empresarial.
«A veces nuestros clientes están felices de comenzar con un modelo muy grande (cerrado) que no requiere ningún ajuste… pero una vez que lo implementan, lo encuentran costoso y requiere mucho tiempo», dijo a TechCrunch Guillaume Lample, cofundador y científico principal de Mistral. «Luego acuden a nosotros para ajustar un modelo pequeño para que pueda manejar su caso de uso (de manera más eficiente)».
«La realidad es que la gran mayoría de los casos de uso empresarial se pueden abordar con un modelo más pequeño, especialmente con ajustes finos», continuó Lampl.
Las primeras comparaciones de referencia podrían ser engañosas, dijo Lampl, ya que el modelo más pequeño de Mistral está muy por detrás de sus competidores de código cerrado. Un modelo de código cerrado a gran escala puede ofrecer un mejor rendimiento desde el primer momento, pero los beneficios reales se obtienen cuando se personaliza.
evento de crisis tecnológica
san francisco
|
13-15 de octubre de 2026
«En muchos casos, es posible igualar o incluso superar los modelos de código cerrado», afirma.
El modelo de frontera a gran escala de Mistral, llamado Mistral Large 3, ha alcanzado algunas de las características clave de los modelos de IA de código cerrado más grandes, como el GPT-4o de OpenAI y el Gemini 2 de Google, al mismo tiempo que ha recibido una paliza con algunos competidores de peso abierto. Large 3 es uno de los primeros modelos de frontera abierta que combina capacidades multimodales y multilingües, lo que lo hace comparable a Llama 3 de Meta y Qwen3-Omni de Alibaba. Muchas otras empresas ahora están combinando impresionantes modelos de lenguaje de gran tamaño con modelos multimodales discretos y más pequeños. Esto es algo que Mistral ha hecho antes con modelos como Pixtral y Mistral Small 3.1.
Large 3 también presenta una arquitectura de «mezcla experta granulada» con 41B de parámetros activos y 675B de parámetros totales, lo que permite una inferencia eficiente en una ventana de contexto de 256k. Este diseño ofrece velocidad y funcionalidad, lo que le permite procesar documentos largos y actuar como asistente de agente para tareas empresariales complejas. Mistral posiciona el Large 3 como adecuado para análisis de documentos, codificación, creación de contenido, asistentes de inteligencia artificial y automatización del flujo de trabajo.
Con su nueva familia de modelos pequeños denominada Ministral 3, la compañía afirma audazmente que los modelos pequeños no sólo son lo suficientemente buenos, sino que son mejores.
La línea incluye nueve modelos densos diferentes de alto rendimiento en tres tamaños (parámetros 14B, 8B y 3B) y tres variantes: Base (un modelo base previamente entrenado), Instruct (chat optimizado para flujos de trabajo conversacionales y de estilo asistente) y Reasoning (optimizado para tareas lógicas y analíticas complejas).
Según Mistral, la familia de productos brinda a los desarrolladores y empresas la flexibilidad de adaptar los modelos al rendimiento exacto, ya sea que busquen rendimiento bruto, rentabilidad o funcionalidad especializada. La compañía afirma que Ministeral 3 es más eficiente y genera menos tokens para tareas comparables, al tiempo que logra puntuaciones iguales o mejores que otros líderes de clase abierta. Todas las variantes admiten visión, manejan ventanas de contexto de 128K a 256K y funcionan en varios idiomas.
Una gran parte del discurso es la practicidad. Lample enfatiza que debido a que Ministeral 3 puede ejecutarse en una sola GPU, se puede implementar en hardware asequible, desde servidores locales hasta computadoras portátiles, robots y otros dispositivos periféricos con conectividad limitada. Esto es importante no sólo para las empresas que almacenan datos internamente, sino también para los estudiantes que buscan comentarios fuera de línea y los equipos de robótica que trabajan en entornos remotos. Lampl sostiene que una mayor eficiencia se traduce directamente en una mayor accesibilidad.
«Es parte de nuestra misión hacer que la IA sea accesible para todos, especialmente para las personas que no tienen acceso a Internet», dijo. «No queremos que la IA esté controlada únicamente por unos pocos laboratorios grandes».
Varias otras empresas están buscando compensaciones de eficiencia similares. El último modelo empresarial de Cohere, Command A, también se ejecuta en solo dos GPU, y la plataforma de agentes de inteligencia artificial de la compañía, North, solo puede ejecutarse en una GPU.
Este tipo de accesibilidad está impulsando el mayor enfoque de Mistral en la IA física. A principios de este año, la empresa empezó a trabajar para integrar modelos más pequeños en robots, drones y vehículos. Mistral está colaborando con la Agencia de Ciencia y Tecnología Home Team (HTX) de Singapur en modelos especializados para robots, sistemas de ciberseguridad y protección contra incendios. Investigación conjunta con la startup alemana de tecnología de defensa Hellsing sobre modelos visuales, lingüísticos y de comportamiento para drones. Hemos desarrollado conjuntamente con el fabricante de automóviles Stellantis un asistente de inteligencia artificial para vehículos.
Para Mistral, la fiabilidad y la independencia son tan importantes como el rendimiento.
«Si usas la API de un competidor, estarás inactivo durante 30 minutos cada dos semanas, y si eres una empresa grande, no puedes permitirte eso», dijo Rumple.
Source link
