La atención y el servicio al cliente son una de las áreas más populares para la IA de voz en este momento. Pero crear un producto que suene humano y responda sin demoras notables ha resultado mucho más difícil en algunos mercados que en otros. Además, la mayoría de las grandes empresas no se crearon pensando en África ni en Oriente Medio.
AethexAI, una startup fundada el año pasado para llenar este vacío, ha recaudado $3 millones en financiación previa liderada por 4DX Ventures con la participación de Enza Capital, Dorm Room Fund, Mojo Ventures y Stanford GSB 26 Fund. Los inversores privados incluyen profesores de la Universidad de Stanford, ejecutivos de telecomunicaciones e investigadores de inteligencia artificial de Anthropic.
En lugar de utilizar herramientas de orquestación existentes como Vapi o LiveKit, la empresa creó su propio modelo pequeño y capa de orquestación desde cero para manejar dialectos localizados de inglés, francés y árabe hablados en su mercado objetivo. Esta decisión fue impulsada por las demandas únicas de operar un negocio en esa región, como se explica a continuación.
La compañía también está lanzando una plataforma para que las empresas prueben su tecnología y se registren en sus servicios, así como una API y un SDK para que los desarrolladores experimenten con modelos.
La startup fue fundada por Mariama Diallo y Ayooluwa Odemuyiwa. El CEO Diallo trabajó anteriormente en Goldman Sachs antes de unirse a ModelML, respaldado por YC, como producto y talento de crecimiento. El CTO Odemuyiwa se graduó en Caltech, trabajó en Meta y cofundó la empresa después de asistir a la Stanford Business School. Los dos querían construir algo para un mercado emergente y comenzaron a buscar oportunidades.
Empresas de todo el mundo se apresuran a implementar herramientas de inteligencia artificial para automatizar partes de sus operaciones. Pero eso no siempre funciona. En Egipto, los fundadores descubrieron que un centro de llamadas había automatizado la mayoría de las llamadas, pero tuvieron que revertir el sistema debido a los malos resultados. Varios centros de soporte en África dijeron que les resultaba difícil encontrar y contratar ingenieros para automatizar las llamadas a un costo razonable.
«La latencia y la inquietud que estábamos viendo en las llamadas automatizadas en esta región eran escandalosas. Si hubiéramos sido los orquestadores, podríamos haber tenido que usar un modelo más grande alojado fuera de la región, lo que resultó en una mayor latencia. Nos dimos cuenta de que para que esto funcionara, necesitábamos usar un modelo muy pequeño y reducir la latencia en cada paso», dijo Odemuyiwa a TechCrunch sobre la decisión de construir su propio modelo y capa de orquestación.
Los laboratorios de IA que implementan los últimos modelos suelen gastar millones de dólares entrenando los modelos y adquiriendo los datos. AethexAI ha encontrado una solución para ambos. En lugar de buscar el modelo más grande posible, la compañía decidió que un modelo más pequeño era suficiente para abordar los problemas de latencia manteniendo la precisión, y desarrolló su propia serie Kora con parámetros que van desde 300 millones a 1,7 mil millones. Esto es sólo una fracción del tamaño del LLM, y eso es exactamente lo que importa.
Para entrenar estos modelos, la startup utilizó grabaciones anónimas de sus socios del centro de llamadas. También enviamos discos duros a estaciones de radio de toda África para recopilar más datos de audio. Para mantener los costos bajos, creamos una red de estudiantes universitarios que anotaban los datos y pronunciaban los nombres locales. Como resultado, la compañía dice que ahora maneja más de 17.000 llamadas por día.
En el aspecto comercial, la empresa se encarga de ofrecer demostraciones y talleres in situ para guiar a los clientes nuevos en la IA por voz a través del proceso y ayudarlos a identificar los mejores casos de uso para la automatización.
«Siempre les decimos a nuestros clientes que no podemos ser todo para todos en este momento. Somos pequeños y cuando iniciamos una conversación con una empresa, les pedimos que elijan primero el caso de uso que sea más importante para ellos», dijo Diallo.
La startup está abierta a trabajar en cualquier industria, pero por ahora, la mayoría de sus casos de uso incluyen cobro de deudas, activación de clientes o solicitudes KYC (Conozca a su cliente), el proceso de verificación de identidad estándar utilizado por bancos y operadores. La compañía emplea ingenieros ubicados en el futuro por contrato para atender los mercados locales y crea asociaciones de canales con proveedores de telecomunicaciones para manejar llamadas de voz con inteligencia artificial. Dice que las soluciones plug-and-play no funcionan aquí en absoluto.
Walter Baddoo, cofundador y socio director de 4DX Ventures, sostiene que los mercados de África y Oriente Medio son fundamentalmente diferentes de aquellos para los que están diseñadas la mayoría de las empresas de inteligencia artificial de voz.
«Las empresas de África y Oriente Medio manejan alrededor de tres veces el volumen de llamadas de sus homólogas occidentales, ya que la voz sigue siendo el principal canal de interacción con el cliente», afirmó. «Los sistemas existentes están diseñados para los mercados occidentales que cuentan con infraestructura de GPU de alta gama, entornos de voz estándar en inglés y europeo, y flujos de trabajo empresariales comunes en EE. UU. y Europa. Esto crea una brecha significativa cuando las empresas necesitan un sistema que maneje dialectos, cambio de códigos, patrones de voz no oficiales y que funcione con la infraestructura de telefonía existente y dentro de un rango de precios práctico».
En otras palabras, empresas como Eleven Labs, DeepGram, Sierra y Cognigy se están expandiendo globalmente a un ritmo rápido, pero los mercados para los que están construidas y los mercados a los que sirven no son necesariamente los mismos. Empresas emergentes como AethexAI están apostando a que brechas como los modelos dialectales regionales específicos, las asociaciones sobre el terreno y la infraestructura construida localmente representan aperturas de mercado que los gigantes no tienen ni el incentivo ni la arquitectura para llenar.
Si compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta la independencia editorial.
Source link
