Mati Staniszewski, cofundador y director ejecutivo de Eleven Labs, dice que la voz se está convirtiendo en la próxima interfaz importante para la IA, lo que significa que los modelos están yendo más allá del texto y las pantallas y, cada vez más, la forma en que las personas interactúan con las máquinas.
Hablando en la Cumbre Web en Doha, Staniszewski dijo a TechCrunch que los modelos de habla como el desarrollado por Eleven Labs ahora están yendo más allá de simplemente imitar el habla humana (incluidas las emociones y la entonación) para trabajar en conjunto con las capacidades de inferencia de modelos de lenguaje más grandes. Como resultado, argumentó, cambiará la forma en que las personas interactúan con la tecnología.
En los próximos años, dijo, «con suerte, todos los teléfonos móviles volverán a estar en nuestros bolsillos y podremos sumergirnos en el mundo real que nos rodea, utilizando nuestra voz como mecanismo para controlar la tecnología».
Esa visión fue la fuerza impulsora detrás de 11Labs que recaudó 500 millones de dólares esta semana con una valoración de 11 mil millones de dólares, y es una visión cada vez más compartida en toda la industria de la IA. OpenAI y Google están poniendo la voz en el centro de sus modelos de próxima generación, mientras que Apple parece estar construyendo silenciosamente tecnología adyacente a la voz y siempre activa a través de adquisiciones como Q.ai. A medida que la IA se vuelve más omnipresente en dispositivos portátiles, automóviles y otro hardware nuevo, el control se reduce cada vez más a tocar una pantalla y más a hablar, lo que hace que la voz sea un campo de batalla clave para la siguiente etapa del desarrollo de la IA.
Seth Pierrepont, socio general de Iconiq Capital, se hizo eco de esa opinión en el escenario de Web Summit, argumentando que si bien las pantallas seguirán siendo importantes para los juegos y el entretenimiento, los métodos de entrada tradicionales, como los teclados, están empezando a parecer «obsoletos».
Y a medida que los sistemas de IA se vuelvan más agentes, las interacciones mismas cambiarán, dijo Pierrepont, a medida que los modelos obtengan barreras de seguridad, integraciones y el contexto que necesitan para responder a indicaciones menos explícitas de los usuarios.
Staniszewski señaló el cambio de agentes como uno de los mayores cambios que se están produciendo. Dijo que los futuros sistemas de voz dependerán cada vez más de la memoria persistente y del contexto construido con el tiempo, en lugar de detallar cada instrucción, lo que hará que las interacciones se sientan más naturales y requieran menos esfuerzo por parte del usuario.
evento de crisis tecnológica
bostón, massachusetts
|
23 de junio de 2026
Esa evolución afectará la forma en que se implementen los modelos de voz, añadió. Si bien los modelos de audio de alta calidad han existido principalmente en la nube, Staniszewski dijo que Eleven Labs está trabajando en un enfoque híbrido que combina el procesamiento en la nube y en el dispositivo. Se trata de una medida destinada a admitir nuevo hardware, incluidos auriculares y otros dispositivos portátiles, donde el audio siempre será un accesorio, en lugar de una característica que dicta cuándo se usa.
Eleven Labs ya se ha asociado con Meta para llevar la tecnología de voz de la empresa a productos como Instagram y Horizon World, la plataforma de realidad virtual de la empresa. Staniszewski dijo que está abierto a colaborar en las gafas inteligentes Ray-Ban de Meta a medida que las interfaces controladas por voz se expanden a nuevos factores de forma.
Pero a medida que la voz se vuelve más persistente e integrada en el hardware cotidiano, se abre la puerta a serias preocupaciones sobre la privacidad, la vigilancia y la cantidad de datos personales almacenados a medida que los sistemas basados en voz se acercan a la vida diaria de los usuarios. Esto es algo de lo que ya se ha acusado a empresas como Google de explotar.
Source link
