Modelo de voz engenhoso Voxtral TTS chega como open-source e roda em smartwatches

Voxtral TTS é um modelo de texto-para-fala open-source lançado pela Mistral que pode ser usado em assistentes de voz e em casos empresariais como atendimento ao cliente.

“Nossos clientes têm pedido um modelo de fala. Então construímos um modelo pequeno que pode rodar em um smartwatch, em um smartphone, em um laptop ou em outros dispositivos de borda. O custo dele é uma fração de qualquer outra coisa no mercado, mas oferece desempenho de ponta”, disse Pierre Stock, vice-presidente de operações científicas da Mistral.

O modelo suporta nove idiomas — incluindo inglês, francês, alemão, espanhol, neerlandês, português, italiano, hindi e árabe — e pode adaptar uma voz personalizada com uma amostra de áudio de menos de cinco segundos, preservando sotaques, inflexões e irregularidades no fluxo da fala.

A empresa afirma que o Voxtral TTS foi criado para desempenho em tempo real: 90ms de tempo até o primeiro áudio em uma amostra de 10 segundos (500 caracteres) e fator de tempo real de 6x, capaz de renderizar um clipe de 10 segundos em cerca de 1,6 segundos. A Mistral já lançou modelos de transcrição neste ano e busca oferecer uma plataforma end-to-end para fluxos multimodais.