Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Agora pode gerar fala em tempo real que soa conversacional.
A Microsoft acaba de abrir o código do VibeVoice, um sistema de texto-para-fala em tempo real com ~300 ms de latência de áudio inicial e entrada de streaming.
Ele lida com longas conversas sem desmoronar.
𝗘𝘀𝘁𝗲 𝗺𝗼𝗱𝗲𝗹𝗼 𝗴𝗲𝗻𝗲𝗿𝗮 𝗳𝗮𝗹𝗮 𝗹𝗼𝗻𝗴𝗮 𝗲 𝗺𝘂𝗹𝘁𝗶-𝗽𝗮𝗿𝗹𝗮𝗻𝘁𝗲.
Produz até 90 minutos de áudio.
Suporta até quatro falantes distintos.
A troca de turnos permanece consistente ao longo de longas sessões.
𝗘𝘀𝘁𝗲 𝗺𝗼𝗱𝗲𝗹𝗼 𝗮𝗰𝘁𝘂𝗮 𝗿𝗲𝗱𝘂𝘇𝗶𝗻𝗱𝗼 𝗮 𝗿𝗲𝘀𝗼𝗹𝘂𝗰𝗶𝗼 𝗱𝗼 𝘁𝗲𝗺𝗽𝗼.
O áudio é comprimido em tokens semânticos e acústicos.
Eles operam a 7,5 Hz em vez de áudio em nível de quadro.
Um modelo de linguagem prevê a estrutura.
Uma cabeça de difusão restaura o detalhe acústico.
𝗜𝘀𝘁𝗼 𝗽𝗲𝗿𝗺𝗶𝘁𝗲 𝗮 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗱𝗲 𝗮𝘂𝗱𝗶𝗼 𝗰𝗼𝗺 𝗹𝗮𝘁𝗲𝗻𝗰𝗶𝗮 𝗳𝗮𝗹𝗮.
A variante em tempo real transmite texto de forma incremental.
A primeira fala chega em ~300 ms.
Uma demonstração WebSocket mostra geração ao vivo.
O código é licenciado sob MIT e é apenas para pesquisa.
O repositório já passou de 20k estrelas no GitHub.
1. Achou isto útil? Não se esqueça de seguir! Eu publico diariamente sobre as inovações em IA que todo desenvolvedor precisa conhecer.
2. Curtidas/retweets são muito apreciados.
3. Também vale a pena conferir: a newsletter, lida por mais de 250k desenvolvedores de IA.
130
Top
Classificação
Favoritos
