Home Reportagens Adobe e Speechmatics levam reconhecimento de fala com qualidade de nuvem para uso local no Premiere

Adobe e Speechmatics levam reconhecimento de fala com qualidade de nuvem para uso local no Premiere

Adobe e Speechmatics ampliam parceria com transcrição local avançada no Premiere com precisão próxima à nuvem

Por Ricardo Batalha

A Adobe anunciou a expansão de sua parceria com a Speechmatics para oferecer reconhecimento de fala com qualidade de nuvem diretamente no dispositivo dentro do Premiere. A novidade permite realizar transcrição de áudio localmente, com desempenho e precisão adequados para uso profissional.

A colaboração entre as empresas começou em 2021, quando o Premiere se tornou a primeira plataforma de edição não linear a integrar recursos de speech-to-text. Agora, o novo modelo on-device aprofunda essa integração ao oferecer transcrição com precisão próxima à da nuvem, mantendo todos os dados de áudio processados localmente.

A abordagem atende especialmente a empresas e estúdios que não podem utilizar serviços em nuvem por questões de privacidade e soberania de dados. Com a evolução do modelo da Speechmatics, a diferença de desempenho entre processamento local e em nuvem foi significativamente reduzida, permitindo fluxos de trabalho mais seguros sem comprometer a qualidade.

Segundo a Adobe, a solução possibilita que equipes trabalhem de qualquer lugar, como sets de filmagem, deslocamentos ou ambientes sem conexão, mantendo alta precisão e continuidade no processo de edição.

O novo modelo foi treinado com milhões de horas de áudio, garantindo desempenho robusto em diferentes cenários, incluindo fala com sotaques variados, usuários não nativos e ambientes ruidosos, como reportagens externas e produções audiovisuais.

Entre os principais destaques, o sistema apresenta precisão dentro de uma margem de 5% em relação à nuvem, com base em testes com quase 10 milhões de palavras. Além disso, é capaz de processar uma hora de áudio em aproximadamente 55 segundos e supera concorrentes baseados em soluções como Whisper, com ganhos entre 12% e 16% em desempenho.

A tecnologia é compatível com Windows e macOS e utiliza aceleração por hardware para rodar de forma eficiente em diferentes configurações, incluindo chips mais recentes da Apple, GPUs NVIDIA e AMD, além de máquinas mais antigas.

O modelo on-device passa a integrar o portfólio da Speechmatics ao lado das opções em nuvem e on-premise, oferecendo flexibilidade para desenvolvedores e empresas que precisam de processamento local, operação offline ou maior previsibilidade de custos.

Acompanhe a Panorama Audiovisual no Facebook e YouTube

Assuntos relacionados