Tecnologia de compressão de vídeo usa inteligência artificial e reduz drasticamente o tamanho do arquivo do conteúdo
O Fujitsu Laboratories, com sede no Japão, revelou à RedShark uma tecnologia de compressão de vídeo que usa inteligência artificial (IA) para reduzir drasticamente o tamanho do arquivo do conteúdo em comparação com os codecs de vídeo existentes. O tamanho dos dados pode ser reduzido para 1/10 do tamanho da tecnologia de compressão convencional sem deteriorar a precisão do reconhecimento, observou a empresa sobre quando a tecnologia é aplicada ao conteúdo de vídeo 4K.
Ao desenvolver essa nova tecnologia de compressão, a Fujitsu se concentrou em uma importante divergência na maneira como a IA e os seres humanos reconhecem imagens. Nomeadamente, tendem a diferir nas áreas da imagem que são enfatizadas como importantes para o julgamento ao reconhecer pessoas, animais ou objetos nos dados de vídeo. Por exemplo, os humanos tendem a focar nos rostos de uma imagem. Codecs convencionais aplicam alta fidelidade a essas áreas. Porém, com a assistência da AI para restauração de imagens, a baixa fidelidade pode ser usada nessas áreas. A tecnologia da Fujitsu analisa automaticamente as áreas que a IA valoriza para compactar dados para o tamanho mínimo que a IA pode reconhecer.
De acordo com os pesquisadores do Fujitsu Labs, o método baseado em IA parece ser uma análise de pré-codificação usada como entrada para algoritmos de codificação mais convencionais, como o HEVC. A análise usa o aprendizado de máquina para avaliar determinadas classes de objetos. Esse aprendizado de máquina geralmente usa máquinas para visualizar imagens de alta e baixa resolução de objetos de destino para entender melhor os recursos mínimos necessários para restaurar uma imagem de alta fidelidade a partir de uma fonte de baixa resolução.
A análise da Fujitsu é feita quadro a quadro. A análise de movimento é feita pelo software de codificação convencional. Até agora, a Fujitsu avaliou apenas o processo de redução do tamanho do arquivo e não como isso pode afetar as taxas de transmissão de imagens. Os pesquisadores compararam o pré-processador e a codificação HEVC com uma codificação padrão HEVC para obter a redução de 1/10 do tamanho do arquivo. No entanto, não foram capazes de fornecer mais detalhes, como taxa de quadros de 4K, subamostragem de cores ou perfil de codificação usado.
A codificação foi realizada usando o NVEnc da NVIDIA, com a decodificação realizada na solução de hardware ou software existente. Essa codificação não parece ser possível em tempo real, mas os pesquisadores estão avaliando a codificação “sob várias condições”, nos disseram.
Os pesquisadores também afirmam que não há perda de qualidade de imagem ao usar seu algoritmo. Porém, para avaliar a qualidade visual (PSNR, SSIM, VMAF), a empresa declarou que usou “a precisão do reconhecimento como um índice, comparamos (sem degradar) as taxas de precisão do reconhecimento dos mecanismos de reconhecimento.” Segundo o Fujitsu Laboratories o efeito da degradação da qualidade da imagem específica da compactação na precisão do reconhecimento é analisado para cada área. “A taxa de compressão que não afeta a precisão do reconhecimento é estimada automaticamente com base nos resultados do reconhecimento de IA.”
A ideia de usar um pré-processador de codificador não é nova nem o uso de IA para ajudar na codificação. Por exemplo, o codec Perseus da V-Nova é cobrado como um pré-processador que pode ser usado em conjunto com outros codecs para reduzir as taxas de bits de streaming. Além disso, empresas como Sharp e Samsung já estão desenvolvendo uma nova tecnologia de streaming que usa IA para reduzir as taxas de bits. O que não está claro é se esses esforços também são uma etapa do tipo pré-processador ou se essas são novas abordagens de codec.
O Fujitsu Labs tem mais trabalho a fazer antes que um produto comercial possa ser oferecido, mas acredita que isso pode acontecer até o final do ano. “Estamos construindo uma estrutura de negócios interna para oferecê-lo como uma tecnologia de plataforma de TIC. Os clientes podem ver o middleware da plataforma”, concluiu o laboratório.
Fonte: Chris Chinnock/RedShark