Mostrar el registro completo del ítem
| Título: | An asymmetric multi-layer visual signal compression approach combining handcrafted and learned solutions |
| Autor: | Cancellier, Luiz Henrique De Lorenzi |
| Resumen: |
As soluções utilizando Redes Neurais (RN) têm ganhado popularidade em diversos domínios científicos e aplicações nos últimos anos. Os primeiros trabalhos de compressão de vídeo por aprendizado concentraram-se na substituição de algoritmos utilizados em etapas específicas da codificação híbrida por implementações baseadas em NN. Mais recentemente, modelos de compressão totalmente baseados em aprendizagem foram desenvolvidos, alcançando resultados de eficiência de compressão semelhante ou superiores àqueles alcançados por padrões convencionais, os quais têm sido otimizados por décadas. Entretanto, até o presente momento, poucos estudos exploraram a combinação de soluções baseadas em aprendizagem e em algoritmos convencionais em uma estrutura de compressão em múltiplas camadas, abordagem esta investigada neste trabalho. A metodologia proposta aproveita as vantagens de ambos os métodos ao aplicá-los em camadas apropriadas: o bitstream da camada base, gerado por um codec convencional, mantém conformidade com um padrão consolidado, enquanto que a camada de aprimoramento utiliza os espaços latentes para melhorar a compressão e reconstrução. Além disso, o modelo proposto, nomeado Compressor Multi-Camadas Assimétrico -- Asymmetric Multi-layer compressor (AMLC), desacopla as camadas base e de aprimoramento na etapa de codificação, permitindo simplificações da codificação na camada de aprimoramento, que é aprendida de ponta-a-ponta. Experimentos com uma implementação parcial do framework, incorporando diferentes soluções de upscaling espacial e temporal, revelaram que o uso exclusivo de upscaling espacial apresenta resultados mais próximos aos da compressão convencional em camada única. Consequentemente, optou-se pela implementação do framework para codificação quadro-a-quadro. O AMLC codifica uma imagem 1,28 vezes mais rapidamente do que um codec multi-camadas totalmente aprendido, apresentando eficiência de codificação semelhante, mesmo utilizando uma camada base convencional que é menos eficiente em termos de compressão. O codificador assimétrico aprendido, em conjunto com a camada base convencional, reduz a complexidade geral, enquanto a camada de aprimoramento aprendida melhora a eficiência de codificação. Os resultados experimentais demonstram que o AMLC supera a eficiência de codificação do software de referência SHVC, um codec convencional multi-camadas. Em uma segunda análise, observou-se que a inclusão das dependências entre camadas na etapa de codificação produziu resultados semelhantes ao AMLC, confirmando que a adoção das simplificações adotadas pelo AMLC não causa perdas significativas de eficiência de codificação. Abstract: Neural Network (NN) solutions have gained popularity in many scientific domains and applications in recent years. Early works on learned solutions for video compression focused on replacing specific handcrafted algorithms with NN-based implementations. More recently, fully learned compression models have been developed, achieving similar or better compression efficiency than handcrafted standards, which have been optimized for decades. However, few studies have explored combining learned and handcrafted solutions in a multi-layer compression framework, the way we explored in this research. The approach proposed in this thesis leverages the advantages of both methods by employing them on appropriate layers: the Base Layer (BL) bitstream, generated by a handcrafted codec, remains compliant with a well-established standard, while the Enhancement Layer (EL) utilizes learned latent spaces to improve the compression and reconstruction. Additionally, the proposed AMLC model decouples the base and enhancement layers on the encoding stage, enabling an end-to-end learned enhancement layer that simplifies the coding process. Experiments conducted with a partial implementation of the proposed framework, incorporating different spatial and temporal upscaling solutions, revealed that using only spatial upscaling yields results closest to those from handcrafted single-layer compression. Consequently, the framework was implemented for single-frame encoding. The experimental results showed that AMLC encodes an image 1.28 times faster than a fully learned multi-layer codec while maintaining similar coding efficiency, despite relying on a less coding-efficient handcrafted base layer. The asymmetric learned encoder and handcrafted BL reduce the overall complexity, while the learned enhancement layer improves coding efficiency. The results also show that AMLC outperforms the coding efficiency of SHVC reference software, a handcrafted multi-layer codec. Furthermore, an alternative implementation of the proposed model, incorporating inter-layer dependency during encoding, produces results that are similar to AMLC, confirming its potential to simplify multi-layer compression without significant losses in coding efficiency. |
| Descripción: | Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025. |
| URI: | https://repositorio.ufsc.br/handle/123456789/269451 |
| Fecha: | 2025 |
| Ficheros | Tamaño | Formato | Ver |
|---|---|---|---|
| PGCC1320-T.pdf | 8.167Mb | Ver/ |