GTMNet: um transformador de visão com mapa de transmissão guiada para desembaçamento de imagem de sensoriamento remoto único

Scientific Reports volume 13, Número do artigo: 9222 (2023) Citar este artigo

35 acessos

Detalhes das métricas

Os algoritmos de desembaçamento existentes não são eficazes para imagens de sensoriamento remoto (RSIs) com neblina densa, e os resultados de desembaçamento são propensos a realce excessivo, distorção de cores e artefatos. Para resolver esses problemas, propomos um modelo GTMNet baseado em redes neurais convolucionais (CNNs) e transformadores de visão (ViTs), combinados com dark channel prior (DCP) para obter um bom desempenho. Especificamente, uma camada de transformação de característica espacial (SFT) é usada pela primeira vez para introduzir suavemente o mapa de transmissão guiada (GTM) no modelo, melhorando a capacidade da rede de estimar a espessura da neblina. Um módulo reforçado de operação e subtração (SOS) é então adicionado para refinar os recursos locais da imagem restaurada. A estrutura do GTMNet é determinada ajustando a entrada do módulo SOS impulsionado e a posição da camada SFT. No conjunto de dados SateHaze1k, comparamos o GTMNet com vários algoritmos clássicos de desembaçamento. Os resultados mostram que nos subconjuntos de nevoeiro moderado e nevoeiro espesso, o PSNR e o SSIM do GTMNet-B são comparáveis aos do modelo de última geração Dehazeformer-L, com apenas 0,1 vezes a quantidade do parâmetro. Além disso, nosso método é intuitivamente eficaz para melhorar a clareza e os detalhes das imagens desembaçadas, o que prova a utilidade e a importância de usar o GTM anterior e o módulo SOS reforçado em uma única desembaçamento de RSI.

Satélites de sensoriamento remoto e sensores de veículos aéreos não tripulados (UAV) são suscetíveis a fenômenos atmosféricos que podem prejudicar o contraste e a fidelidade de cores das imagens coletadas, resultando em detalhes de imagem enfraquecidos e dificultando o reconhecimento de informações na imagem. Neblina, névoa e fumaça são fenômenos atmosféricos muito comuns gerados pela absorção e dispersão atmosférica. Com a aplicação da tecnologia de sensoriamento remoto nas áreas de segurança policial, proteção de plantas agrícolas e florestais, inspeção de patrulha de energia elétrica, levantamento de recursos terrestres e aplicações semelhantes, é de grande importância remover com precisão neblina, neblina e fumaça de imagens de sensoriamento remoto (RSIs) para detecção de alvo, rastreamento de alvo e detecção de UAV. Para simplificar, o termo dehazing é usado uniformemente para denotar a remoção de neblina, névoa e fumaça.

Na tarefa de desembaçamento da imagem, a seguinte expressão é amplamente usada para descrever a imagem nebulosa como1,2,3:

onde \(I(x)\), \(J(x)\), A e t denotam a imagem nebulosa, a imagem livre de neblina, a luz atmosférica global e o mapa de transmissão, respectivamente. A desembaçamento de imagem única é um problema desafiador, que é pouco restrito devido às informações de profundidade desconhecidas. Atualmente, vários algoritmos de desembaçamento de várias direções foram propostos.

As primeiras abordagens baseadas em prévias demonstraram ser eficazes. Usando a Eq. (1), \(A\) e \(t\) devem ser estimados com precisão para restaurar imagens nítidas. Um dos mais representativos é o método DCP (Dark Channel Priority)4 para determinar a relação de mapeamento entre imagens nítidas e modelos físicos atmosféricos, que é um algoritmo de desembaçamento relativamente estável. No entanto, o efeito de desembaçamento em grandes áreas brancas tende a produzir grandes desvios. Portanto, vários pesquisadores usam abordagens de aprendizado profundo baseadas em dados5,6 para estimar os parâmetros intermediários do modelo de espalhamento atmosférico e construir uma relação de mapeamento da imagem nebulosa para os parâmetros intermediários. Esses algoritmos de aprendizado profundo são baseados no modelo de dispersão atmosférica. Embora tenham melhorado muito na região do céu e sejam visualmente mais eficazes do que os métodos tradicionais, os modelos são altamente complexos e vulneráveis às limitações de iluminação atmosférica e mudanças de cena, resultando em baixo desempenho em tempo real e brilho escurecido da imagem restaurada. Para resolver esses problemas, vários algoritmos preveem diretamente as imagens latentes livres de neblina de maneira ponta a ponta. Huang et al.7 propuseram uma rede adversária generativa condicional que usa imagens RGB e SAR para dehazing. Mehta et al.8 desenvolveram o SkyGAN especificamente para remover neblina em imagens aéreas, abordando o desafio de conjuntos de dados de imagens aéreas hiperespectrais nebulosos limitados.