AI

A nova ferramenta de IA do Facebook transforma imagens 2D em modelos 3D

A nova ferramenta de IA do Facebook transforma imagens 2D em modelos 3D

Quando se trata de estimativa de modelo 3D de fontes 2D, corremos para um canto devido a um conflito entre capacidade de memória e precisão. Precisamos de uma quantidade sustentável de fluxo de dados para manter um alto contexto para nossas máquinas, enquanto a alta resolução é necessária para renderizações precisas com redes neurais. Até agora, as aplicações neste campo favoreciam entradas de baixa resolução para cobrir mais terreno em geral. Este estudo nos leva a um salto em direção a um meio-termo aconchegante.

O Facebook Research aborda esse problema adotando um sistema de análise em várias camadas. Uma análise grosseira assume a imagem completa, focando no raciocínio geral sobre o que é onde. Um segundo nível pega os dados de saída daqui para usar como um roteiro e reúne um geometria mais detalhada com a ajuda de imagens de alta resolução.

VEJA TAMBÉM: O QUE É APRENDIZAGEM PROFUNDA E POR QUE É MAIS RELEVANTE DO QUE NUNCA?

Esta pesquisa não é o único esforço neste campo. A digitalização humana pode abrir a porta para muitas possibilidades em uma variedade de áreas, como imagens médicas para a realidade virtual para simplesmente uma renderização de emoji 3D personalizada. Até hoje, essa tecnologia era limitada para o público em geral devido a limitações como a necessidade de várias câmeras e requisitos de iluminação rígidos. A equipe de pesquisa do Facebook tem como objetivo alcançar um sistema de renderização altamente flexível que pode manter uma alta fidelidade quando se trata de detalhes como dobras na roupa, dedos e nuances em características faciais.

A tecnologia existente anteriormente

Um exemplo notável, SCAPE, publicado em 2005, Stanford empregou malhas pré-modeladas sobre entradas de imagem para produzir renderizações 3D. Embora estes apareçam detalhados por conta própria, eles não representou fielmente o que eles estavam modelando. Neste projeto, no entanto, nenhuma geometria 3D é imposta nas imagens, em vez disso, o contexto geométrico é aplicado em níveis mais elevados sem fazer suposições prematuras. Ou seja, da entrada grosseira à análise detalhada, os detalhes ausentes são implementados de forma incremental e a determinação final das propriedades geométricas do modelo é feita apenas no nível final.

A parte de trás

Mas e quanto ao traseiro? Ele permanece não observado em uma reconstrução de imagem única. A falta de informações certamente significaria estimativas borradas de traseiro e traseiro, certo? Bem, a equipe superou esse problema determinando os normais traseiros, como eles colocaram: "Superamos esse problema aproveitando redes de tradução imagem a imagem para produzir normais traseiros. O condicionamento de nossa inferência de forma alinhada a pixels de vários níveis com a normal inferida da superfície posterior remove a ambigüidade e melhora significativamente a qualidade perceptual de nossas reconstruções com um nível de detalhe mais consistente. "

Se você estiver interessado, eles deixaram de fora um kit de autoteste no Google Colab, embora, para ser justo, ele exija uma certa quantidade de conhecimento de tecnologia e uma compreensão básica de ambientes de programação para correr.


Assista o vídeo: Blender para Archviz - Render Externo (Janeiro 2022).