Nová technologie umožňuje vykreslování scén v reálném čase ve 3D

Nová technologie umožňuje vykreslování scén v reálném čase ve 3D

Lidé jsou docela dobří v pohledu na jediný dvourozměrný obraz a pochopení celé trojrozměrné scény, kterou zachycuje. Nositelé umělé inteligence však nejsou.

 

Přesto stroj, který potřebuje interagovat s objekty ve světě – jako je robot navržený ke sklízení plodin nebo asistování při operacích – musí být schopen odvodit vlastnosti o 3 D scéně z pozorování 2D snímků, na kterých je trénován.

Zatímco vědci měli úspěch pomocí neuronových sítí k odvození reprezentace 3 D scén z obrázků, tyto metody strojového učení nejsou dostatečně rychlé, aby je bylo možné použít pro mnoho aplikací v reálném světě.

Nová technika, kterou předvedli vědci z MIT a jinde, je schopna reprezentovat 3 D scény z obrázků asi 15 000krát rychleji než některé stávající modely.

Metoda představuje scénu jako 360stupňové světelné pole, což je funkce, která popisuje všechny světelné paprsky v 3 D prostoru, proudící každým bodem a každým směrem. Světelné pole je zakódováno do neuronové sítě, což umožňuje rychlejší vykreslení podkladové 3 D scény z obrazu.

Sítě světelných polí (LFN), které výzkumníci vyvinuli, mohou rekonstruovat světelné pole pouze po jediném pozorování obrazu a jsou schopni vykreslit 3 D scény při obnovovacích frekvencích v reálném čase.

"Velkým příslibem těchto reprezentací neurální scény je na konci dne jejich použití ve zrakových úkolech. Dám vám obrázek a z tohoto obrázku vytvoříte reprezentaci scény a pak vše, o čem chcete uvažovat děláte v prostoru té 3 D scény,“ říká Vincent Sitzmann, postdoktorand v Laboratoři počítačových věd a umělé inteligence (CSAIL) a spoluautor článku.

Sitzmann napsal článek se spoluautorem Semonem Rezchikovem, postdoktorem na Harvardské univerzitě; William T. Freeman, profesor elektrotechniky a informatiky Thomas a Gerd Perkins a člen CSAIL; Joshua B. Tenenbaum, profesor výpočetní kognitivní vědy na katedře mozkových a kognitivních věd a člen CSAIL; a hlavní autor Frédo Durand, profesor elektrotechniky a informatiky a člen CSAIL. Výzkum bude prezentován na konferenci o systémech zpracování neuronových informací.

Mapování paprsků

V počítačovém vidění a počítačové grafice zahrnuje vykreslování 3 D scény z obrazu mapování tisíců nebo možná milionů paprsků kamery. Představte si paprsky fotoaparátu jako laserové paprsky vystřelující z objektivu fotoaparátu a dopadající na každý pixel v obrázku, jeden paprsek na pixel. Tyto počítačové modely musí určit barvu pixelu zasaženého každým paprskem kamery.

Mnoho současných metod toho dosahuje odebíráním stovek vzorků po délce každého paprsku kamery, jak se pohybuje prostorem, což je výpočetně nákladný proces, který může vést k pomalému vykreslování.

Místo toho se LFN naučí reprezentovat světelné pole 3 D scény a poté přímo mapuje každý paprsek kamery ve světelném poli na barvu, kterou tento paprsek pozoruje. LFN využívá jedinečné vlastnosti světelných polí, které umožňují vykreslení paprsku pouze po jediném vyhodnocení, takže LFN se nemusí zastavovat po délce paprsku, aby spustil výpočty.

"S jinými metodami, když děláte toto vykreslování, musíte sledovat paprsek, dokud nenajdete povrch. Musíte udělat tisíce vzorků, protože to znamená najít povrch. A ještě jste ani neskončili." protože mohou existovat složité věci, jako je průhlednost nebo odrazy. U světelného pole, jakmile zrekonstruujete světelné pole, což je komplikovaný problém, vykreslení jednoho paprsku zabere pouze jeden vzorek reprezentace, protože reprezentace přímo mapuje paprsek k jeho barvě,“ říká Sitzmann.

LFN klasifikuje každý paprsek kamery pomocí svých „Plückerových souřadnic“, které představují čáru ve 3 D prostoru na základě jeho směru a vzdálenosti od jeho výchozího bodu. Systém vypočítá Plückerovy souřadnice každého paprsku kamery v bodě, kde zasáhne pixel, aby vykreslil obraz.

Mapováním každého paprsku pomocí Plückerových souřadnic je LFN také schopen vypočítat geometrii scény díky paralaxnímu efektu. Paralaxa je rozdíl ve zdánlivé poloze objektu při pohledu ze dvou různých linií pohledu. Pokud například pohnete hlavou, zdá se, že předměty, které jsou dále, se pohybují méně než předměty, které jsou blíže. LFN dokáže určit hloubku objektů ve scéně díky paralaxe a používá tyto informace ke kódování geometrie scény i jejího vzhledu.

Ale k rekonstrukci světelných polí se neuronová síť musí nejprve dozvědět o strukturách světelných polí, takže výzkumníci trénovali svůj model s mnoha obrázky jednoduchých scén aut a židlí.

"Existuje vnitřní geometrie světelných polí, což je to, co se náš model snaží naučit. Můžete se obávat, že světelná pole aut a židlí jsou tak odlišná, že se mezi nimi nemůžete naučit nějakou podobnost. Ale ukáže se, že pokud přidáte více druhů objektů, pokud existuje určitá homogenita, získáte lepší a lepší představu o tom, jak vypadají světelná pole obecných objektů, takže můžete zobecňovat třídy,“ říká Rezchikov.

Jakmile se model naučí strukturu světelného pole, může jako vstup vykreslit 3 D scénu pouze z jednoho obrázku.

Rychlé vykreslování

Výzkumníci testovali svůj model rekonstrukcí 360stupňových světelných polí několika jednoduchých scén. Zjistili, že LFN byly schopny vykreslovat scény rychlostí více než 500 snímků za sekundu, což je asi o tři řády rychleji než jiné metody. Navíc 3D objekty vykreslené pomocí LFN byly často ostřejší než ty generované jinými modely.

LFN je také méně náročná na paměť, vyžaduje pouze asi 1,6 megabajtů úložného prostoru, na rozdíl od 146 megabajtů u oblíbené základní metody.

"Světelná pole byla navrhována již dříve, ale tehdy byla neovlivnitelná. Nyní, s těmito technikami, které jsme použili v tomto článku, můžete poprvé reprezentovat tato světelná pole a pracovat s těmito světelnými poli. Je to zajímavá konvergence matematické modely a modely neuronových sítí, které jsme vyvinuli, se spojují v této aplikaci reprezentující scény, aby o nich stroje mohly uvažovat,“ říká Sitzmann.

V budoucnu by výzkumníci rádi svůj model učinili robustnějším, aby jej bylo možné efektivně používat pro složité scény v reálném světě. Jedním ze způsobů, jak posunout LFN kupředu, je zaměřit se pouze na rekonstrukci určitých oblastí světelného pole , což by mohlo umožnit modelu běžet rychleji a lépe fungovat v reálných prostředích, říká Sitzmann.

"Neurální vykreslování nedávno umožnilo fotorealistické vykreslování a úpravy obrázků pouze z řídké sady vstupních pohledů. Bohužel všechny stávající techniky jsou výpočetně velmi drahé, což brání aplikacím, které vyžadují zpracování v reálném čase, jako jsou videokonference. Tento projekt dělá velký krok směrem k nové generaci výpočetně účinných a matematicky elegantních neuronových renderovacích algoritmů,“ říká Gordon Wetzstein, docent elektrotechniky na Stanfordské univerzitě, který se na tomto výzkumu nepodílel. "Předpokládám, že bude mít široké uplatnění v počítačové grafice, počítačovém vidění a jinde."

Přiložené soubory:
- Priloha