文章首發(fā)微信公眾號(hào):小小cv筆記 論文題目 pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction 1、簡(jiǎn)介 pixelSplat是一個(gè)前饋模型,它學(xué)習(xí)從圖像對(duì)中重建三維高斯基元參數(shù)化的三維輻射場(chǎng)。模型具有實(shí)時(shí)和內(nèi)存高效渲染,可擴(kuò)展的訓(xùn)練以及在推理時(shí)快速的3D重建。為了克服稀疏和局部支持表示所固有的局部最小值,我們預(yù)測(cè)了3D上的密集概率分布和該概率分布的樣本高斯均值。通過(guò)一個(gè)重參數(shù)化技巧使這個(gè)采樣操作可微,允許我們通過(guò)高斯飛濺表示反向傳播梯度。在現(xiàn)實(shí)世界的RealEstate10k和ACID數(shù)據(jù)集上對(duì)方法進(jìn)行了寬基線新視圖合成的基準(zhǔn)測(cè)試,其中我們優(yōu)于最先進(jìn)的光場(chǎng)轉(zhuǎn)換器,并在重建可解釋和可編輯的3D輻射場(chǎng)時(shí)將渲染速度加快了2.5個(gè)數(shù)量級(jí)。 2、背景 1)單場(chǎng)景新穎視圖合成。早期的方法采用體素網(wǎng)格和學(xué)習(xí)的渲染技術(shù),最近,神經(jīng)場(chǎng)和體渲染已經(jīng)成為事實(shí)上的標(biāo)準(zhǔn)。然而,這些方法的一個(gè)關(guān)鍵障礙是它們的高計(jì)算需求,因?yàn)殇秩就ǔP枰獙?duì)每條光線進(jìn)行數(shù)十次神經(jīng)場(chǎng)查詢。離散數(shù)據(jù)結(jié)構(gòu)可以加速渲染,但在高分辨率下無(wú)法實(shí)現(xiàn)實(shí)時(shí)渲染。3D高斯噴濺解決了這個(gè)問(wèn)題,它使用3D高斯分布來(lái)表示輻射場(chǎng),可以通過(guò)柵格化有效地渲染。然而,所有的單場(chǎng)景優(yōu)化方法都需要幾十張圖像來(lái)實(shí)現(xiàn)高質(zhì)量的新視圖合成。 2)基于先驗(yàn)的三維重建和視圖合成。可概括的新穎視圖合成旨在從每個(gè)場(chǎng)景的少數(shù)圖像中實(shí)現(xiàn)3D重建和新穎視圖合成。如果代理幾何(如深度圖)可用,機(jī)器學(xué)習(xí)可以與基于圖像的渲染相結(jié)合,以產(chǎn)生令人信服的結(jié)果。 3)在這項(xiàng)工作中,訓(xùn)練神經(jīng)網(wǎng)絡(luò)在單個(gè)前向傳遞中僅從兩張圖像中估計(jì)3D高斯原始場(chǎng)景表示的參數(shù)。我們的方法呈現(xiàn)出兩全其美的效果:它以3D高斯形式推斷出可解釋的3D場(chǎng)景表示,同時(shí)與光場(chǎng)變壓器相比,渲染速度加快了三個(gè)數(shù)量級(jí)。 3、方法 1)給定一對(duì)圖像及相機(jī)參數(shù),可推斷出底層場(chǎng)景的三維高斯表示,可以渲染產(chǎn)生看不見(jiàn)的視點(diǎn)的圖像。方法包括一個(gè)雙視圖圖像編碼器(解決尺度模糊性)和一個(gè)像素對(duì)齊的高斯預(yù)測(cè)模塊。 2)雙視圖圖像編碼器,論文使用兩張圖像進(jìn)行新視角合成,將兩個(gè)參考視圖表示 為I1和 I2 。對(duì)I1中的每個(gè)像素,利用I2來(lái)中對(duì)應(yīng)的外極線,來(lái)標(biāo)注I1相應(yīng)的深度。深度值是根據(jù)I1和 I2 的相機(jī)位姿計(jì)算出來(lái)的 。編碼器通過(guò)外極注意力(epipolar attention)找到每個(gè)像素的對(duì)應(yīng)關(guān)系,并記憶該像素的相應(yīng)深度。如果在 I2 中沒(méi)有對(duì)應(yīng)的像素的深度,則通過(guò)每幅圖像的自注意來(lái)修復(fù)。合成新視角基本都需要補(bǔ)充信息,常見(jiàn)的是加入深度信息,本文也是通過(guò)兩幅圖像計(jì)算出深度信息作為補(bǔ)充?? 3)在兩個(gè)不同的視圖(圖像)中捕獲(投影)時(shí),如何使用三角測(cè)量來(lái)計(jì)算點(diǎn) (X) 的深度。在此圖中,C1 和 C2 分別是左右攝像頭的已知 3D 位置。x1 是左相機(jī)捕獲的 3D 點(diǎn) X 圖像,x2 是右相機(jī)捕獲的 X 圖像。x1 和 x2 稱為對(duì)應(yīng)點(diǎn),因?yàn)樗鼈兪峭?3D 點(diǎn)的投影。我們使用 x1 和 C1 找到 L1,使用 x2 和 C2 找到 L2。因此,我們可以使用三角測(cè)量來(lái)找到 X, 4)像素對(duì)齊的高斯預(yù)測(cè)模塊,提出了像素對(duì)齊高斯函數(shù)的概率預(yù)測(cè)。對(duì)于輸入特征圖中的每個(gè)像素特征F[u],神經(jīng)網(wǎng)絡(luò)f預(yù)測(cè)高斯原語(yǔ)參數(shù)Σ和s,高斯位置μ和不透明度α不能直接預(yù)測(cè),這將導(dǎo)致局部最小值。相反,f預(yù)測(cè)深度p?(z)上的每像素離散概率分布,由φ參數(shù)化。然后采樣產(chǎn)生高斯基元的位置。每個(gè)高斯的不透明度被設(shè)置為采樣深度桶的概率。最后一組高斯原語(yǔ)可以使用3DGS飛濺算法從新的視圖中渲染出來(lái)。 5)像素對(duì)齊高斯的概率預(yù)測(cè),需要:深度桶b∈RZ,像素坐標(biāo)u處的特征F[u],參考視圖的相機(jī)原點(diǎn)o,射線方向du。1、預(yù)測(cè)深度概率φ和偏置δ,協(xié)方差Σ,球諧波系數(shù)S,2、樣本深度桶指數(shù)z從離散概率分布參數(shù)化的φ,3、通過(guò)解投影計(jì)算高斯平均值μ,深度bz由桶偏移量δz調(diào)整,4、根據(jù)采樣深度的概率設(shè)置高斯不透明度α 4、實(shí)驗(yàn) 1)和其他方法的性能對(duì)比 2)和其他方法的可視化對(duì)比 3)消融實(shí)驗(yàn) |