“建立在堅實技術(shù)基礎(chǔ)上的創(chuàng)意娛樂公司”索尼,始終以“人”為本,在前沿技術(shù)領(lǐng)域不斷探索進取。后疫情時代,索尼黑科技正式確立了3R戰(zhàn)略(真實(Reality)、實時(Real-time)和遠(yuǎn)程(Remote),致力于為內(nèi)容創(chuàng)作賦能,共同開創(chuàng)前所未有的娛樂表達(dá)方式。 “索尼黑科技”專欄將定期為您介紹最具代表性的索尼技術(shù)創(chuàng)新成果,探索如何“用創(chuàng)意和科技的力量感動世界”。本期將為您帶來的是——索尼的體積空間捕捉技術(shù)。
體積空間捕捉技術(shù)可以將人、物體或地點轉(zhuǎn)換為三維數(shù)字信息并將其再現(xiàn)為高質(zhì)量的圖像。這是一項可以捕捉整個現(xiàn)實世界并支持從任何視角觀看的自由視角視頻技術(shù)。 除了提供新的視頻體驗外,它還可能成為一種新的內(nèi)容制作方法。 有望突破常規(guī)視頻制作的界限,應(yīng)用在娛樂領(lǐng)域的各個方面。針對這項技術(shù),我們采訪了索尼研發(fā)中心從事體積空間捕捉技術(shù)算法開發(fā)的兩位工程師。
受訪人資料:
從體育廣播擴展到娛樂領(lǐng)域的新型沉浸式視頻內(nèi)容
Q:我們聽說自由視角視頻技術(shù)已被廣泛應(yīng)用于視頻制作過程當(dāng)中。
廣田:隨著虛擬現(xiàn)實(VR)技術(shù)的發(fā)展,近幾年來自由視角視頻技術(shù)一直應(yīng)用于體育廣播行業(yè),最近也開始應(yīng)用于視頻內(nèi)容制作領(lǐng)域。尤其是全向可視化技術(shù),相信很多人都已經(jīng)通過各公司提供的在線服務(wù)等體驗過360度全景影像技術(shù)。
在此背景之下,全向可視化技術(shù)在包括成像、生產(chǎn)、傳輸和顯示的綜合視頻生產(chǎn)工作流程中變得更加重要??v觀全向可視化技術(shù)商業(yè)化的其他發(fā)展,MPEG(Moving Picture Experts Group,運動圖像專家組)作為制定視頻標(biāo)準(zhǔn)的組織,現(xiàn)已完成了360度視頻格式的標(biāo)準(zhǔn)制定。并且MPEG-I第三部分中的全方位媒體格式(OMAF)已經(jīng)開始被創(chuàng)作者用來制作各種新的沉浸式視頻內(nèi)容。因此,我們也在積極參與各種針對視頻制作方面的倡議。
Q:通過這項技術(shù)可以創(chuàng)造什么樣的價值?
廣田 :隨著自由視角技術(shù)的發(fā)展,我們相信“自由視角”與“現(xiàn)實”將成為關(guān)鍵因素。我們目前正在開發(fā)的體積空間捕捉技術(shù)旨在超越全向可視化。這項技術(shù)最初用于體育廣播,現(xiàn)在已經(jīng)擴展到娛樂領(lǐng)域,視頻內(nèi)容創(chuàng)作者認(rèn)為其可以為音樂會和商業(yè)廣告帶來新的價值。充分利用索尼現(xiàn)有的業(yè)務(wù)和成像/視頻技術(shù)資產(chǎn),我們能夠捕捉到低成本、高質(zhì)量的自由視角視頻,從而創(chuàng)造一個從專業(yè)人士到普通客戶都能獲益的新業(yè)務(wù)模式。
體積空間捕捉技術(shù)預(yù)計將應(yīng)用于娛樂和體育等各個領(lǐng)域
營造身臨其境的感覺
Q:目前還存在哪些問題?
廣田:在目前的全向可視化技術(shù)中,你可以通過戴上頭盔,轉(zhuǎn)動頭部來觀察你周圍360度的環(huán)境,但你不能在物體周圍移動并從后面查看。這是其與用CG創(chuàng)建的VR內(nèi)容的主要區(qū)別。一個更靈活的視角對于讓用戶沉浸在VR環(huán)境中至關(guān)重要。為了提供身臨其境的體驗,需要提高視頻本身的基本畫質(zhì),如分辨率和幀速率。而這又需要處理大量的數(shù)據(jù),所以我認(rèn)為我們在視頻和顯示方面都有很多工作要做。
Q:你將如何去解決這些問題?
菅野:運用自由視角視頻技術(shù),我們可以通過在被攝對象周圍放置多個攝像機進行拍攝來生成三維模型。體積空間捕捉技術(shù)最大的特點是能夠在沒有實際攝像機的地方,根據(jù)捕捉到的三維模型,從一個虛擬的視點生成圖像。創(chuàng)建一個虛擬視角涉及到校準(zhǔn)多個攝像機,生成拍攝主體的三維模型,對三維模型進行紋理映射以及生成攝影作品等多個過程。與大量攝像機緊挨著排成一排的子彈時間視頻相比,我們從分散的攝像機中創(chuàng)建三維數(shù)字信息來生成視頻,使視頻創(chuàng)作者和觀眾能夠更加自由和交互地操控他們的視角。
廣田:目前,我們專注于捕捉、顯示和傳輸?shù)募夹g(shù)開發(fā)。可以說,索尼的獨特優(yōu)勢在于將這三個領(lǐng)域結(jié)合起來實現(xiàn)新的價值。
匯集了索尼所有的圖像信號處理技術(shù)
Q:捕獲過程涉及哪些核心技術(shù)?
廣田:當(dāng)然,何為最佳的拍攝系統(tǒng)取決于拍攝對象。雖然在學(xué)術(shù)領(lǐng)域有一些利用龐大的系統(tǒng)使用數(shù)百個攝像頭的示例,但從商業(yè)角度來看,這不夠現(xiàn)實。目前使用體積空間捕捉技術(shù)的拍攝系統(tǒng)專門用于拍攝相對較小的區(qū)域,并且或多或少需要拍攝對象站在指定的地方。 因此,它們不太適合捕捉四處走動的音樂藝術(shù)家或大量同時表演的人群。
相比之下,我們針對娛樂業(yè)的拍攝系統(tǒng)是獨一無二的,它可以在相對較大的區(qū)域內(nèi)捕捉到一個或多個四處走動、跳舞或做一些其他類型表演的人。 為了進一步提升這一點,我們不斷對傳感器和鏡頭、用于同步多個攝像機的系統(tǒng)、攝像機和燈光布置以及色鍵背景材料等等進行開發(fā)和理論驗證試驗。
Q:聽說你們開了一家新的攝影工作室!
廣田:沒錯。我們于 2020 年 1 月在索尼總部開設(shè)了日本最大的體積捕捉工作室,并配備了我們所積累的技術(shù)。我們在這個工作室拍攝的第一個內(nèi)容是花式跳繩游戲,其中包括兩條向相反方向擺動的跳繩。為了充分利用工作室獨特的5米拍攝區(qū)域,五人參與的花式跳繩游戲成為了最佳選擇。高速移動的細(xì)繩對于拍攝和信號處理極具挑戰(zhàn)性,但拍攝取得了巨大成功。我們展示了該技術(shù)不僅在視覺表達(dá)方面,而且在運動分析方面也有潛力。今后,我們的目標(biāo)是與公司內(nèi)外的各方合作,加快技術(shù)開發(fā)和業(yè)務(wù)驗證。
拍攝于日本最大的攝影工作室之一(索尼總部)
Q:拍攝時遇到過什么樣的挑戰(zhàn)?
廣田:同步多個攝像機是體積空間捕捉技術(shù)的挑戰(zhàn)所在。 所有攝像機都需要同時拍攝并傳輸/聚合圖像使其成為 3D影像。 因此,我們一直在開發(fā)和評估我們的硬件和軟件,例如引入具有全局快門的圖像傳感器,嘗試將信號同時分配到每個攝像機的方法以及在聚合數(shù)據(jù)時運用重新同步攝像機的方式等等。
追求播放質(zhì)量,制作更逼真的圖像
Q:你在展示上面臨什么樣的挑戰(zhàn)?
廣田:利用體積空間捕捉技術(shù)需要使用 3D 計算機視覺來創(chuàng)建沒有攝像頭的虛擬視點,這個過程就是渲染。 這里的問題是人們有時稱之為“恐怖谷”*的不自然感。 索尼通過結(jié)合先進的 2D 圖像處理技術(shù)與機器學(xué)習(xí)技術(shù),解決了這個問題。 這些可能是人造圖像,但最終顯示的圖像質(zhì)量才是最重要的。
*譯者注:恐怖谷理論由日本機器人學(xué)家森昌弘提出,該理論認(rèn)為:由于機器人與人類在外表、動作上相似,所以人類亦會對機器人產(chǎn)生正面的情感;而當(dāng)機器人與人類的相似程度達(dá)到一個特定程度的時候,人類對他們的反應(yīng)便會突然變得極其負(fù)面和反感,哪怕機器人與人類只有一點點的差別,都會顯得非常顯眼刺目,從而整個機器人有非常僵硬恐怖的感覺。
菅野:我們現(xiàn)在使用的攝像機數(shù)量是最初的四倍多,并且隨著顯示設(shè)備的分辨率從 2K 發(fā)展到 4K 和 8K,生成的圖像更加逼真,開發(fā)至今,可捕獲對象的移動范圍和數(shù)量也大大提高。
廣田:我們視頻的呈現(xiàn)質(zhì)量之高,會讓你認(rèn)為它們真的是在你的視角用攝像機拍攝的,這很明顯超越了當(dāng)下的體積空間捕捉技術(shù),并且收到了創(chuàng)作者們的一致好評。我們將不斷提升我們技術(shù)的獨特優(yōu)勢,同時也會追求高質(zhì)量的圖像和更高的易用性。
左圖是標(biāo)準(zhǔn)攝像機拍攝的視頻,右圖是用索尼體積空間捕捉技術(shù)拍攝的視頻
Q:傳輸方面又有哪些挑戰(zhàn)?
廣田:我們系統(tǒng)的另一個優(yōu)勢是可以實時的執(zhí)行從捕獲到內(nèi)容分發(fā)的所有工作。大多攝像機拍攝的未壓縮數(shù)據(jù)量最高到100 GB/秒,因此目前在本地計算機上進行數(shù)據(jù)處理是很不現(xiàn)實的。而為了靈活的保有強大的計算資源,我們開發(fā)了獨特的具有高度可拓展性的云處理系統(tǒng)。通過此系統(tǒng),用戶可以實時自由選擇藝術(shù)家直播的現(xiàn)場表演的觀看角度,并享受更多的互動。此系統(tǒng)有望應(yīng)用于下一代的通信方法。
Q:聽說你和索尼音樂娛樂在娛樂領(lǐng)域有合作?
廣田:通過這種體積空間捕捉技術(shù),我們現(xiàn)在能夠?qū)⑷宋锖偷攸c捕捉為 3D 數(shù)據(jù),并將它們再現(xiàn)為高質(zhì)量圖像。我們一直在與索尼音樂娛樂日本 (SMEJ)的合作,探索該技術(shù)的實際使用方法。他們通過提供例如概念驗證的場所來協(xié)助我們。能夠與娛樂領(lǐng)域的人一起嘗試新用途并開發(fā)技術(shù)無疑是索尼最大的優(yōu)勢之一。
菅野: 當(dāng)我們付出心血制作的內(nèi)容投影到演唱會會場的大屏幕上時,我能感受到觀眾們涌動的熱情。同樣,能夠如此近距離的觀看專業(yè)藝術(shù)家的舞臺,也激發(fā)了我們不斷向前的決心。看到我們的技術(shù)用于娛樂舞臺,我真的十分感動。而當(dāng)我在演唱會和電視轉(zhuǎn)播之后看到推特上有很多人問到背景視頻和如何讓其旋轉(zhuǎn)的問題時,我同樣感到非常的開心。
Q:您在未來的目標(biāo)是什么?
菅野:我們的研究小組不斷進行研發(fā),以實現(xiàn)我們 “在真實空間里進行完全數(shù)字化掌控(捕獲、顯示和傳輸)3D 空間的技術(shù)”的使命。我們?nèi)缃裰铝τ趯崟r分發(fā)自由視角視頻。以前的自由視角技術(shù)雖然也允許傳輸錄制的內(nèi)容,但我們未來想要實現(xiàn)的是能夠在遠(yuǎn)程位置看到對象并與其交談,并實現(xiàn)實時自由改變視角。在此之后,我們希望創(chuàng)建一種視頻體驗,讓用戶可以遠(yuǎn)程共享空間、互動,并能真正感受到與他人在一起的感覺。
廣田:可以提供大容量通信的5G技術(shù)開始推出后,我們正在迎來一個任何人都可以體驗VR內(nèi)容的時代。 當(dāng)各個領(lǐng)域的技術(shù)成熟時,我們自然而然地能夠自由地捕捉和分享 3D 體驗,就像我們現(xiàn)在對 2D 圖像和視頻所做的那樣。
索尼正致力于將該技術(shù)應(yīng)用于智能手機的AR內(nèi)容
