平面圖對(duì)于可視化空間,規(guī)劃路線和傳達(dá)建筑設(shè)計(jì)非常有用。例如,進(jìn)入新建筑物的機(jī)器人可以使用平面圖快速感知整體布局。
創(chuàng)建平面圖通常需要完整的布局,以便3D傳感器和攝像機(jī)可以捕獲整個(gè)空間。據(jù)國外媒體報(bào)道,1月11日消息,最近,來自Facebook,德克薩斯大學(xué)奧斯汀分校和卡內(nèi)基梅隆大學(xué)的研究人員正在探索一種人工智能技術(shù),該技術(shù)將利用短視頻中的視覺和音頻來重建剪輯中的平面圖。
。研究人員斷言,音頻提供了空間和語義信號(hào),并補(bǔ)充了圖像的映射功能。
他們說這是因?yàn)槁曇糇匀皇怯晌矬w的幾何形狀驅(qū)動(dòng)的。聲音從表面反射出來,顯示出房間的形狀,遠(yuǎn)遠(yuǎn)超出了攝像機(jī)的視野。
從遠(yuǎn)處聽到的聲音,甚至在多個(gè)房間之外的聲音,都可以揭示出自由空間的存在以及聲音對(duì)象的可能存在。此外,從不同方向聽到的聲音會(huì)根據(jù)這些聲音所代表的活動(dòng)或事物來顯示布局。
例如,淋浴的聲音可以指示浴室的方向,而微波爐的聲音可以指示廚房的方向。研究人員的方法稱為AV-Map,旨在將帶有多通道音頻的短視頻轉(zhuǎn)換為2D平面圖。
機(jī)器學(xué)習(xí)模型使用音頻和視頻數(shù)據(jù)序列來推斷平面圖的結(jié)構(gòu)和語義,最后使用解碼組件來融合音頻和視頻信息。 AV-Map生成的平面圖大大超出了視頻中直接可見的區(qū)域,顯示了被分成離散的語義房間標(biāo)簽(例如家庭房和廚房)的自由空間和占用區(qū)域。
該團(tuán)隊(duì)在Matternet3D和SoundSpaces數(shù)據(jù)集的數(shù)字環(huán)境中對(duì)主動(dòng)和被動(dòng)兩種設(shè)置進(jìn)行了實(shí)驗(yàn)。在第一個(gè)實(shí)驗(yàn)中,當(dāng)在樣板房的房間中移動(dòng)時(shí),使用虛擬攝像機(jī)發(fā)出已知的聲音。
在第二種情況下,僅依靠家中物體或人的自然聲音。研究人員說,在未來的工作中,他們計(jì)劃擴(kuò)展多層平面圖,并將繪圖思想與機(jī)器人聯(lián)系起來,以主動(dòng)控制攝像機(jī)。
創(chuàng)建平面圖通常需要完整的布局,以便3D傳感器和攝像機(jī)可以捕獲整個(gè)空間。據(jù)國外媒體報(bào)道,1月11日消息,最近,來自Facebook,德克薩斯大學(xué)奧斯汀分校和卡內(nèi)基梅隆大學(xué)的研究人員正在探索一種人工智能技術(shù),該技術(shù)將利用短視頻中的視覺和音頻來重建剪輯中的平面圖。
。研究人員斷言,音頻提供了空間和語義信號(hào),并補(bǔ)充了圖像的映射功能。
他們說這是因?yàn)槁曇糇匀皇怯晌矬w的幾何形狀驅(qū)動(dòng)的。聲音從表面反射出來,顯示出房間的形狀,遠(yuǎn)遠(yuǎn)超出了攝像機(jī)的視野。
從遠(yuǎn)處聽到的聲音,甚至在多個(gè)房間之外的聲音,都可以揭示出自由空間的存在以及聲音對(duì)象的可能存在。此外,從不同方向聽到的聲音會(huì)根據(jù)這些聲音所代表的活動(dòng)或事物來顯示布局。
例如,淋浴的聲音可以指示浴室的方向,而微波爐的聲音可以指示廚房的方向。研究人員的方法稱為AV-Map,旨在將帶有多通道音頻的短視頻轉(zhuǎn)換為2D平面圖。
機(jī)器學(xué)習(xí)模型使用音頻和視頻數(shù)據(jù)序列來推斷平面圖的結(jié)構(gòu)和語義,最后使用解碼組件來融合音頻和視頻信息。 AV-Map生成的平面圖大大超出了視頻中直接可見的區(qū)域,顯示了被分成離散的語義房間標(biāo)簽(例如家庭房和廚房)的自由空間和占用區(qū)域。
該團(tuán)隊(duì)在Matternet3D和SoundSpaces數(shù)據(jù)集的數(shù)字環(huán)境中對(duì)主動(dòng)和被動(dòng)兩種設(shè)置進(jìn)行了實(shí)驗(yàn)。在第一個(gè)實(shí)驗(yàn)中,當(dāng)在樣板房的房間中移動(dòng)時(shí),使用虛擬攝像機(jī)發(fā)出已知的聲音。
在第二種情況下,僅依靠家中物體或人的自然聲音。研究人員說,在未來的工作中,他們計(jì)劃擴(kuò)展多層平面圖,并將繪圖思想與機(jī)器人聯(lián)系起來,以主動(dòng)控制攝像機(jī)。