創科廣場｜商湯再揚威學術會議 71篇論文入選顯研究實力

2022-06-27 10:35

CVPR是IEEE國際電腦視覺與模式識別（Computer Vision and Pattern Recognition）會議，跟ICCV、ECCV並稱為三大電腦視覺運算會議。

視覺運算發展速度極快，全球學者傾向將研究結果投稿至CVPR等會議，論文錄取率極低，錄取論文又分為數級，委員會認為價值最高會入選口頭報告（Oral Presentation），可以在大會做演講報告，其餘剩下是論文海報，或者簡短演講報告（Spotlight）。本港上市的人工智能企業商湯科技一直活躍於CVPR會議，今年CVPR共接收2067篇論文，數量較去年增長了四分一，商湯科技及聯合實驗室共有71篇論文入選。

數碼人應用廣泛

CVPR論文在多個計算電腦計算會議的h-index，評份最高，意味所發表論文以後可獲最多人引用和實際應用，屬於全球最頂尖電腦學術會議，參與的除了學術機構，還有企業和研究機構，儼然是全球視覺運算一場「華山論劍」。

今年CVPR選址在美國路易斯安那州新奧爾良，商湯入選的論文之中，有近四分之一屬口頭報告；包括了三維視覺和自動駕駛，顯示其研發水準仍處前列位置。

商湯參與CVPR會議的競賽，與中科院自動化所、上海人工智慧實驗室聯合參加了Embodied AI 2022，Embodied AI集中如何移動物件，與真實世界進行實際的互動的AI技術，數年前facebook開發Embodied AI平台的AI Habitat模擬平台，專供研究人員在極逼真的3D環境訓練虛擬機器人，可結合facebook的Replica，或者Gibson和Matterport3D等3D環境數據集。

商湯在Embodied AI的RxR-Habitat比賽奪冠，比賽要求以自然語言控制室內機器人導航。商湯算法提升九成以上效果，導航的準確率從24.08%躍升至45.82%，導航保真度從37.39%提升至55.43%。此外，視覺編碼技術比賽CLIC（Challenge on Learned Image Compression），商湯獲得圖像編碼冠軍，全部三個測試碼點取得最佳主觀評測近年來，商湯開發SenseCore等AI基礎大設施，推動不同產業的開發；例如今次發表的《Bailando︰ 3D Dance Generation via Actor-Critic GPT with Choreographic Memory》論文，研究人員開發一種音樂到舞蹈框架Bailando，驅動3D虛擬角色跟隨音樂做出舞蹈動作，不僅保證動作標準與美感，還能時間上保持與不同音樂節奏一致，比其他框架更優勝。數字虛擬人應用廣泛，可在社交媒體、電玩遊戲、直播、虛擬偶像等場景。

光學雷達（LiDAR）是自動駕駛不可或缺的技術，可以在夜間或惡劣天氣監察環境，車輛可利用從LiDAR產生點雲數據，跟蹤附近目標和分析環境。商湯發表的《PTTR︰ Relational 3D Point Cloud Object Tracking with Transformer》論文，提出了點雲跟蹤框架PTTR，Transformer架構源於AI針對自然語言處理（NLP）的神經網絡架構，特別是應用於機器翻譯，自從2017年Google研究員發表了《Attention is All you Need》論文之後，Transformer橫掃了NLP應用，今次CVPR再有不少Transformer轉用在視覺運算上。

提升自動駕駛物件追蹤

視覺運算以圖像數據跟蹤目標，研究相當成熟，卻難以應用在LiDAR所傳回的點雲數據上，點雲密度可能較圖片稀疏、甚至受遮擋及有多種雜訊；故無法直接以圖像演算法跟蹤目標，當被追蹤物體離LiDAR感測器較遠，點雲稀疏令目標更難以追蹤，商湯團隊針對點雲數據的特徵和現有演算法缺陷，提出了點雲跟蹤框架PTTR，多個數據集上顯著提升目標跟蹤準確度，未來有助開發自動駕駛。

商湯重視建設學術生態，2017年來陸續與上海交通大學、南洋理工大學、浙江大學分別成立聯合研究院或實驗室、與清華大學建立「感知計算」產學研深度融合專項計畫，推動成立全球人工智能學術聯盟。

今年6月11日，商湯科技聯合全球高校人工智能學術聯盟舉辦「研無止境：商湯論文分享會」活動，來自商湯及香港中文大學、浙江大學、南洋理工大學、北京大學等研究學者解讀3D視覺、姿態估計、底層視覺、表徵學習、場景理解等8篇CVPR 2022 Oral論文，分享實際場景研究。

關鍵字

創科廣場｜微軟推初創Founders Hub 提供4年免費科技資源

Tech點評｜成也上海，敗也上海，特斯拉燒錢燒到啪啪聲

創科廣場｜商湯再揚威學術會議 71篇論文入選顯研究實力

最新回應

訂閱星島日報

聯絡我們

廣告表格及價目表