创科广场|商汤再扬威学术会议 71篇论文入选 显研究实力

2022-06-27 10:35

CVPR是IEEE国际电脑视觉与模式识别(Computer Vision and Pattern Recognition)会议,跟ICCV、ECCV并称为三大电脑视觉运算会议。

视觉运算发展速度极快,全球学者倾向将研究结果投稿至CVPR等会议,论文录取率极低,录取论文又分为数级,委员会认为价值最高会入选口头报告(Oral Presentation),可以在大会做演讲报告,其馀剩下是论文海报,或者简短演讲报告(Spotlight)。本港上市的人工智能企业商汤科技一直活跃于CVPR会议,今年CVPR共接收2067篇论文,数量较去年增长了四分一,商汤科技及联合实验室共有71篇论文入选。

数码人应用广泛

CVPR论文在多个计算电脑计算会议的h-index,评份最高,意味所发表论文以后可获最多人引用和实际应用,属于全球最顶尖电脑学术会议,参与的除了学术机构,还有企业和研究机构,俨然是全球视觉运算一场「华山论剑」。

今年CVPR选址在美国路易斯安那州新奥尔良,商汤入选的论文之中,有近四分之一属口头报告;包括了三维视觉和自动驾驶,显示其研发水准仍处前列位置。

商汤参与CVPR会议的竞赛,与中科院自动化所、上海人工智慧实验室联合参加了Embodied AI 2022,Embodied AI集中如何移动物件,与真实世界进行实际的互动的AI技术,数年前facebook开发Embodied AI平台的AI Habitat模拟平台,专供研究人员在极逼真的3D环境训练虚拟机器人,可结合facebook的Replica,或者Gibson和Matterport3D等3D环境数据集。

商汤在Embodied AI的RxR-Habitat比赛夺冠,比赛要求以自然语言控制室内机器人导航。商汤算法提升九成以上效果,导航的准确率从24.08%跃升至45.82%,导航保真度从37.39%提升至55.43%。此外,视觉编码技术比赛CLIC(Challenge on Learned Image Compression),商汤获得图像编码冠军,全部三个测试码点取得最佳主观评测近年来,商汤开发SenseCore等AI基础大设施,推动不同产业的开发;例如今次发表的《Bailando︰ 3D Dance Generation via Actor-Critic GPT with Choreographic Memory》论文,研究人员开发一种音乐到舞蹈框架Bailando,驱动3D虚拟角色跟随音乐做出舞蹈动作,不仅保证动作标准与美感,还能时间上保持与不同音乐节奏一致,比其他框架更优胜。数字虚拟人应用广泛,可在社交媒体、电玩游戏、直播、虚拟偶像等场景。

光学雷达(LiDAR)是自动驾驶不可或缺的技术,可以在夜间或恶劣天气监察环境,车辆可利用从LiDAR产生点云数据,跟踪附近目标和分析环境。商汤发表的《PTTR︰ Relational 3D Point Cloud Object Tracking with Transformer》论文,提出了点云跟踪框架PTTR,Transformer架构源于AI针对自然语言处理(NLP)的神经网络架构,特别是应用于机器翻译,自从2017年Google研究员发表了《Attention is All you Need》论文之后,Transformer横扫了NLP应用,今次CVPR再有不少Transformer转用在视觉运算上。

提升自动驾驶物件追踪

视觉运算以图像数据跟踪目标,研究相当成熟,却难以应用在LiDAR所传回的点云数据上,点云密度可能较图片稀疏、甚至受遮挡及有多种杂讯;故无法直接以图像演算法跟踪目标,当被追踪物体离LiDAR感测器较远,点云稀疏令目标更难以追踪,商汤团队针对点云数据的特徵和现有演算法缺陷,提出了点云跟踪框架PTTR,多个数据集上显著提升目标跟踪准确度,未来有助开发自动驾驶。

商汤重视建设学术生态,2017年来陆续与上海交通大学、南洋理工大学、浙江大学分别成立联合研究院或实验室、与清华大学建立「感知计算」产学研深度融合专项计画,推动成立全球人工智能学术联盟。

今年6月11日,商汤科技联合全球高校人工智能学术联盟举办「研无止境:商汤论文分享会」活动,来自商汤及香港中文大学、浙江大学、南洋理工大学、北京大学等研究学者解读3D视觉、姿态估计、底层视觉、表徵学习、场景理解等8篇CVPR 2022 Oral论文,分享实际场景研究。

關鍵字

最新回应

關鍵字
You are currently at: std.stheadline.com
Skip This Ads
close ad
close ad