【创科广场】双算法攻「智慧医院」应用 减省资源效率改善
2021-02-26 07:44
同的人工智能模型皆以项目预设的评分准则进行评估。是次比赛获50家本地及海外科技企业报名参加,晋身决赛的11支队伍则获邀提交AI模型。胜出队伍获安排与医管局探讨合作机会,研发「智慧医院」的应用。
参赛队伍向医管局呈交训练的视像运算模型,医管局在本身运算环境,辨认有关物件种类、定位及点算数目,作为计分准则。
中信国际电讯CPC首席信息及创新总裁邝伟基说,参赛是为了让队伍有机会接受不同挑战,由于中信国际电讯应用集中在视频分析,除了今次比赛要求的辨认物件、定位和数量以外,还自行加上了辨认速度。
中信国际电讯CPC正在开发「DataHOUSE AR千里眼」,其中一项功能是从传回视频辨识物件,穿戴AR眼镜现场人员,以眼镜镜头辨认数据中心设备,AR眼镜电池和算力有限,从AR眼镜捕捉的影像,直接回传云端,或利用5G送往边缘云多接取边缘运算(MEC)执行推论(Inference),结果传回AR眼镜。
95毫秒99%准确度
「AR眼镜传回大量影像,须快速处理并传回结果,推理速度十分关键。虽然比赛没要求推论速度,我们要求团队在100毫秒ms(1秒=1000毫秒)内完成推理。」
辨别、定位及点算的医疗物件,主要为置于盆内多款手术刀和工具。邝伟基说,比赛为视觉运算带来一定挑战,手术工具只有些微差别,置于盆上更难以辨认。
「DataHOUSE AR千里眼」终端是AR眼镜,推论时间必须要快,团队须先考虑速度,最终合并2种不同算法,首先是常用于物件辨识,以速度闻名的YOLOv4算法。
「训练模型使用过万张图片,采用了2种算法建立视觉运算模型,最长于95毫秒ms内达到99%准确度。
也就是说技术人员在数据中心,看到某项设备,不足一秒可在辨认完毕,并传回结果通知。
邝伟基说,比赛显示集合2种算法,速度和性能,要比纯以单一的算法,不断加深网络深度效果为佳,为日后开发加快辨认物件,带来了启示。
YOLO速度无出其右
YOLO架构由Joseph Redmon在2015年首先开发,为最常用物件辨认算法之一,尤适合处理多帧的视频,以YOLOv4辨认有一定准确度,同时又维持高帧率处理,但是YOLOv4的准确率亦有限制,即使再增加网络的深度,准确度边际效益却下降,同时亦带来了性能问题。
团队用了多张不同照片来训练模型,YOLOv4速度虽快,应付细微物件辨认,或较难辨认的背景,YOLOv4难再应付时,交由另一种算法建立的模型。
神经网络层数愈深,算力损耗愈大,YOLOv4辨认准确度一旦不足,模型就交予新开发的Weakly Supervised Data Augmentation Network (WS-DAN)算法处理。
减省资源读得更准
WS-DAN是微软亚洲研究院刚提出的算法,年初论文ArXiv刊登后,引起业界的注意。论文题目为《See Better Before Looking Closer》,也就是在不加深神经网络的层数,可达更佳分类效果。手术刀与盆底颜色接近,背景杂讯等干扰因素,可影响辨认效果,WS-DAN可通过Bilinear Attention Pooling抓住物件的特徵增强数据,提高辨认的准确率,毋须过深神经网络;以改善模型效率。
WS-DAN在不加深神经网络情况下,分类和辨认细微和难辨物件,团队合并了YOLOv4和WS-DAN算法之后,获得优化的结果。
「某些极难辨认手术刀,采用WS-DAN只以50层神经网络,物件辨认Object Detection Accuracy(mAP)可达到99,YOLOv4要再加深,则耗用更多算运资源。」
邝伟基说,今次非中信国际电讯CPC以混合算法策略,攻克视觉运算上的难题,以往亦开发混合算法,以辨识戴口罩者的人脸。类似比赛让团队有机会解决实际问题,启发出不同方法,获奖反是其次。
问题比答案重要,而问题愈是困难,往往愈激发创意。
關鍵字
最新回应