【创科广场】双算法攻「智慧医院」应用减省资源效率改善

2021-02-26 07:44

香港科技园与医院管理局合办「AI Challenge」比赛，以研发与人工智能相关方案。比赛以「辨别手术工具」为题，参赛者设计机器学习模型，辨别、定位及点算医院手术室中的医疗工具。

同的人工智能模型皆以项目预设的评分准则进行评估。是次比赛获50家本地及海外科技企业报名参加，晋身决赛的11支队伍则获邀提交AI模型。胜出队伍获安排与医管局探讨合作机会，研发「智慧医院」的应用。

参赛队伍向医管局呈交训练的视像运算模型，医管局在本身运算环境，辨认有关物件种类、定位及点算数目，作为计分准则。

中信国际电讯CPC首席信息及创新总裁邝伟基说，参赛是为了让队伍有机会接受不同挑战，由于中信国际电讯应用集中在视频分析，除了今次比赛要求的辨认物件、定位和数量以外，还自行加上了辨认速度。

中信国际电讯CPC正在开发「DataHOUSE AR千里眼」，其中一项功能是从传回视频辨识物件，穿戴AR眼镜现场人员，以眼镜镜头辨认数据中心设备，AR眼镜电池和算力有限，从AR眼镜捕捉的影像，直接回传云端，或利用5G送往边缘云多接取边缘运算（MEC）执行推论（Inference），结果传回AR眼镜。

95毫秒99%准确度

「AR眼镜传回大量影像，须快速处理并传回结果，推理速度十分关键。虽然比赛没要求推论速度，我们要求团队在100毫秒ms（1秒=1000毫秒）内完成推理。」

辨别、定位及点算的医疗物件，主要为置于盆内多款手术刀和工具。邝伟基说，比赛为视觉运算带来一定挑战，手术工具只有些微差别，置于盆上更难以辨认。

「DataHOUSE AR千里眼」终端是AR眼镜，推论时间必须要快，团队须先考虑速度，最终合并2种不同算法，首先是常用于物件辨识，以速度闻名的YOLOv4算法。

「训练模型使用过万张图片，采用了2种算法建立视觉运算模型，最长于95毫秒ms内达到99%准确度。

也就是说技术人员在数据中心，看到某项设备，不足一秒可在辨认完毕，并传回结果通知。

　　邝伟基说，比赛显示集合2种算法，速度和性能，要比纯以单一的算法，不断加深网络深度效果为佳，为日后开发加快辨认物件，带来了启示。

YOLO速度无出其右

YOLO架构由Joseph Redmon在2015年首先开发，为最常用物件辨认算法之一，尤适合处理多帧的视频，以YOLOv4辨认有一定准确度，同时又维持高帧率处理，但是YOLOv4的准确率亦有限制，即使再增加网络的深度，准确度边际效益却下降，同时亦带来了性能问题。

团队用了多张不同照片来训练模型，YOLOv4速度虽快，应付细微物件辨认，或较难辨认的背景，YOLOv4难再应付时，交由另一种算法建立的模型。

神经网络层数愈深，算力损耗愈大，YOLOv4辨认准确度一旦不足，模型就交予新开发的Weakly Supervised Data Augmentation Network （WS-DAN）算法处理。

减省资源读得更准

　　WS-DAN是微软亚洲研究院刚提出的算法，年初论文ArXiv刊登后，引起业界的注意。论文题目为《See Better Before Looking Closer》，也就是在不加深神经网络的层数，可达更佳分类效果。手术刀与盆底颜色接近，背景杂讯等干扰因素，可影响辨认效果，WS-DAN可通过Bilinear Attention Pooling抓住物件的特徵增强数据，提高辨认的准确率，毋须过深神经网络；以改善模型效率。

　　WS-DAN在不加深神经网络情况下，分类和辨认细微和难辨物件，团队合并了YOLOv4和WS-DAN算法之后，获得优化的结果。

「某些极难辨认手术刀，采用WS-DAN只以50层神经网络，物件辨认Object Detection Accuracy（mAP）可达到99，YOLOv4要再加深，则耗用更多算运资源。」

　　邝伟基说，今次非中信国际电讯CPC以混合算法策略，攻克视觉运算上的难题，以往亦开发混合算法，以辨识戴口罩者的人脸。类似比赛让团队有机会解决实际问题，启发出不同方法，获奖反是其次。

　　问题比答案重要，而问题愈是困难，往往愈激发创意。

關鍵字

【创科广场】推动5G商用发展华为建一站式平台

【Tech点评】比特币重创契妈跟马斯克震出市场

【创科广场】双算法攻「智慧医院」应用减省资源效率改善

最新回应

订阅星岛日报

联络我们

广告表格及价目表