【創科廣場】增強學習商用成真機械人執貨百發百中

2020-02-05 11:11

剛出版的麻省理工科技評論報道一家位於加州柏克萊的初創Covariant.ai，以人工智能的增強學習訓練，機械人已可在貨倉內「執貨」，自動分類大量物件，技驚四座。

增強學習自我產生大量數據，不斷以獎勵機制改善行為，適合於機械人訓練，甚至自動駕駛訓練。Covariant就是以增強學習，為德國專門為貨倉物流提供方案Knapp。Knapp向全球的AI初創發出任務是，利用視覺運算協助機械人分類，結果只有Covariant勝出。

AI之父參與投資

Covariant.ai來頭不少，創辦人之一Pieter Abbeel史丹福大學博士畢業。Covariant.ai獲行業內多位AI專家投資；包括2018年圖靈獎得主Geoffrey Hinton及Yann LeCun（前兩者與Yoshua Bengio一同獲獎，三人獲譽為「AI之父」）、Google人工智能主管Jeff Dean、史丹福大學教授李飛飛、麻省理工電腦及人工智能實驗室Daniela Rus、多倫多大學教授Raquel Urtasun，也亦獲中國百度投資。

不少人知道AI最大價值，包括深度學習訓練可處理傳統電腦編程不能處理的問題，最明顯是視覺運算，以往難以用邏輯編輯，如今建立深度學習訓練模型，人臉識別就是其中之一。人臉識別以監督式學習完成模型訓練，識別能力已超越了人類。

監督式學習（Supervised Learning）必須經過標記數據，此外也要求大量運算能力，不少標記數據難以自動化，屬「勞動密集」工作，中國也出現了大量「數據工廠」和「數據標記員」。但增強學習的原理跟監督式學習（Supervised Learning）完全不同，更像有一位老師，站在模型旁邊監督。老師完全知道答案的對錯。增強學習更給學習模型（即是上述機械人）獎勵和懲罰，不斷修正改進。

準確率超越99%

Covariant.ai通過強化學習，模型能在不同環境，辨識出大量不同物件。Covariant.ai為Knapp訓練機械臂，已經德國兩個貨倉；包括柏林市電力供應器材分銷商Obeta的貨倉，取代人手分貨執勤，吸引全球參觀人士。
Covariant.ai不但可分辨形狀相似，反光的金屬物件、透明塑膠水瓶、一排排的藥丸、每次看來不同形狀物品；如衣服和食物膠袋，更辨別以透明膠袋包裝內的物件。

Covariant.ai利用多部視像鏡頭，作為機械人的「眼睛」；首先人手示範，錄下人類動作和動作次序，以產生機械人行為，機械人再通過多次嘗試，紀錄每次抓取物件成功率，試驗多種策略，不斷自我改良，甚至調整策略，先取蔽掩物件貨品，或者壓走袋內多餘空氣，加快執貨過程。

據Knapp副總裁Peter Puchwein說，隨着辨識物件的難度提高，不少初創AI模型，不久就被難倒；Covariant.ai的模型辨認和挑選貨物，即使物件位置如何擺放重疊，甚至具備有包裝，都難不倒視覺運算，達99.5%以上準確率，也是技術商用最低條件，Covariant.ai也是Knapp接觸多家AI初創之一，唯一可堅持最底，克服所有挑戰。

增強學習正式商用

Covariant.ai增強學習在取得的突破，在於增強學習一向耗用大量運算資源，一度更被認為難以商用，只有財力雄厚車廠，可用作訓練自動駕駛；Covariant.ai改良增強學習，大大減少訓練模型所需算力，取得的費用低於一般工人，更年中無休。

例如以模仿學習（Imitation Learning）以觀察其他知覺和動作為示範算法，例如人類的動作，向模型提供了基本資訊，減少訓練時間，模型再揣摩學習。另一技巧則為Meta Learning（元學習），或者叫做Learning to Learn（學會學習），讓AI自己學會思考，掌握推理，精益求精。Meta Learning聽似很玄，核心是優化學習過程的算法，加快模型掌握各種工作技巧；Meta Learning已是繼增強學習後，最熱門的研究。由於算法能夠自我學習，所以被稱為Covariant Brain平台。上述研究有效減少訓練成本，也對於未來增強學習，帶來重大啟示，因為機械人通過學習掌握的動作愈多，加上準確率提高，就愈快可轉移到商用。

全文刊於《星島日報》「創科廣場」