未來人類世界將進入機械人世代,不同種類的機械人將負責各種形式的工作,但前題是人類必須先解決機械人製造成本過高的問題,最近Google就研發出多功能機械人,為人類邁進機械人世代踏出重要一步。
圖片來源:Shutterstock Image 資料來源:googleblog
收集80萬種任務
Google指未來若要使機械人使用變得普及,機械人必須具備多功能的作用以進行一系列如清潔、維護和運送的工作,但即使用上離線強化學習Offline Reinforcement Learning (RL)來進行單一訓練任務,連同測試和修正時間至少亦需數千小時才能讓機械人成功「習得」技能,若要機械人「百般武藝」恐怕得花費更多時間。有見及此,來自Google的幾位電腦科學家就研發出名為MT-Opt(自動數據收集和多任務RL訓練系統)和Actionable Models(可操作模型),前者引入可擴展數據收集機制,收集從真實機器人所得近80萬種任務,並成功使用RL進行多功能應用;後者則獲取數據以實現目標條件的RL,兩者大大提升機械人可以執行的任務數量和學習效率。
MT-Opt成功率近90%
據Google指MT-Opt採用了一種名為Q-learning的流行RL學習法,該方法可學習一種估計未來獎勵總和的函數,從而令學習效率最大化。通過MT-Opt,機械人得以進行各種技能的訓練任務,包括挑選特定的物體,並將它們放置在不同的固定裝置中、對齊架子上的物件和重新佈置並用毛巾覆蓋物體等任務。據Google目前測試,MT-Opt執行多功能任務成功率是89%,罕見任務的成功率平均則為50%,某些測試更超過90%,如一項由毛巾覆蓋物件的任務中,撿走毛巾的成功率為92%,而物體覆蓋的成功率則為79%。
Actionable Models訓練視覺指示技能
機械人要進行多功能任務時,擁有良好的視覺技能必不可少,Actionable Models在這點上為機械人提供更好的視覺訓練技能,例如物體抓握、容器放置和物體重新放置等任務。此外,該模型還能夠把應用範圍覆蓋至訓練數據中無法看見的物件和視覺目標,意味著該模型可使機械人學習到一般世界認知的事物,加上Google亦利用模型來微調訓練目標,令機械人可更有效達行學習任務。
Google指以上兩大系統是邁向機械人學習系統普及的重要一步,並指未來將擴展和執行更多有用的服務。