無人機首次成功在一對一冠軍(jun) 賽中戰勝人類對手,而無人機背後是一個(ge) 名為(wei) Swift的人工智能係統,《Nature》期刊的封麵上的也在當期封麵刊登了相關(guan) 論文。
AI如何成為(wei) 遊戲高手?
國際象棋、星際爭(zheng) 霸(StarCraft)、Dota2和GT賽車這些遊戲,如果你與(yu) 電腦對戰,那些電腦虛擬玩家是如何來完成一係列操作的?
或許你沒有聽說過深度強化學習(xi) (Reinforcement Learning,RL)係統,但你一定聽說過或接觸過或許你沒有聽說過深度強化學習(xi) (Reinforcement Learning,RL)係統,因為(wei) 這些電腦虛擬玩家就是運用了這一技術。
在模擬和棋盤遊戲環境中,AI可以輕鬆勝過人類,但在物理世界的競賽,AI的決(jue) 策和操作則麵臨(lin) 諸多困難。
第一人稱視角 (FPV) 無人機競賽是專(zhuan) 業(ye) 選手在 3D 賽道上駕駛高速飛行的無人機,駕駛員可以通過機載攝像頭傳(chuan) 輸的畫麵從(cong) 無人機的角度觀察環境,從(cong) 而完成加減速、轉彎等操作,讓無人機穿越賽道中的障礙。

Swift (藍色)和人類(紅色)交鋒,七個(ge) 方形門,每圈必須依次通過,圖片來源:參考文獻
自動駕駛無人機要達到職業(ye) 飛行員的水準很難,因為(wei) 機器人需要在其物理限製下飛行,同時隻能根據機載傳(chuan) 感器估算其速度和方位。
傳(chuan) 統的無人機競速方法包括軌跡規劃和模型預測控製(model predictive control,MPC),但這種方法隻能在理想條件下實施,一旦受到任何幹擾,整個(ge) 係統就會(hui) 崩潰。

圖片來源:piqsels
而Swift係統克服了這個(ge) 困難。Swift係統由兩(liang) 個(ge) 關(guan) 鍵模塊組成:
一是感知係統,將高維視覺(即空間立體(ti) 視覺)和慣性信息轉換為(wei) 低維編碼;
二是控製係統,攝取感知係統產(chan) 生的低維編碼並產(chan) 生控製命令。將這兩(liang) 個(ge) 係統結合起來,便可以基於(yu) 物理環境的細微變化進行實時決(jue) 策調整。
當然,先進的感知係統和控製係統還不足以對抗人類冠軍(jun) 駕駛員。
Swift係統比人類強在哪兒(er) ?
Swift係統比人類駕駛員具有一定的結構優(you) 勢。

Swift係統,圖片來源:參考文獻
首先,它能利用來自機載慣性測量單元的慣性數據。
這類似於(yu) 人類的前庭係統,人類駕駛員在比賽中無法使用該係統,因為(wei) 他們(men) 實際上並不在飛機上,並且感覺不到作用在飛機上的加速度。
其次,Swift係統受益於(yu) 較低的感覺運動延遲(Swift為(wei) 40毫秒,而人類專(zhuan) 家的平均延遲為(wei) 220毫秒)。
FPV比賽使用的是四軸飛行器,它是有史以來最敏捷的機器之一。在比賽中,飛行器會(hui) 施加超過自身重量五倍或更多的力量,即使在有限的空間內(nei) ,速度也能超過100公裏/小時,加速度是重力的幾倍。因此,較低的延遲有助於(yu) 讓飛行器的行動更靈活。
在實際比賽流程中,人類飛行員在賽道上進行了為(wei) 期一周的練習(xi) 。之後,由Swift和人類控製的無人機需要在場地賽道中以正確的順序穿過每一道門。Swift在與(yu) 三位人類冠軍(jun) 正麵交鋒的比賽中均獲勝,甚至創造了最快完成比賽的記錄。

圖片來源:piqsels
在AI控製的無人機戰勝人類之後,自主移動機器人仍然有很多可以提升的方向。
例如人類控製無人機時,即使發生了碰撞,隻要硬件仍然正常工作,人類仍然可以控製無人機繼續飛行並完成這段賽道,但Swift沒有接受過碰撞後恢複的訓練。
即便存在諸多限製,但該研究成果已經成為(wei) 移動機器人技術和機器智能的一個(ge) 裏程碑,它將助力自動駕駛的地麵車輛、飛行器和個(ge) 人機器人的快速發展。
參考文獻
原論文:Kaufmann, E., Bauersfeld, L., Loquercio, A. et al. Champion-level drone racing using deep reinforcement learning. Nature 620, 982–987 (2023). https://doi.org/10.1038/s41586-023-06419-4
策劃製作
來源丨科協之聲
作者丨SamKakeru 科普作者
責編丨楊雅萍 金禹奮
歡迎掃碼關(guan) 注深i科普!
我們(men) 將定期推出
公益、免費、優(you) 惠的科普活動和科普好物!


