看過《蟻人》的朋友肯定會(hui) 為(wei) 蟻人靈活的身姿和矯捷的身手所折服。
現如今,雖然你成為(wei) 不了蟻人,卻有機會(hui) 擁有一位 “類蟻人” 朋友 —— 四足機器人 RealAnt。RealAnt 是一種低成本的四足機器人,可以通過強化學習(xi) 來完成指定動作。擁有螞蟻般靈活四肢的機器人 RealAnt 一經問世,便廣受好評。
在過去的十幾年裏,機器人學家和計算機學家們(men) 試圖利用強化學習(xi) (RL)的方法來訓練機器人有效地導航和完成各種基本任務。然而,到目前為(wei) 止,製作一個(ge) 能夠支持 RL 算法且大眾(zhong) 負擔得起的機器人仍相當具有挑戰性。
令人興(xing) 奮的是,最近研究人員發明了一種四腿機器人,並用它來實現一種低成本的機器人算法。在 arXiv 上發表的一篇論文中提出了相關(guan) 的新型機器人平台,這是一個(ge) 簡單且價(jia) 格合理的真實世界版 “螞蟻” 機器人模擬環境,通常被用於(yu) RL 研究。
Ote 機器人公司的 RealAnt 機器人平台是為(wei) 實現現實世界中的強化學習(xi) 而研究和開發的。其擁有完整的解決(jue) 方案,並有網絡攝像機為(wei) 基礎的跟蹤係統。
“我們(men) 工作的最初靈感來自 RL 研究,該研究成功地證明了在仿螞蟻以及仿人機器人上,可以通過強化學習(xi) 從(cong) 零開始學會(hui) 走路。”Ote Robotics 的聯合創始人 Jussi Sainio 表示,算法的基本前提是編程,目的是使機器人完成任務的過程變得更容易、更自然,通過確定可用的傳(chuan) 感器測量值、運動動作設定目標,並將它們(men) 全部插入強化學習(xi) 算法,該算法就能解決(jue) 其餘(yu) 問題。
一般來說,大多數機器人的研究是利用昂貴的設備進行的,花費高達數千美元,並不是所有研究人員都負擔得起。與(yu) 此同時,傳(chuan) 統的控製算法需要易於(yu) 實現的精確硬件模特,這使得機器人在設計上麵臨(lin) 諸多限製。而強化學習(xi) 算法能夠在不建立動力學模型的情況下學習(xi) 控製器,還可以處理噪聲的觀測和控製,優(you) 勢有目共睹。
近年來,強化學習(xi) 領域取得了顯著的進展,在解決(jue) 具有挑戰的控製問題方麵取得了許多成功。這很大程度上取決(jue) 於(yu) 模擬器可以用快速測試算法性能。然而,模擬器也有弊端,其常常會(hui) 對世界做出不切實際的假設。為(wei) 了減少因誤判而付出的無用勞動,研究人員們(men) 需要一種將強化學習(xi) 的發展建立在現實世界的問題上的方法。
Sainio 認為(wei) ,與(yu) 模擬器環境相比,沒有一個(ge) 完整的軟件和硬件組合可以從(cong) 現實世界的強化學習(xi) 開始。因此,他們(men) 開始構建自己的機器人和接口軟件原型。
基於(yu) 此,Sainio 和他同事們(men) 工作的主要目標是基於(yu) 現有的基線 RL 解決(jue) 方案創建一個(ge) 簡單而低成本的機器人平台。這樣一個(ge) 平台將允許更多的研究人員建造和測試能夠在現實世界中完成各種基本任務的自主機器人。
經過不斷探索,Ote 機器人公司開發了一個(ge) 最小的低成本四足機器人 ——RealAnt 以及一個(ge) 物理版本的基準測試平台。
RealAnt 的優(you) 點是顯而易見的,它功能齊全、簡約、成本低廉。此外,它可以自主學習(xi) 走路,協調地移動腿,並能在給定的環境中感知自己的位置和方向。利用 RL 算法,可以訓練它像真正的螞蟻那樣行動,從(cong) 而執行各種簡單而有價(jia) 值的任務。
最初,RL 算法隻有在機器人模擬訓練數千小時後才能表現良好。然而,通過計算機科學家的努力,已經能夠用很少的訓練數據來教螞蟻四足機器人 RealAnt 學會(hui) 行走,從(cong) 而達到了高樣本效率。這使得在現實世界中直接訓練機器人成為(wei) 可能,消除了基於(yu) 仿真的訓練需求成本。
圖 | 噪聲對降低學習(xi) 效率的觀測
研究人員們(men) 是通過強化學習(xi) 實驗一步步驗證了自己創建的機器人平台,並同時提供了一組基準任務的基線結果。通過實驗,他們(men) 證明了運用 TD3 算法可以從(cong) 不到 45 分鍾的經驗中學會(hui) 行走實相。他們(men) 在 MuJoCo 和 PyBullet 中提供了機器人的模擬器版本(具有相同的尺寸、狀態動作空間和延遲噪聲觀測)。
繪製每個(ge) 任務三次運行的平均值和標準差,TD3 能夠在 40 分鍾內(nei) 學會(hui) 所有任務。
實驗中考慮進了三個(ge) 基準任務:
實驗發現,TD3 算法能夠成功地學習(xi) 所有三個(ge) 任務。學會(hui) 站立大約需要 12 分鍾的經驗,學會(hui) 轉身需要 35 分鍾的經驗,學會(hui) 走路需要 40 分鍾的經驗。
“人們(men) 可以把 RealAnt 平台想象成‘Ant’模擬器環境的真實版本,這是 RL 的一個(ge) 流行基準。”Sainio 說,他們(men) 創建的是最便於(yu) 在現實世界展開強化學習(xi) 的機器人平台之一。
RealAnt 平台包括機器人接口所需的機器人硬件(電機、傳(chuan) 感器)和軟件堆棧(通信、跟蹤),而已經對外公布的基線強化學習(xi) 解決(jue) 方案就是教它從(cong) 零開始走路的方法。Sainio 表示,示例解決(jue) 方案很簡單,對每項學習(xi) 任務都較少使用 ML 方麵的指導,且不用做太多的人工獎勵工程來塑造學習(xi) 績效,這使得定義(yi) 新任務變得簡單明了。
值得一提的是,RealAnt 平台的主要優(you) 勢在於(yu) ,它是現成的,而且價(jia) 格合理。低製造成本和易於(yu) 組裝的特點使得 RealAnt 可以更便捷地被世界各地的人所使用。此外,與(yu) 當今市場上更昂貴、更複雜的機器人相比,它容易大規模進行生產(chan) 部署。
RealAnt 作為(wei) 一個(ge) 最小的、低成本的物理版本的 “Ant”,其基準研究對現實世界中的強化學習(xi) 有深刻意義(yi) 。與(yu) “Ant” 基準測試類似,RealAnt 是一個(ge) 8 自由度的四足機器人,並基於(yu) 易於(yu) 獲得的電子元件和 3D 打印體(ti) 。RealAnt 中使用的所有組件都較易得到。
“機器人的身體(ti) 部位都是三維打印的,它們(men) 足夠小,可以用大多數消費者的三維打印機打印。”Sainio 提到,這使得該機器人的生產(chan) 和改裝成本比采用激光切割或機械加工金屬、塑料板製造的機器人要低很多。由於(yu) RealAnt 設計采用低成本電機,通過限製電機的最大扭矩能夠小心地驅動電機,因此它們(men) 能夠承受隨機探索和任務訓練期間的連續粗暴運動。
具體(ti) 來看,RealAnt 主體(ti) 由 4 個(ge) 3D 打印支腿,8 個(ge) Dynamixel AX-12A 伺服係統(和 8 個(ge) FP04-F2 機架一起銷售)以及 3 個(ge) 三維打印的上下軀幹構成。機器人的每隻腿由兩(liang) 個(ge) Dynamixel 伺服關(guan) 節組成,使用 Robotis FP04-F2 框架相互連接。使用 3D 打印的軀幹頂板和底板將四個(ge) 腿部組件連接在一起。3D 打印機易於(yu) 使用,允許快速打印和經濟高效的製造。零件可以使用消費類 3D 打印機(Creality Ender 3 v2)以 PLA(Prusament 燈絲(si) )打印。
圖 | RealAnt 機器人的示意圖細節(所有單位均為(wei) 毫米)
令手殘黨(dang) 倍感欣慰的是,RealAnt 可以在不到一小時的時間內(nei) 使用十字螺絲(si) 刀、切邊鉗這些組件組裝起來。這比很多同類型機器人的組裝更加友好。
另一方麵,上文提到,目前可供研究的機器人平台要麽(me) 非常昂貴,要麽(me) 無法處理強化學習(xi) 中探索控製的濫用。而此次開發的用於(yu) 強化學習(xi) 基準測試的最低成本物理版本平台價(jia) 格上是絕對的實惠。RealAnt 的材料成本僅(jin) 為(wei) 350AC(410 美元)。
RealAnt 機器人比其他支持 RL 的現有四足類機器人更便宜的原因之一是它的身體(ti) 使用 8 個(ge) 低成本的智能伺服電機移動,而不是更昂貴和複雜的電機。此外,為(wei) 了追蹤機器人的位置和方向,還利用了可以輕鬆打印在紙上的 AR 標簽和廉價(jia) 的外部攝像頭。
經過反複測試,Sainio 和他的同事在模擬和真實世界的實驗中綜合評估了 RealAnt,事實證明,該機器人在所有這些測試中都表現得非常出色,顯示出廣闊的應用前景。
到目前為(wei) 止,大多數用於(yu) 機器人應用的 ML 和 RL 技術主要是在模擬環境中訓練的。研究人員希望 RealAnt 能開辟新的令人興(xing) 奮的可能,使機器人可以在模擬和物理世界中一同進行訓練和測試。
一個(ge) 好消息是,RealAnt 的硬件和軟件都是開源的,完全組裝好的機器人也可以在 Ote Robotic 的網站上輕鬆在線購買(mai) 。這為(wei) 更多研究者得到並使用它提供了很大便利。
此套餐包括:一個(ge) 完全組裝的 RealAnt V1 機器人、帶有 8 個(ge) Robotis Dynamixel AX-12A 智能執行器、Robotis OpenCM9.04A 板、USB 和電源線、一個(ge) 機器人標簽和一個(ge) 參考標簽板、12V 5A 電源。
Sainio 和他的同事們(men) 創建的機器人平台可以很快幫助其他團隊在真實的機器人上測試他們(men) 的 RL 和 ML 算法。研究人員們(men) 希望 RealAnt 未來可以促進更廣泛的應用和發展,例如在農(nong) 業(ye) 環境中,自主學習(xi) 的機器人可以用來根除雜草和收獲植物,幫助促進生物多樣性,甚至可能減少殺蟲劑的使用。
Sainio 說:“我們(men) 現在打算對 RealAnt 平台進行微調和擴展,以增強硬件的能力,比如讓機器人擁有更先進的感知能力和可能的操縱器,並在現有在線平台的基礎上同時運行多個(ge) 機器人。同時,我們(men) 也在研究如何讓 RealAnt 更快地完成其他更具挑戰性的任務,進一步縮短訓練時間。”
關(guan) 注【深圳科普】微信公眾(zhong) 號,在對話框:
回複【最新活動】,了解近期科普活動
回複【科普行】,了解最新深圳科普行活動
回複【研學營】,了解最新科普研學營
回複【科普課堂】,了解最新科普課堂
回複【科普書(shu) 籍】,了解最新科普書(shu) 籍
回複【團體(ti) 定製】,了解最新團體(ti) 定製活動
回複【科普基地】,了解深圳科普基地詳情
回複【觀鳥星空体育官网入口网站】,學習(xi) 觀鳥相關(guan) 科普星空体育官网入口网站

