AI向真正“智能學習體”邁進
來源:科技日報
發布時間:2021-02-25
瀏覽次數:1175

        英國《自然》雜誌24日發表一項人工智能研究成果:美國團隊報告了一類增強學習(xi) ,可回溯過去、解決(jue) 複雜任務,真正改善了對複雜環境的探索方式,有望應用於(yu) 機器人、語言理解和藥物設計領域。這類算法被統稱為(wei) “Go-Explore”,其已經在一款經典遊戲的算法挑戰中得分超過了人類玩家和先進的人工智能係統。該成果被認為(wei) 正朝著實現真正“智能學習(xi) 體(ti) ”邁出了重要一步。

       增強學習(xi) ,可讓人工智能係統通過探索和理解複雜環境來進行決(jue) 策,並學習(xi) 如何以最優(you) 的方式獲得獎勵。獎勵可以包括機器人抵達特定位置或是在電腦遊戲中達到一定的等級。然而,當遇到很少給予反饋的複雜環境時,現階段的加強學習(xi) 算法就很容易碰壁,這讓人工智能專(zhuan) 家們(men) 非常苦惱。

       美國“OpenAI”是由諸多矽穀巨頭聯合建立的人工智能非營利組織,推動者包括美國創業(ye) 孵化器Y Combinator總裁薩姆·阿爾特曼、美國太空技術探索公司(SpaceX)創始人埃隆·馬斯克等,其目標是希望能夠預防人工智能的災難性影響,並推動人工智能發揮積極作用。此次,“OpenAI”的科學家艾德蘭(lan) ·艾克菲特、朱斯特·赫伊津哈及團隊,提出了有效探索麵臨(lin) 的兩(liang) 個(ge) 主要障礙,並設計了一類算法來解決(jue) 這些障礙。

       研究人員表示,“Go-Explore”可以對環境進行全麵探索,同時構建一個(ge) 檔案庫來記住它去過的地方,確保自己不會(hui) 忘記通往有望成功的期中階段或是最終勝利(獎勵)的路線。其在雅達利經典遊戲中的得分,超過了人類玩家和先進的人工智能係統,研究人員用這類算法,解決(jue) 了之前未能解決(jue) 的2600個(ge) 雅達利遊戲,驗證了這類算法的潛力。“Go-Explore”在算法挑戰《蒙特祖馬的複仇》中的得分是之前的4倍,在另一個(ge) 算法挑戰《瑪雅人的冒險》中的得分也超過了人類玩家的平均水平。而相對的,此前的算法一分都拿不到。

       “Go-Explore”算法還能完成一個(ge) 模擬機器人任務,在這項任務中,它必須用機械臂把東(dong) 西撿起來並放到4個(ge) 架子中的一個(ge) 架子上,其中兩(liang) 個(ge) 架子被關(guan) 在兩(liang) 扇門的後麵。

       研究人員指出,記住並回到有望成功的探索區域的簡單原則是一種強大、通用的探索方法。他們(men) 認為(wei) 最新的算法有望應用於(yu) 機器人、語言理解和藥物設計。


關(guan) 注【深圳科普】微信公眾(zhong) 號,在對話框:
回複【最新活動】,了解近期科普活動
回複【科普行】,了解最新深圳科普行活動
回複【研學營】,了解最新科普研學營
回複【科普課堂】,了解最新科普課堂
回複【科普書(shu) 籍】,了解最新科普書(shu) 籍
回複【團體(ti) 定製】,了解最新團體(ti) 定製活動
回複【科普基地】,了解深圳科普基地詳情
回複【觀鳥星空体育官网入口网站】,學習(xi) 觀鳥相關(guan) 科普星空体育官网入口网站
回複【博物學院】,了解更多博物學院活動詳情

聽說,打賞我的人最後都找到了真愛。