紐約大學心理學與認知科學教授馬庫斯最近和人工智能企業“深層思維”(DeepMind)杠上了。繼前不久在推特(Twitter)上質疑美國通用人工智能研究組織OpenAI的解魔方機械手之后,近日他又對“深層思維”新推出的《星際爭霸2》智能體“阿爾法星”(AlphaStar)進化版提出六大質疑。此次,他的質疑點并不是游戲表現本身,而是指向了更高的層面:未來通用智能研究的意義。
近年最酷成果都來自深度強化學習
此次OpenAI推出的解魔方機器手,并不是像以往一樣使用專業算法來解決某一個特定任務(如果換一個任務,還需要重新編程),而是通過某種學習方法,對機器人進行訓練,讓機械手具備類人手的解決問題的能力。但馬庫斯卻認為這個成果描述有誤導,更恰當的描述應該是“用強化學習操縱魔方”或者是“用靈巧的機器人手操縱物體的進展”。
“馬庫斯過于強調‘用強化學習操縱魔方’有點挑剔字眼,其實OpenAI魔方機器手和‘深層思維’發布的《星際爭霸2》智能體‘阿爾法星’進化版都使用了深度強化學習技術。深度強化學習是目前公認的在現有技術中最有可能實現通用人工智能的技術。”天津大學智能與計算學部軟件學院副教授郝建業解釋說,目前機器學習有三大分支,監督學習、非監督學習和強化學習,深度學習屬于監督學習里目前最主流的一類技術。深度強化學習是深度學習與強化學習的融合,是將深度神經網絡整合到強化學習框架當中。
“近幾年,深度強化學習發展迅猛,它在處理復雜、多方面和決策問題方面顯示出巨大的潛力。目前深度強化學習技術主要應用在一些游戲、比賽中。”郝建業介紹,2016年,谷歌的“阿爾法圍棋”(AlphaGo)擊敗了世界頂級圍棋選手李世石、柯潔,轟動一時,成為人工智能領域的一個里程碑。“阿爾法圍棋”的核心就在于使用了深度強化學習算法,使得計算機能夠通過自對弈的方式不斷提升棋力。此后又有臉書(Facebook)在DOTA2游戲中打敗了頂級職業選手;CMU團隊研發的德州撲克AI冷撲大師輕松擊敗頂級玩家。
此外,“深層思維”還運用深度強化學習優化了數據中心的耗能;谷歌則利用深度強化學習完成深度神經網絡的自動架構搜索,提出了AutoML服務,借此將機器學習作為一種服務推廣到千家萬戶。在我國,對于深度強化學習技術的應用也不少,阿里、騰訊、百度等國內團隊將深度強化學習應用到搜索、推薦、營銷、派單和路徑規劃等實際問題的決策中。
最有可能實現通用人工智能的技術
人工智能發展到現在的高度,技術上較大的功臣應該屬于深度學習算法。深度學習利用多層神經網絡,從海量的數據中學習,從而實現對未來的預測,并使人工智能系統越來越智能。目前我們應用的安防監控、自動駕駛、語音識別、百度地圖等都是深度學習技術在圖像視覺、語音識別、自然語言理解等領域的應用。
而強化學習也是目前機器學習領域的熱門技術,與基于已知標簽訓練模型的監督學習不同,強化學習能夠在沒有計算機的明確指示下,像人一樣實現自主學習。當達到一定的學習量之后,強化學習系統就能夠預測出正確的結果。“強化學習的基本思想是,學習在不同環境和不同狀態下,哪種行為能夠使得預期利益最大化。”郝建業介紹,新版“阿爾法星”智能體就采用了強化學習的自對戰技術,其學習過程不需要數據標注,而是由獎勵函數進行主導。智能體獲得獎勵得分或贏得一場比賽,它會得到積極的反饋,智能體就會根據對戰的成績好壞,來調整行為動作。這猶如嬰兒學走路,會根據產生的結果好壞來調整行為動作。
目前對通用人工智能的定義主要有兩個特點,一是端對端的學習,二是任務自適應, 無需人類參與調控而勝任不同的任務。深度強化學習可以將深度學習的感知能力和強化學習的決策能力相結合,直接根據輸入的信息進行控制,是一種更接近人類思維方式的人工智能技術。在與世界的正常互動過程中,強化學習會通過試錯法利用獎勵來學習,這跟自然學習過程非常相似。比如單手解魔方機器手,它可能需要利用深度學習的識圖技術等看到魔方,而后還需強化學習的模型讓機器手在不斷的試錯過程中自主學習。在強化學習中,可以使用較少的訓練信息,這樣做的優勢是信息更充足,而且不受監督者技能限制。深度強化學習朝構建對世界擁有更高級理解的自主系統又邁出了一步,這也是為什么說深度強化學習是目前公認的在現有技術中最有可能實現通用人工智能的技術。
未來通用人工智能還需依托腦科學發展
“雖然說深度強化學習技術最有可能實現通用人工智能,但是并不能說就一定能夠實現,我們離真正的通用人工智能還是有很大差距的。”郝建業表示,深度學習和強化學習結合的時候,對現實情況的枚舉就變成首先需要對現實情況進行模式識別,然后進行有限模式的枚舉,從而減少計算的壓力,但是所需的數據將比其他機器學習算法要大得多。如果將場景擴展到多智能體的深度強化學習,那么需要的數據和算力是呈指數級上升的,目前還沒有平臺能夠提供強化學習所需要的海量數據,無法窮舉現實中可能遇到的種種復雜情況。這種數據需求在很多現實領域中都是無法實現的。
舉例說明,比如強化學習需要大量的試錯,如果把單手解魔方機器手應用到做飯的現實場景,那么它可能會把食材弄一地,也可能把一整袋鹽倒到鍋中,還有可能引起火災。因此通過試錯學習的模式,在現實場景中是無法實現的。
此外,深度學習和強化學習都是機器學習領域中最難調試成功的,它的成功案例其實不算很多,但是一旦推出,都會引起轟動。并且,這是一個連隨機種子都會大大影響學習效果的模型框架。同樣的模型,訓練10次可能7次是失敗的,3次是成功的。還有一點,深度強化學習極其容易過擬合到智能體當前交互的環境中,所以環境稍有改變,之前看起來表現出色的智能體,很可能就會犯低級錯誤。
“人類認識事物的時候,一般都是通過數據進行因果推理和判斷,才得出相應的解決方案。而目前的人工智能系統卻并不能實現這種因果推導。”郝建業表示,可能未來通用人工智能的發展,還需要依托于腦科學的發展,目前我們對人腦的認知還處于非常初級的階段。大腦對事物的認知過程、解決問題的過程以及思考的能力等機制還都不清楚,因此,目前人工智能的發展,離這種真正能模擬人類智能思考的通用人工智能還有很長的路要走。
揚子晚報網6月14日訊(通訊員張愛國記者梅建明)6月12日上午,事故當事
注意!今日暴雨來襲未來三天福建以陰雨天氣為主雨水上線,暫享清涼最新
流量時代,企業爭相發力線上,變著花樣引流不足為奇。即便是老牌企業如
愛范兒早報導讀披頭士最后一曲,AI協助完成ChatGPT推送重要更新多地高
提到工具,你想到的是什么?辦公場景中的掃描、傳輸、會議等工具,還是
上海市科學技術委員會近日印發《上海市“元宇宙”關鍵技術攻關行動方案
本場賽后,巴特勒和洛瑞出席了新聞發布會。記者向巴特勒提問:在控
作戰室內,編隊指揮員密切關注戰場態勢,指揮各艦迅速組成對空防御隊
相信大家對商務標書包括哪些內容,五羊本田哪些是獨立標?的問題都很疑
華夏時報記者付樂冉學東北京報道近日,《華夏時報》記者發現,微信支付
同花順數據顯示,2023年6月13日,浙富控股獲外資賣出67 14萬股,占流通
鄂軍贏得開門紅,13支三人女籃青年軍鏖戰江城---6月13日上午,“漢水杯
我從______大學光纖專業畢業后,于8月開始在縣通信分公司工作。我從事
北京遇上西雅圖演員表,京遇上西雅圖演員表的基本詳情介紹很多人還不知
兩年后,我才知道為什么趙麗穎的婚姻如此倉促,拖了這么久。2018年5月
安徽安慶市正式成立“老年助餐慈善基
記者日前從安慶市民政局獲悉,該市慈善會近日設立老年助餐慈善基金,共同守護老年人舌尖上的幸福。該基金專項用于資助城鄉社區老年食堂、社
安徽淮北積極落實2022年電網防汛度汛
近日,國網淮北供電公司工作人員來到110千伏中泰變電站開展防汛隱患排查。該公司積極落實2022年防汛度汛措施,提前細化應急預案,推進極端
安徽全椒縣完善拓展人力信息資源助企
今年以來,全椒縣不斷完善拓展人力資源信息庫、勞務對接信息庫、企業用工需求信息庫三庫信息資源,已摸排400多家次企業缺工崗位信息1 2萬個
宿州市埇橋區柔性引進博士推進鄉村振
宿州市埇橋區實施博士匯工程,柔性引進29名博士擔任副鄉鎮長或園區副主任,他們將為加快產業發展、推進鄉村振興強化智力支持。目前,博士專
安徽印發出臺全面實施零基預算改革方
為進一步提高財政資源配置效率和資金使用效益,省政府印發《安徽省全面實施零基預算改革方案》,明確從編制2023年預算起,在全省范圍內全面
5月份安徽居民消費價格同比上漲2.3%
近日,國家統計局安徽調查總隊發布了我省5月份居民消費價格統計數據。統計顯示,我省居民消費價格同比上漲2 3%,同比漲幅比上月回落0 4個百分
安徽多種方式引導群眾防范非法集資風
合肥地鐵1號線、3號線上滾動播放防范非法集資宣傳視頻,淮南市發布《致老年群眾的一封信》……6月份是一年一度防范和處置非法集資宣傳月,今
鐵路部門持續加大長三角地區運力投放
記者從中國鐵路上海局集團有限公司獲悉,隨著上海疫情防控形勢持續向好,為進一步適應旅客出行需要,助力復工復產,鐵路部門自6月10日起持續加
安徽六安持續精準施策全力促進工業發
六安市與蔚來汽車簽署合作協議,共建智能電動汽車零部件配套產業園區。該園區一期計劃2023年上半年投產,建成后將具備年產30萬噸鋁壓鑄產能,
安徽淮北全力維護外賣送餐員合法權益
為切實防范化解新業態領域重大風險隱患,強化外賣送餐員權益保障工作,淮北市市場監管局充分發揮職能作用,全力維護外賣送餐員合法權益。淮北
湖南漣源開展專項行動一對一為企業紓
位于漣源市的湖南三合美新材料科技有限公司,兩條生產線滿負荷運行,生產聚氨酯和巖棉復合板。因產品升級與產能擴充,急需新增兩條生產線,
湖南藍山縣進村入戶排查整治自建房安
老叔,這棟房屋墻體有開裂痕跡,要維修加固,安全重要!5月20日,藍山縣塔峰鎮果木村,黨員干部上門開展農村自建房安全隱患排查整治。連日來
一季度湖南萬元產值綜合能耗同比下降
近日,湖南省工業通信業節能監察中心發布一季度全省六大高耗能行業能源消耗統計監測報告。據該報告,一季度全省146家主要高耗能企業的萬元
濟南起步區一年來累計簽約優質項目11
萬里黃河第一隧濟南黃河濟濼路隧道建成通車,占地4000余畝的新能源乘用車零部件產業園加快施工……記者21日采訪獲悉,建設實施方案獲批復一
山東發布通知啟動傳統民居保護利用試
省住房城鄉建設廳、省財政廳近日聯合印發《關于做好傳統民居保護利用試點工作的通知》,在全省部署開展傳統民居保護利用試點工作。此次試點