專屬客服號
微信訂閱號
全面提升數(shù)據(jù)價(jià)值
賦能業(yè)務(wù)提質(zhì)增效
【產(chǎn)業(yè)鏈圖譜 | 人工智能產(chǎn)業(yè)鏈圖譜_人工智能產(chǎn)業(yè)鏈全景圖】
【研究報(bào)告 | 人工智能行業(yè)研究報(bào)告】
2018年12月,來自谷歌大腦的科學(xué)家們進(jìn)行了人工智能系統(tǒng)研發(fā)。此次研發(fā)能夠讓機(jī)器人學(xué)會自行走路。
我們可以在研究人員視頻資料中看到,四足機(jī)器人在走一個(gè)緩坡。在視頻開頭的四足機(jī)器人Minitaur走路還不夠穩(wěn)定,有時(shí)候在搖晃,有時(shí)候停止不前,整個(gè)過程都走的十分緩慢。而在四足機(jī)器人進(jìn)行Minitaur學(xué)習(xí)的18分鐘時(shí),四足機(jī)器人可以進(jìn)行穩(wěn)步前進(jìn)了,隨著后期的學(xué)習(xí)時(shí)間增加,機(jī)器人走路的穩(wěn)定性也在不斷提高,時(shí)間增加到快兩個(gè)小時(shí)時(shí),機(jī)器人已經(jīng)能完成平穩(wěn)的走過緩坡。
通過觀察機(jī)器人的學(xué)習(xí)視頻,我們可以看到學(xué)習(xí)對機(jī)器人完成自我行走的作用。同時(shí),這項(xiàng)人工智能算大能夠教會機(jī)器人走熟悉的地形。
強(qiáng)化學(xué)習(xí)的核心是一個(gè)概念,即最佳的行為或行動是由積極的回報(bào)來強(qiáng)化的。機(jī)器和軟件代理使用強(qiáng)化學(xué)習(xí)算法,通過以環(huán)境的反饋為基礎(chǔ)來確定理想行為,這是機(jī)器學(xué)習(xí)的一種形式,也是人工智能的一個(gè)分支。
根據(jù)問題的復(fù)雜性,強(qiáng)化學(xué)習(xí)算法可以在必要時(shí)隨時(shí)間保持適應(yīng)環(huán)境,以便長期獲得最大的回報(bào)。一個(gè)通過強(qiáng)化學(xué)習(xí)來學(xué)會行走的機(jī)器人將通過嘗試不同的方法實(shí)現(xiàn)目標(biāo),獲得有關(guān)這些方式成功的反饋,然后進(jìn)行調(diào)整直到達(dá)到行走的目標(biāo)。大步伐會讓機(jī)器人摔倒,通過調(diào)整步距來判斷這是否是保持直立的原因,通過不同的變化持續(xù)學(xué)習(xí),最終能夠行走。以上說明,獎勵是保持直立,懲罰就是摔倒,機(jī)器人基于對其動作的反饋信息進(jìn)而優(yōu)化并強(qiáng)化。強(qiáng)化學(xué)習(xí)需要大量的數(shù)據(jù),這就是為什么這項(xiàng)技術(shù)的第一個(gè)應(yīng)用領(lǐng)域是模擬數(shù)據(jù),如游戲和機(jī)器人。
盡管處于強(qiáng)化學(xué)習(xí)的早期階段,但仍有一些應(yīng)用和產(chǎn)品開始依賴這種技術(shù)。公司開始使用強(qiáng)化學(xué)習(xí)解決連續(xù)性決策問題,同時(shí)強(qiáng)化學(xué)習(xí)支持專家決策或自動化決策處理。
但強(qiáng)化學(xué)習(xí)也有其局限性。它需要大量數(shù)據(jù),在某些情況下需要數(shù)萬個(gè)樣本才能獲得良好的結(jié)果。這就需要四足機(jī)器人Minitaur像阿爾法狗那樣進(jìn)行多次訓(xùn)練,但過多的訓(xùn)練可能會對四足機(jī)器人造成損壞。
但是此次的訓(xùn)練也存在不足,即機(jī)器人在完成一次行走路徑后,需要手動將機(jī)器人放回原點(diǎn)。這個(gè)過程有些繁瑣。但是只需兩個(gè)小時(shí)完成機(jī)器人的學(xué)習(xí),也被稱贊為“AI是個(gè)好老師”。
本文由五度數(shù)科整理,轉(zhuǎn)載請標(biāo)明出處,違者必究!
請完善以下信息,我們的顧問會在1個(gè)工作日內(nèi)與您聯(lián)系,為您安排產(chǎn)品定制服務(wù)
評論