微軟的麻將人工智慧更勝Al的phaGo?今天揭曉真相!-下

微軟的麻將人工智慧更勝Al的phaGo?今天揭曉真相!-下

微軟的麻將人工智慧更勝Al的phaGo?今天揭曉真相!-下

 

更多麻將人工智慧的研發技術將在這篇揭曉!繼續看下去就知道啦!

 

為何我們會想寫這篇文章?

讀者看到了這篇文章:AI人工智慧又贏了!微軟Suphx突破日本麻將最高紀錄,打敗人類頂尖玩家時,可能會立即聯想到 Google 開發的圍棋人工智慧 Alpha Go 於兩年前以近乎完美姿態打敗人類選手李世乭和柯潔的新聞。根據微軟所說:研發麻將 AI 人工智慧的技術門檻可說是比研發圍棋、德州撲克等棋牌、博弈類的遊戲難多了!是真的嗎?這篇取材自微軟亞洲研究院的新聞稿,解釋為何同樣是人工智慧,為何研發 AI 麻將技術門檻就是比 Alpha Go 等棋類 AI 高的還多!

「全新機制、教練先知、全面預測」對付麻將AI研發瓶頸

全新機制應對「巨大的狀態空間」

例如,為了應對「巨大的狀態空間」,研究團隊引入了全新的機制:對探索過程的多樣性,進行動態調控,讓 Suphx 可以比傳統算法更加充分地試探牌局狀態的多種可能。另一方面,一旦某一輪的底牌給定,其狀態子空間會大幅縮小;所以研究團隊讓Suphx 在推理階段根據本輪的牌局,來動態調整策略,對縮小了的狀態子空間進行更有針對性的探索,從而更好地根據本輪牌局的演進做出自適應的決策。

「先知教練技術」應對「非完美資訊」

其次,針對「非完美訊息」博弈的挑戰,Suphx 創新性地嘗試了先知教練技術來提升強化學習的效果。其基本思想是在自我博弈的訓練階段,利用一些不可見的隱藏訊息,來引導 AI人工智慧 模型的訓練方向,使其學習路徑能更加清晰、更加接近完美資訊意義下的最佳路徑,從而讓 AI人工智慧 模型能更加深入地理解可見信息,從中找到有效的決策依據。

「全盤預測技術」理解「復雜的獎勵機制」

另外,對於麻將復雜的牌面表達和計分機制,研究團隊還利用全盤預測技術搭建起每輪比賽和8輪過後的終盤結果之間的橋樑。這個預測器通過精巧的設計,可以理解每輪比賽對終盤的不同貢獻,從而將終盤的獎勵信號合理地分配回每一輪比賽之中,以便對自我博弈的過程進行更加直接而有效的指導,並使得Suphx可以學會一些具有大局觀的高級技巧。

得益於以上新技術和其他方面的創新,自今年 3 月進入天鳳平台以來,Suphx 在與人類玩家的對局中,學得非常快。目前,在平衡攻擊和防禦方面,Suphx 表現出了比許多頂尖人類玩家更明智的策略,能夠戰略性地完成短期損失與長期收益之間的權衡,並根據已有的模糊信息進行快速決策。

Suphx 一直在不斷學習與進步,研究團隊也一直在對 Suphx 背後核心算法的價值進行評估、重複回饋過程和反思,從而實現進一步的改進和提升。而劉鐵岩也表示「 雖然 Suphx 根據麻將的獨特挑戰,進行了針對性的設計,也取得了不錯的戰績,但我們的創新從未停止。我們期待,在不久的將來,能發明出更新穎、更強大的AI人工智慧 技術,使得Suphx 的能力有更大幅度的提升!縱觀歷史、遊戲AI人工智慧 的進化,始終與AI人工智慧 研究進展相生相伴,很多關於人工智慧的研究都起源於研究如何構建能夠完成遊戲的智能體。我們希望通過對 Suphx 的研究來探索及擴展已有AI人工智慧技術的邊界,不斷推動人工智慧領域的進步。」

 

精選延伸閱讀:

微軟的麻將人工智慧更勝Al的phaGo?今天揭曉真相!-上

有了這人工智慧教練督促,以後大概不用再害怕上台報告時出糗!

國小就開始教AI人工智慧,讓你的小孩贏在起跑點!

全球前十大AI領頭羊,告訴你Python課程有多重要!

Python小新聞:工程師易患覺得自己是冒牌貨的精神疾病?

暑假快到了!與其讓兒子盲目拚學測,我寧可讓他先選擇人生方向~

達內教育開幕 培養台灣IT人才進入全球企業

本篇發表於 網路行銷 並標籤為 , , , , , , , 。將永久鏈結加入書籤。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料