当前位置：首页 > 人工智慧導論 > 正文内容

一個強化學習模型，下列敘述何者為真？

2023-12-01人工智慧導論

一個強化學習模型，下列敘述何者為真？

A.一組可以動態變化的狀態 (state) 。比如圍棋棋盤上的黑白子的分佈位置，市場上的每支股票的價格

B.一組可以選取的動作 (action) 。比如對於圍棋來說，就是可以落子的位置；對於股票交易來說，就是每個時間點，買入或者賣出的股票以及數量

C.一個可以和決策主體 (agent) 進行交互的環境。這個環境會決定每個動作後狀態如何變化。比如說圍棋博弈中的對手，或者股票市場。在強化學習中，為了降低學習的代價，很多時後我們會使用一個通過機器模擬的環境，而不是以真實場景作為環境

D.回報 (reward) 規則。當決策主體通過行動狀態發生變化時，它會獲得回報或者受到懲罰

E.以上皆是

正确答案是E

扫描二维码免费使用微信小程序搜题/刷题/查看解析。

返回列表