当前位置:首页 > 人工智慧導論 > 正文内容

一個強化學習模型,下列敘述何者為真?

2023-12-01人工智慧導論

一個強化學習模型,下列敘述何者為真?

A.一組可以動態變化的狀態 (state) 。比如圍棋棋盤上的黑白子的分佈位置,市場上的每 支股票的價格

B.一組可以選取的動作 (action) 。比如對於圍棋來說,就是可以落子的位置;對於股票交易來說,就是每個時間點,買入或者賣出的股票以及數量

C.一個可以和決策主體 (agent) 進行交互的環境。這個環境會決定每個動作後狀態如何變化。比如說圍棋博弈中的對手,或者股票市場。在強化學習中,為了降低學習的代價,很多時後我們會使用一個通過機器模擬的環境,而不是以真實場景作為環境

D.回報 (reward) 規則。當決策主體通過行動狀態發生變化時,它會獲得回報或者受到懲罰

E.以上皆是

正确答案是E

扫描二维码免费使用微信小程序搜题/刷题/查看解析。

版权声明:本文由翰林刷题小程序授权发布,如需转载请注明出处。

本文链接:https://20230611.cn/post/10215686.html