环境的随机性是否必然意味着mdp中的非平稳性?

2021-02-25 14:36

随机环境必然也是非平稳的吗?要详细说明,请考虑一个两态环境($s_1$和$s_2$),其中有两个操作$a_1$和$a_2$。在$s_1$中,采取行动$a_1$有一定的概率$p_1$将您

解答动态

  • 随机环境必然也是非平稳的吗?
    No.
    随机环境(即具有转换模型$p(s',r\mid s,a)$的MDP)可以是平稳的(即$p$不随时间变化)或非平稳的(p$随时间变化)。类似地,确定性环境(即概率为$1$或$0$)也可以是静止的或非静止的。为了强调MDP可能是非平稳的,你可以写$p$作为时间的函数,即$p\t$(如果奖励函数与转移函数分离,你也可以对它做同样的事情)。
    同样的想法适用于随机/确定性策略,它可以是平稳的,也可以不是平稳的。
    非平稳环境可能导致非平稳策略(如果需要学习环境模型,则可能需要重新学习环境模型)[1]。然而,请注意,随机环境(即MDP)并不一定意味着随机策略(实际上,在某些条件下,平稳和随机MDP已知具有确定性最优策略[1])。
    一般来说,如果某些东西(例如环境、策略、价值函数或奖励函数)是非平稳的,这意味着它会随着时间的推移而改变。这可以是函数或概率分布。因此,概率分布(MDP的随机部分)可以随时间改变,也可以不改变。如果它随时间变化,那么它使MDP非平稳。
    但它是非平稳的,从某种意义上说,在给定的状态下采取某种行动所获得的回报可能在给定的时间发生变化
    非正式地说,你可以说获得的经验回报是非平稳的,因为它随时间变化,由于报酬函数、行为策略等的随机性,但动态(转移函数和报酬函数)仍然是固定的,因此环境仍然是静态的。因此,环境和你迄今为止收集的经验(有一些行为政策)是有区别的

    • End

    免责声明:

    本页内容仅代表作者本人意见,若因此产生任何纠纷由作者本人负责,概与琴岛网公司无关。本页内容仅供参考,请您根据自身实际情况谨慎操作。尤其涉及您或第三方利益等事项,请咨询专业人士处理。