求翻译,不要谷歌在线翻译的那些
Dynamicprogramming(DP)algorithmsexploitthefactthatthecostfunctionssatisfytheHowardequ...
Dynamic programming (DP) algorithms exploit the fact that the cost functions satisfy the Howard equations. The two most widely known DP algorithms are policy iteration and value iteration. Both are iterative algorithms that improve a starting policy until the optimum policy is found. For brevity we only describe the policy iteration algorithm. Once γπ and the set vx(π) have been determined for a given policy, the policy can be
improved by finding at each state x the action a that minimizes {γx(a) – γπ + Σy≠x qxy(a)(vy(π) –vx(π))}, which is basically Eq. 1. It can be shown that the new policy is never worse than the previous policy; that is, its average cost rate is lower than or equal to that of the previous policy. The iterative process of policy evaluation and
improvement proceeds until γπ can no longer be improved. Figure 1 shows the optimal policies in three different scenarios that differ in the cost of rejecting a session. In the first two scenarios, requests of service 2 are always accepted while requests of service 1 are accepted only in the states inside the shaded surface. The dotted line shows the acceptance region for service 1 when deploying the CS policy. In the third scenario
rejecting a service 1 request is more costly than rejecting a service 2 one. It is not surprising that now the optimal policy is to always reject service 2 requests, given that they occupy more resources and are not that valuable. Therefore, states where x2 > 0 are not reachable. On the other hand, service 1 requests are always accepted while enough free resources are available. 展开
improved by finding at each state x the action a that minimizes {γx(a) – γπ + Σy≠x qxy(a)(vy(π) –vx(π))}, which is basically Eq. 1. It can be shown that the new policy is never worse than the previous policy; that is, its average cost rate is lower than or equal to that of the previous policy. The iterative process of policy evaluation and
improvement proceeds until γπ can no longer be improved. Figure 1 shows the optimal policies in three different scenarios that differ in the cost of rejecting a session. In the first two scenarios, requests of service 2 are always accepted while requests of service 1 are accepted only in the states inside the shaded surface. The dotted line shows the acceptance region for service 1 when deploying the CS policy. In the third scenario
rejecting a service 1 request is more costly than rejecting a service 2 one. It is not surprising that now the optimal policy is to always reject service 2 requests, given that they occupy more resources and are not that valuable. Therefore, states where x2 > 0 are not reachable. On the other hand, service 1 requests are always accepted while enough free resources are available. 展开
3个回答
展开全部
动态规划算法(DP)开发的事实是,成本函数满足霍华德方程。两个最广为人知的DP算法迭代与政策值迭代。两者都是迭代算法,提高到一个起始政策优化政策被发现。我们只描述为简洁的迭代算法的政策。一旦γπ和设置vx(π)已经被确定为一个给定的方针、政策
发现每个州提高x这个议案,将{γx(联盟):γπ+Σy≠x qxy(a)(vy(π)-vx(π)},它基本上是情商1。结果表明,新政策是从来没有比以前的政策,也就是说,其平均费率低于或等于以前的政策。迭代过程和政策评估
直到γπ改善收入不再能被提高。图1显示的最优政策在三个不同的场景,不同的成本拒绝会议。在前两个场景,要求2总是接受服务时被请求的服务1在美国只是在阴影表面。虚线显示接受服务地区当部署CS政策。在第三个方案中
拒绝请求是更昂贵的服务1比2拒绝服务。这并不令人惊讶,现在的最适政策是总是拒绝服务2的要求,考虑到他们占用较多资源,也没有那些有价值的。因此,国家,x2 > 0高不可及。另一方面,服务时总是接受1要求足够自由的资源是可用的。
这是啥东西,我没看懂,在线翻译的
发现每个州提高x这个议案,将{γx(联盟):γπ+Σy≠x qxy(a)(vy(π)-vx(π)},它基本上是情商1。结果表明,新政策是从来没有比以前的政策,也就是说,其平均费率低于或等于以前的政策。迭代过程和政策评估
直到γπ改善收入不再能被提高。图1显示的最优政策在三个不同的场景,不同的成本拒绝会议。在前两个场景,要求2总是接受服务时被请求的服务1在美国只是在阴影表面。虚线显示接受服务地区当部署CS政策。在第三个方案中
拒绝请求是更昂贵的服务1比2拒绝服务。这并不令人惊讶,现在的最适政策是总是拒绝服务2的要求,考虑到他们占用较多资源,也没有那些有价值的。因此,国家,x2 > 0高不可及。另一方面,服务时总是接受1要求足够自由的资源是可用的。
这是啥东西,我没看懂,在线翻译的
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
动态编程 (DP) 算法利用成本函数满足霍华德方程的事实。政策迭代和值迭代的两种最广为人知的 DP 算法。两者都是迭代算法,提高起始的政策,直到找到最佳的策略。为简洁起见,我们只描述的政策迭代算法。一旦设置的 vx(π) 和 γπ 已经确定给定的策略,可以通过在每个 x 操作的最小化状态的发现改善政策 {γx(a) — — γπ + Σy≠x qxy(a)(vy(π) –vx(π))},基本上是智商 1。它可以显示新政策是永远不会比以往的政策 ;也就是说,其平均成本率是政策的低于或等于,以前。政策评估和改进的迭代过程收益直到不再可以改进的 γπ。图 1 显示的最优政策不同成本拒绝一个会话中的三个不同的方案。在前两个方案中,虽然 1 服务的请求被接受只在美国内阴影的表面总是接受 2 服务的请求。虚线显示服务 1 接受区域部署的 CS 政策时。在第三个拒绝服务 1 请求的情况是更昂贵,不是拒绝服务 2 之一。它不是令人惊讶的是,现在的最优策略是始终拒绝服务 2 请求,既然他们占据更多的资源,是不是有价值的。因此,指出其中,x 2 大于 0 不能到达。另一方面,我们总是接受服务 1 请求,虽然免费资源不足
本回答被提问者采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
动态规划(民主党)算法利用的事实,成本函数满足霍华德方程。2最广为人知的民主党算法策略迭代和迭代值。两者都是迭代算法,提高创业政策直到最佳的政策被发现。我们只有简短描述的策略迭代算法。一旦γπ和集维埃克斯(π)已被确定为一个给定的政策,该政策可以
改进的发现在每个国家的行动,最大限度地减少{γ×(一)–γπ+Σ辎≠×抛丸机(一)(维(π)–维埃克斯(π))},这基本上是1式。可以证明,新的政策是不差比以前的政策;即,其平均成本率低于或等于前一政策。迭代过程的政策评价
改进直到收益γπ不再能被改进。图1显示了最佳的政策在三个不同的情况,不同的费用,拒绝一个会话。在第一个场景,服务要求2总是接受而服务要求1只接受美国在阴暗面。虚线表示接受区域服务1部署时,政务司司长政策。在第三个场景
拒绝服务1的要求是更昂贵的拒绝服务2。这并不奇怪,现在的最佳策略总是拒绝服务2个请求,因为它们占用更多的资源并没有价值。因此,国家X 2>0不可达。另一方面,服务1个请求总是接受而足够的资源是可用的。
改进的发现在每个国家的行动,最大限度地减少{γ×(一)–γπ+Σ辎≠×抛丸机(一)(维(π)–维埃克斯(π))},这基本上是1式。可以证明,新的政策是不差比以前的政策;即,其平均成本率低于或等于前一政策。迭代过程的政策评价
改进直到收益γπ不再能被改进。图1显示了最佳的政策在三个不同的情况,不同的费用,拒绝一个会话。在第一个场景,服务要求2总是接受而服务要求1只接受美国在阴暗面。虚线表示接受区域服务1部署时,政务司司长政策。在第三个场景
拒绝服务1的要求是更昂贵的拒绝服务2。这并不奇怪,现在的最佳策略总是拒绝服务2个请求,因为它们占用更多的资源并没有价值。因此,国家X 2>0不可达。另一方面,服务1个请求总是接受而足够的资源是可用的。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询