[科普中国]-决策策略选择-

基于贝叶斯决策的决策策略选择概述

近年来，随着互联网上Web 服务的大量出现，提供相同功能的Web 服务也越来越多，但这些Web 服务在非功能属性上仍然存在差别。如何在这些服务中进行合理的选择，对成功地构建面向服务应用(service oriented applications)具有非常重要的意义，是一个极具挑战性的问题。

目前，针对Web 服务选择的研究，大都是基于QoS (quality of service)模型的。QoS 的性能指标包括执行时间、费用、服务可靠性、有效性、用户满意度等，此外，还可能有一些特定领域的其他属性.一个用户可决定挑选最便宜的或最快的服务，或者是多QoS 目标的折中。文献[4]根据工作流任务的结构特点对其进行分区，按照任务量和通信量将总工作流截止日期和总工作流花费分为每个任务分区上的子截止日期和子花费，在考虑用户多个QoS 要求及工作流任务间通信时间的基础上，提出基于信任与花费的综合效益函数，给出信任与花费权值的确定方法以及一个以综合效益最优为目标的调度算法—TCD，算法通过追求局部最优达到全局多目标优化调度。文献[6]提出了一个在满足截止日期的约束下追求最小花费或在满足花费的约束下追求最短执行时间的单目标优化调度算法。还有的方法，生硬地为QoS 的各个性能指标赋予相应的权重，形成一个单目标函数来求解。还有的方法以用户的历史经验为基础计算用户之间的相似程度，根据其他用户的经验对某个用户的决策做出指导。

这些方法虽然都考虑到了用户多QoS 要求，但没有考虑到不同用户的不同侧重点，如：有的用户宁愿花费更多的钱去享受更快的Web 服务；有的用户不在乎服务的快慢，但希望花费少些；有的用户更加注重该服务的口碑（用户满意度）等。

基于贝叶斯决策的多QoS 目标的Web 服务选择策略是在已有的具有相同功能的服务集的基础上，选择最可能让自己满意的一个Web 服务来执行。该策略将机器学习领域的经典方法：贝叶斯决策理论，运用到Web 服务的选择中来，可以充分利用用户自己的经验库（即自己曾经选择的Web 服务的QoS 信息及是否令自己满意），学习自己以往的经验，做出更可能让用户满意的选择。

基于贝叶斯的多目标的Web 选择策略不同的用户眼中的最优Web 服务是不同的，有的用户更在乎执行时间，有的用户更在乎费用，有的用户更在乎服务的用户满意度。但对于同一个用户来说，它的兴趣一定遵循同一概率分布的。用户曾经选择的 Web 服务及当时对该服务是否满意的集合，即“经验库” 中隐含着自己的偏好信息。基于贝叶斯决策的多QoS 目标的Web 服务选择策略，利用贝叶斯决策理论，在用户自己的经验库中进行学习，进而做出更可能让用户满意的选择。

2.1 贝叶斯理论介绍

贝叶斯理论是一种运用概率手段来进行推理的方法，被广泛用于机器学习领域。它基于如下的假定，即待考查的量遵循某概率分布，且可根据这些概率及已观察到的数据进行推理，以作出最优的决策。它通过对已知分类数据的学习，来预测训练数据的分类。作为一种基于概率的统计学习和决策理论框架内的基础方法，贝叶斯理论已得到了广泛的应用。

2.2 模型的建立

该方法以消费者的历史经验为基础，通过概率统计的手段，计算出消费者并未使用过的Web 服务能让自己的满意程度。基于贝叶斯决策的多QoS 目标的Web 服务选择策略的过程如图1 所示，主要分为以下几部分。

（1）当用户要执行某个活动时, 首先列出这个活动对应的所有具有相同功能的Web 服务以及各服务的QoS 性能指标。.

（2）利用贝叶斯决策模型和自己的经验库，计算各个Web 服务可能让自己满意的概率。

（3）挑选其中让自己满意概率最大的Web 服务。

（4）选择该Web 服务，执行。

（5）执行结束，留下自己的反馈意见（满意或不满意）。将该服务的QoS 性能指标，以及自己的反馈意见（是否满意）存入自己的经验库中，将相关信息提交给“服务管理中心”，更新该服务的QoS性能指标。

模型的评价首先，该模型基于机器学习领域的经典方法：贝叶斯理论。该方法有严密的推导和证明，已被广泛的应用于多个领域。所以该模型的理论基础是非常坚实的。

其次，选择Web 服务时，不需要用户的介入。需要用户做的工作仅仅是在Web 服务执行完了以后，作出评价（“满意”或“不满意”）。所以该模型更具有智能性。

最后，该模型是一个动态的模型，随着时间的推移，如果用户的偏好慢慢发生变化，该模型所做出的抉择也会根据用户经验库的更新慢慢偏移。

总结和展望面对众多功能相同，但在非功能属性上仍然存在差别的Web 服务，如何进行合理的选择，对成功地构建面向服务应用具有非常重要的意义。本文在总结了当前基于多QoS 目标的Web 服务选择策略发展现状的基础上，介绍了一种基于贝叶斯的多QoS 目标的Web 服务选择策略。该方法具有理论基础坚实、智能性、动态性的优点。1

基于马尔科夫决策的决策策略选择概述目标选择是军事决策过程的重要组成部分，现代战争中的目标选择问题要置于打击目标体系的作战过程中分析。目标体系( Target System of System，TSoS) 是由多个作战系统构成的集合，每个作战系统实现一定任务并对体系使命产生影响。打击目标体系的目的是使体系崩溃，打击过程由于存在资源约束等原因被划分为多个阶段，因此如何打击目标体系是具有复杂目标关联的多阶段目标选择问题。传统目标选择方法多是通过层次分析法等对目标进行评估和排序，没多属性决策理论有考虑目标间复杂关联，为处理该问题，目前主要采用贝叶斯网络描述目标体系内影响关联。故障树方法但以上方法均未考虑目标选择的多阶段决策特征，没有利用行动中间结果调整目标。目标选择的动态性在动态武器目标分配问题和军事行动规划问题中得到研究。蔡怀平等研究了动态武器目标分配问题中的马尔科夫性，解武杰等将马尔可夫过程用于分析防空武器目标选择策略; Boutilier 等在马尔科夫决策过程(Markov Decision Process，MDP) 基础上提出决策理论规划方法对具有阶段决策的军事行动进行建模但没有考虑目标关联和相应的复杂打击效果，不能直接用于求解打击目标体系过程中的目标选择问题。阳东升等利用动态贝叶斯网络描述了战场重心及作战行动间影响关系，但搜索空间很大时求解效率不高，王长春等用复杂网络仿真方法分析体系对抗过程，但是建模过程较复杂。

1 目标选择问题描述为分析目标选择问题，需分析打击目标对目标体系状态的影响。与或树使用图形化能将复杂问题分解为多个简单子问题，因此使用与或树描述体系中状态间的影响关系。目标体系的状态包括三类要素状态: 目标单元状态 GT 、目标系统能力状态 GN 和目标体系能力状态 GS 。目标单元是目标体系中最基础的要素，能被直接摧毁，如单部雷达，其状态用叶节点集 GT ={ gTi } ( 1≤i≤I) 描述，I 为目标单元数量，单元毁伤，gTi = 1; 单元正常，gTi = 0。目标系统是多个目标单元或子系统的集合，之间相互关联，显现某种作战能力，如预警能力。其状态用非终端节点集 GN = { gNj } ( 1 ≤j ≤J) 描述，J 为目标系统数量，系统能完成任务，gNj = 1; 不能完成任务，gNj = 0。其包含的目标单元和子系统能力状态作为其在与或树中子节点，通过逻辑与、或关系，对系统能力状态产生影响。

目标体系是多个目标系统的集合，体现出支持某个使命的能力，如防空使命能力。体系能力状态使用根节点 GS 描述，体系能达成使命，GS =1; 不能达成，GS = 0。其包含的各目标系统能力作为其子节点，通过逻辑与、或关系对体系能力状态产生影响。

2目标选择过程建模2． 1 问题假设

(1) 打击目标体系过程分为若干个作战阶段，使用有限资源，目的是使体系失效;

(2) 目标体系状态为进攻方完全感知，目标选择决策仅与当前阶段状态有关，在当前状态被观察后，进攻方选择打击目标;

(3) 打击每个目标具有一定成功概率，消耗一定资源，每个阶段打击多个目标，使得目标体系状态在下一阶段发生概率迁移。

2． 2 目标选择决策模型

在符合以上假设时，打击过程中目标体系状态的变化可认为是一个离散时间随机过程，其变化过程的状态转移概率由打击目标行动所控制，因此目标选择决策成为一个离散时间马尔科夫决策过程，其最优决策就是每阶段要选择打击哪些目标，使目标体系失效的概率最大化。本文使用 DTMDP 模型描述打击目标体系的目标选择决策过程，即以下多元组:S是有限状态集，S = { ( t，R，G) } ，t 指当前第t阶段，R = ( R1 ，…，Rk ，…，RK ) 描述资源的状态向量，Rk 为第 k 类资源数量，G = ( g1T ，…，gTI ，g1N ，…，gNJ ，GS ) ，表示体系的状态向量。S0 是初始状态。ST 是终止状态集，对应于资源、时间消耗完毕，或目标体系失效的状态，在此状态下打击过程结束。A是所有行动组成的有限集，A( s) 是在状态 s下可采取的行动集，a A( s) 包含多个目标单元打击任务 { Taski } ( 1 ≤i ≤I) ，Taski 成功概率为Pi ，即 Pi ( GTi = 1 | Taski ) = Pi 。若 Rk ( s，Taski ) 表示Taski 在状态 s 下消耗第 k 种资源的数量，Lk 表示第 k 种资源在每阶段的最大允许使用数量，是在可用行动 a 下状态转移 s→s'的概率函数，表示在打击行动 a 下，状态在下一阶段变化的可能性。

2．3 模型复杂度分析

打击目标体系过程中的目标选择模型和以往基于MDP 的目标选择或军事计划模型存在着以下区别:

(1)问题假设不同。以往模型中假设目标间无关联，而本模型假设目标间相互影响;

(2)终止状态不同。以往模型是以最大化毁伤目标为期望值，而本模型是以达成目标体系失效为目的;

(3)状态空间不同。以往模型的状态空间是所有目标的状态，而本模型的状态空间包含了目标单元、系统能力、体系能力三类要素状态，使得状态空间复杂度增加;

(4)时间尺度不同。以行动阶段而非具体时间来描述打击目标体系过程，并假设行动能够在单阶段内完成，简化了行动空间描述;

(5)状态迁移函数不同。以往模型只需计算各目标的状态迁移，而本模型中的状态迁移还需考虑不同层次间要素的状态影响关系。

3求解算法3． 1 求解框架

本问题状态空间巨大，并且只关注求解从目标体系初始状态到达终止状态的行动策略，而 MDP 值迭代或策略迭代方法需对全状态空间进行遍历，因此求解效率较低，这就需要使用启发式搜索算法来求解。RTDP ( Real Time Dynamic Programming) [18] 的改进算法 LRTDP ( LabeledRTDP) 方法要比其他如 LAO* 等求解 MDP 的启发式搜索算法要更有效率因此本文使用LRTDP 方法求解该模型。

RTDP 是基于试验( trials-based) 的方法，每次试验从初始状态开始，基于当前状态值的启发式，根据贪婪策略选择行动，然后根据行动的概率结果随机创建后续状态，直至到达目的状态，然后进行反向值迭代。

3． 2 启发式

设计了基于行动成功概率、行动执行时间和资源边界的启发式提供对 V0 ( S) 的最佳估计值，使得对所有状态 s，V0 ( S) V( S) ，以促进LRTDP 中算法的收敛，但由于打击目标体系过程中的目标选择模型和传统规划模型在状态空间、迁移函数上的区别，该启发式不能直接应用于前者。针对打击目标体系过程特点，分别设计新的启发式来计算从目标体系当前状态 S 到达目标体系失效状态的最小失败概率 minV( S，fail) 和最小资源消耗需求 minV ( S，resource) ，并进行加权组合，以得到对 V0 ( S) 的最佳估计值。启发式考虑了时间代价不同，由于打击目标的时间消耗为单个阶段，从当前状态到达目标体系失效状态的最小时间消耗需求 minV( S，time) 总是为单个阶段，因此在新启发式中没有考虑时间代价。

( 1) 到达目标体系能力失效状态的最小失败概率为判断从当前状态到达体系失效状态的最小失败概率，先求得最大成功概率，即从当前状态下预期能采取的所有打击目标行动能够达成的体系失效概率。当目标体系与或树中非叶子节点 g 具有子节点集 SG = { sgk } ( 1 ≤k ≤K) ( K 为子节点数量)时，其中 Prok 表示使得第 k 个子节点失效的最大成功概率，sgk 描述第 k 个子节点是否失效，失效时取 1，正常时取 0。其基本过程为:

1) 与或树自根节点向下遍历各节点;

2) 取得各节点的状态，当节点状态为失效，则该节点的毁伤概率为 1，当节点状态为正常，取得其所有子节点的失效概率值，根据子节点间的与或关系计算使该节点失效的概率值;

3) 直至遍历至叶节点，获得对应打击目标行动的成功概率( 即节点失效概率值) ，然后递归计算使根节点失效的成功概率值。用1 减去使根节点失效的最大成功概率值即得到使目标体系失效的最小失败概率。

(2) 到达目标体系失效状态的最小消耗为求解到达目标体系失效状态的最小消耗资源，我们假设从当前状态开始，所采取的每次打击行动都能成功摧毁目标。根据与或树的结构层次计算能够导致目标体系失效所需的行动集的最小消耗资源。当目标体系与或树中非叶子节点 g 具有子节点集 SG = { sgk } ( 1 ≤k ≤K) ( K 为子节点数量)时，当 SG 为与关系时，使 g 失效的最小资源消耗Res 为:当 SG 为或关系时:Res = min( { ( 1 － sgk ) ·Resk } ) ，1≤k≤K ( 14) 其中 Resk 表示使得第 k 个子节点失效的最小资源消耗，sgi 描述第 k 个子节点是否失效，失效时取 1，正常时取 0。其基本过程为:

1) 与或树自根节点向下遍历各节点;

2) 当节点状态为失效，则该节点资源消耗为0，当节点状态为正常，则取得其所有子节点消耗资源值，根据子节点间与或关系综合得到该节点资源消耗值;

3) 直至遍历到叶节点，获得对应打击目标行动的消耗资源，然后递归计算使根节点( 体系能力) 失效的资源消耗值。2

比赛中决策策略选择概述多智能体系统(Multi-Agent Systems, MAS)的研究是当前人工智能领域的一个热点问题和重要的发展方向。足球机器人比赛已经成了MAS 研究的一个标准平台。机器人足球发展的宏伟目标就是要实现自学习、自适应以及具有很强鲁棒性的实时多智能机器人系统, 力争经过大约50年左右的发展,使机器人足球队能够打败当时人类的世界冠军足球队。以Mirosot 系列机器人系统为例,给出了一种分层递阶控制设计, 并针对在视觉子系统不采集对方球员信息的情况下, 提出了实力对比函数的概念, 通过这个函数实时的根据场上的情况判断双方球队的形式变化情况, 以提高决策子系统的智能性。

1决策系统的设计1.1决策系统的分析

足球机器人的决策子系统扮演着教练员和运动员的职责。在真实的绿茵场上, 作为教练员要根据球场上的实际情况来部署球员, 同时也根据不同的对手, 选择不同的队形。足球机器人赛场上,决策者也应该根据不同的球队采取不同的策略,对于错综复杂的球场形势, 运用灵活的策略。一个好的决策系统不可能一劳永逸地一次性开发完成,是一个不断完善的过程,因此,构建一个可持续开发、合理的决策框架就显得尤为重要。分层递进控制方式对决策思路进行逻辑上的分层。一般来说,决策思路是先确定机器人之间的协作关系,然后根据配合的要求确定每个机器人的运动方式。分层的具体方式可以有一定的不同。

比赛时,视觉子系统每 40ms 左右将球场上各机器人的位姿和球的信息传入计算机 ,决策子系统根据传入的视觉信息分析球场上的情况 , 做出相应的决策,转化为每个机器人的左右轮速, 通过通信子系统发送给每个机器人。当决策子系统收到视觉输入信息后, 对其进行预处理, 根据球和本方机器人的位置对场上攻防形势进行分析, 并将所作的决策分解为各个任务———这是决策的第一层。根据分解完的任务从队形库中为本方机器人确定一个队形———这是决策的第二层。根据队形所需的角色以及我方机器人的位置 , 将每个角色分配给具体的机器人———这是决策的第三层。之后将左右轮速发送给对应的每个机器人。

1 .2 决策系统的设计

决策系统的设计过程是一个由基层到高层逐步构造的过程, 就是如何来实现决策系统分析结果。基于上述足球机器人决策分析过程, 采用如下的足球机器人决策系统设计。

在比赛过程中 , 我们所要求小车的基本运动就是跑位、转向, 继而在此基础上, 让小车按照决策者的意图来完成一些复杂动作, 最后实现决策者的整个策略思想。本设计采用面向对象的程序设计把整个决策系统划分 3 个类, 他们由基层到高层(即由顶到底)分别为:基本动作类、技术动作类、决策类, 他们是从顶到底依次继承, 高层可以继承基层, 但基层不能继承高层, 高层类中方法的实现需要基层类中方法的支持, 基本动作函数类的方法完成如原地转动、转到定角、转到定点、到定点、到达定点有一定的速度函数等等, 其属性是可调参数的结构体 ;技术动作函数类中封装一些比较高级的动作, 如完成射门、防守、边界处理等功能;组合动作函数类是更高层次的类, 其方法用来完成多车协作动作, 如点球大战、争球等动作 ; 决策类是整个决策系统的最高层, 是整个决策的核心部分 ,就是用这些底层类来实现决策者的意图,如信息预处理、态势分析、角色分配、动作实现等。由上设计实现过程,可以看出,我们可以根据决策者不同的需求,逐步完善这些底层函数类,各个函数类的补充只是改动本身,并不影响其他类,从而提高了整个决策系统的可维护性和可扩充性,为决策者提供了一个施展各种策略思想的平台。

2决策策略的动态选择算法实力对比函数的提出

由于决策系统所能得到的信息仅是由视觉系统传递来的球的位置以及本方球员的位置和方向信息,因此如何判断对方球队的情况则变成了是一个不容易解决的问题。如果不对对方球队情况进行判断, 无论场上形式如何变化我方总是采用一成不变的策略则会降低整个球队的智能性, 本系统通过实力对比函数来判断场上情况的变化 , 并根据不同的情况做出不同的策略选择, 从而提高了系统的智能性。

3实验结果在MiroSot 足球机器人系统中对本文提出的决策策略动态选择算法进行了验证, 其中 Team1 在进行决策策略选择的时候采用传统的决策策略选择方法。Team2 ,Team3 ,Team4 也采用传统的决策策略选择方法, 并且 3 支球队的实力一个比一个强(通过实验得出球队的强弱)。比赛结果如下表1 所示:

表1 比赛结果(选用本文算法之前)

|| ||

在选用的决策策略动态选择算法之后 ,Team1 分别对 Team2 ,Team3 ,Team4 的比赛结果如表 2 所示:

|| ||

从实验的比赛结果可以看出, 在采用了决策策略动态选择算法之后同样一支球队在和比它实力弱球队的比赛时会加强进攻从而可以大比分的战胜对手, 在和它实力相当的球队比赛时会适当的分配进攻和防守的比重 ,从而有机会战胜对手 , 在和比自己实力强的球队比赛时会加强防守在不输球的情况下适时进攻。而实现的, 先进技术手段的引入可能而且应该给企业带来效率和效益。信息化是企业发展的必然,是重大的机遇和挑战 ,我们要抓住信息化带来的机遇 ,在“ 信息化带动工业化” 的国家战略指导下,加强对国民经济与社会信息化的组织领导 ,加快制定并实施国家信息化的总体规划, 推动经济与社会各个领域信息化的进程。通过信息化不断提高企业核心竞争力, 强化综合国力的微观基础 , 这正是我国加入世贸组织、应对经济全球化挑战的关键所在。3

囚徒困境下的决策策略选择概述美国决策研究专家黑斯蒂(Hastie，R)认为判断与决策是人类根据自己的愿望和信念选择行动的过程。决策(decision making)从狭义上说是一个动态过程，是个体运用感知觉、记忆、思维等认知能力，对情境做出选择，确定策略的过程。广义的决策则包含判断与决策两个部分。博弈论中“囚徒困境”下的决策就是一个很有代表性的例子.

囚徒困境简介及其传统策略囚徒困境也称社会两难情境，是博弈论中的经典案例，指两个嫌疑犯被警察抓到，但警方没有掌握确切的证据，警察就分别找他们谈话：“如果你们都不认罪的话，我们将让你们都入狱一年；如果一个认罪，另一个不认罪的话，那么我们将判不认罪的那个十年的徒刑，认罪的将无罪释放；如果两人都认罪的话，我们将基于你们的诚实把每个人的徒刑降为五年，请你们各自权衡。”在这种情形下，两个疑犯都将面临着一个具有决定意义的两难选择。

亚当·斯密(Adam Smith)曾提出了理性经济人的假设，一是经济人是自私自利的；二是经济人的行为是理性的，即他们根据处境来判断自身的利益，追求个人利益尽可能最大化。在一个标准的囚徒困境中，可以用下面这个矩阵来表示：

|| ||

两个囚犯面临同样的选择——无论同伙选择什么，他们最好都选择认罪。因为，如果同伙不认罪，那么他们就无罪释放，否则，他们起码会被判十年徒刑。在一般情况下，假定每个囚徒都是理性的，他们的选择通常会出现以下两种可能情形：以A 为例，第一种可能是：B 认罪，这时如果A 也认罪，那么他们都要入狱5 年；如果A 不认罪，则A 将被判十年，B 无罪释放，两相比较下，对于A 来说，认罪显然是最优策略。第二种是：B 不认罪，这时如果A 认罪，那么B 将被判十年，A 将无罪释放，如果A 也不认罪，那么他们都将被判一年，这种情形下，A 的最优策略也是认罪。由此可见，对双方而言，每一个囚犯从个人利益出发，不考虑他人，他们都将选择认罪。但如果双方都不认罪，那么等待他们的将是一年的牢狱之苦。也就是说，对个人最有利的认罪策略，却不是集体(A 和B)的最佳策略。

囚徒困境中彰显的人性特点和理性信任观囚徒困境中个人的理性选择却是集体的非理性选择，从人性的角度来看，就会发现其中包含着人性恶的倾向。如果A 是善的，那么会出现两种情况，第一种情况是A 坚持不认罪也不供出B，B 同样也是坚持不认罪也不供出A；第二种情况是，A 坚持不认罪，B 认罪。

如果A 是恶的，那么也会出现两种情况，第一种情况是A 认罪也供出B，而B 不认罪.第二种情况是A 认罪也供出B，B 也认罪且也供出A 。

从善的角度考虑问题，可能得到最好的(1 年)和最糟的(10 年)的处罚结果；从恶的角度考虑，可能得到最好的(0 年)和最糟的(5年)的处罚结果。A、B 双方都从自己的利益考虑，选择恶的可能性会更大些。由此从囚徒困境中看到了人性恶的倾向。

在很多情况下，人面对的是一种集体条件下的困境，即博弈的双方可能是两大集团或更多的人，相同的博弈者可能会不断地重复面对相似的困境，“有条件的合作策略”将可能是理性经济人的最优策略。

重复为博弈产生了新的动力结构。通过重复，博弈者就可能按对手以往的选择而决定当前的选择。例如，存在一种所谓的“一触即发”策略，即“只要你背叛，我随后将永远背叛”，当双方保持背叛的状态时，就失去了双方获益的机会。而如果双方合作，其前提是双方的相互信任，就可能争取到双方获益的机会。还存在另一种所谓的“一报还一报”的策略，以合作开始，然后模仿对方上一步选择的策略。该策略以信任开始，决不首先背叛。时间嵌入性理论表明，今天的行为(合作或背叛)，将影响再次相遇时所做的选择。信任是使关系更持久、更稳固的最优选择。

现实生活中的“囚徒困境”及其应对策略囚徒困境在现实社会中广泛存在，而且情形要复杂的多。如汽车尾气与空气质量的问题。要保持空气清洁，汽车主人就要对车安装防污染的过滤装置，需要自己负担费用。而理性个体既想享受清洁的空气，又不愿为此付出代价。还有民众生育观的多子多福与人口膨胀的问题，上车不排队拥挤的问题等等。

要想克服重复条件下的囚徒困境，就要从集体成员的主观条件入手，使成员在新的基础上做出最优决策，打破原有的纳什均衡，建立新的有价值的纳什均衡(纳什均衡是经济学家Nash 提出的，若有N 个人参加博弈，那么在给定他人战略的情况下，在每一个参与人选择的最优战略所形成的战略组合中，没有任何一个参与人有积极性选择其他战略，也没有任何人有积极性打破这种均衡)。为此可以采取以下措施：

1、利用强化的作用.制定规则或提供奖惩措施，通过正强化的作用，引导决策者改变自己原有的决策偏好，向着有利于集体利益的方向发展，做出对集体而言的最优策略。

2、创造良好的文化氛围.囚徒困境说到底其实也是一种道德困境，要解决这种道德困境，就要从根本入手，创造良好的文化氛围，逐步改变全体的道德观、价值观、主观偏好。深刻认识囚徒困境的弊端，充分利用强化手段，在良好的社会文化氛围中创造人人都能从全局的利益出发，团结合作，使全社会建立起一种新的有利于全体成员的有价值的纳什均衡。4