游戏基本规则

博弈中的两个石油国家，分别就石油价格进行报价，价格有 10、20、30 三档，双方都报高价时，双方都得到较高收益；双方都报低价时，双方都得到较低收益；一方高价、一方低价，低价方将得到高收益、高价方得到低收益。目标是已方收益最大化，不关心对方收益高低。

具体报价-收益表格如下：

报价	B 国30	B 国20	B 国10
A 国30	A：11 B:11	A:2 B:18	A:2 B:15
A 国20	A:18 B:2	A:8 B:8	A:3 B:15
A 国10	A:15 B:2	A:15 B:3	A:5 B:5

游戏进行 8 轮，每轮双方背靠背报价，报完价后可以看到对方这一轮报价。

游戏分析

这是三个选项版本的囚徒困境，如果只考虑单论游戏，在囚徒困境中，无论对方选择什么，已方选择背叛都是最佳选择。在这里也是类似的，一锤子买卖的单轮游戏，我方选择 10 是收益最高的（有个例外：对方选择 30 的时候，我方选择 20 是收益最高的）

因为这是一个明确的有限次数游戏，如果绝对理性，第 8 轮是最后一轮，变成了单轮游戏规则，那么理性的双方都会选择 10；那变成了只有第 7 轮需要决策，第 7 轮变成的事实上的最后一轮游戏，第 7 轮又变成了单轮游戏决策规则，理性双方选择 10；依次类推，1至 8 轮理性双方都是选择 10。对于明确有限次数的游戏，绝对理性必然导致双输结果。

《合作的进化》一书是专门研究囚徒困境的，通过让世界各地的个人、机构提交决策程序，让决策程序两两对战，对战轮次不确定，由概率决定，来模拟长期合作。提交程序有各种各样的人和机构，包括心理学专家、社会学专家、博弈专家等等。最终总分获得第一名的程序规则如下：

善良，不首先背叛。第一轮选择合作，只要对方不背叛，就一直合作；
以牙还牙，不可被欺负。如果对方背叛，下一轮也跟着背叛，惩罚对方；
宽容，对方背叛后，再改回合作时，下一轮立刻跟着合作

以上原则是基于不确定次数的游戏制定的，因为本次是一个明确有限轮次的游戏，我们认为善良原则不适用于本次游戏。

游戏过程

我们是 A3 组对阵 B3组，一个组 5 个人，A3 某个组员视角

第一轮：10 VS 10

基于明确限次游戏、游戏过程不存在变化因素、人是理性的假设，我们选择了 10，对方也选择了 10；

第二轮：30 VS 30

我们觉得这样下去双输，并认为人不是绝对理性的，选择释放善意，试图得到对方合作，我们选择了 30；对方可能基于同样的考虑，也选择了 30；

第三轮：30 VS 30

有了上一轮的试探，双方都继续保持合作，选择了 30；

第四轮：20 VS 30

出现了一个我们没有想到的变化，被通知这一轮收益翻倍，双方可以会面谈判。双方谈判代表谈判的结果是双方都报价 30，如果一方不信守承诺，对方在接下来 4 轮都会选择 10 来作为报复。在对方选择 30 的情况下，我方选择30 收益将是 11 X 2 = 22，选择 20 收益将是 18 X 2 = 36，额外收益 14。

如果选择 20，接下来 4 轮遭到对方选择 10 的报复，我们也跟随选择 10，那么接下来 4 轮的收益是 5 X 4 = 20；4至 8 轮 5 轮总收益是 56。

如果我们选择 30，接下来 4 轮里面，我们相信理性的双方最后一轮一定是选择 10；那 5、6、7 轮假设双方都选择 30，那么这三轮收益是11 X 3 = 33。四轮总收益是 38，4至 8 轮总收益是 60。

这样看起来第四轮选择30，收益比选择 20要高4，但是这是基于对方5-7 轮都是合作，才能得出这样的收益，具有不确定性；而选择 20，后面 4 轮的收益都是确定的，不可能比我们计算的更少，只有可能更多。

作为提出选择 20 方案的我，内心其实还有个偏离目标（已方收益最大化，不关心对方收益）的竞争意识，期望比对方收益更大，赢得“比赛”，其实题目给我们设立的目标并没有赢得比赛。

小组内部有不同意见，最终举手表决通过了 20 的方案。

对方遵守若言给出了 30 的报价，我们给出了 20 报价，对方得到 4 分，我们得到 36 分。

总结：

中途出现了意外变化、回到了理性主导、竞争意识导致出现偏离目标的决策、选择了背叛谈判结果。

第五轮：30 VS 10

剩下轮次不多，理性主导的我建议后面 4 轮无脑出10，不要对重回合作抱有期望。有小组成员还是期望能够重启合作，就算重启不了合作，也释放一次善意。

这一轮我们讨论了比较久，导致超时。

最后有个小组成员提到，对方这一轮出 10，我们出 10 和 30 的收益，我方收益差不多，5 和 2 的区别，影响不大。于是，我们达成了一致，出 30。

对方如我们预期的一样，出 10。

第六轮：10 VS 10

还是有分歧，30 和 10 都有主张，有成员建议继续释放善意，我的观点是这一轮释放善意只影响对方第 7 轮的决策，第8 轮对方肯定出 10，而且第 7 轮很有可能出 10，我们应该出 10。最终双方都是出了 10。

回想起来，我自己在这里还是受竞争意识影响多一些：不能让对方得高分。事实上我们的目标里是完全不关心对方得分的。

第七轮：20 VS 10

又出现了一个意外的变化，第 7轮如果双方选择不同，双方收益都X4，第 8 轮也一样，双方可以会面谈判。开始对前面基于理性做出的背叛行为感到后悔，破坏了双方的信任关系，没想到后面规则还有变化。

但小组成员想到了引入场外因素来修补背叛带来的不信任问题，方案就是第7轮让我方得高分，第 8 轮我方保证让对方得高分，具体出牌是：20 vs 30、30 vs 20，如果我方第 8 轮不遵守诺言，则需要当众表演。

我们有点意外的是，对方这一轮没有遵守诺言，出了 10，我方出了 20，收益是：12 vs 60

第八轮：10 VS 20

看到第 7 轮结果，我们有点绝望，第 8 轮我们无脑出了 10，并认为对方也一定是出 10。但是让我们意外的是，对方居然出了 20，不能理解对方为何做出如此决策。

后来询问对方，对方是因为在这一轮里面考虑自己收益最大化，如果出 10，只能得到 5 分，如果出 20，则可以得到 12 分。这是一个真正理性的决策，紧盯着目标，不受情绪和竞争意识的影响。

这样看，其实对方在第 7 轮做出的决策是不理性的，是受到报复情绪的影响，因为对方遵守诺言的话，两轮下来得分更高。但也有可能对方存在对我们不信任的因素，担心我们第 8 轮无法遵守承诺。

总结

书本上的理论基于理想模型，比如人是绝对理性的，博弈过程中不存在变化因素，现实世界不会是理想模型，人不是完全理性的，会受人性影响，包括善的、恶的；同时世界瞬息万变，情况是在动态变化的。
斗哥在这堂课上，教我们要守正、同时也不能被欺负，做个强有力的好人，很开心斗哥教我们的是正道。在这个游戏中，我觉得想的过于复杂，其实秉持简单、善良、不被欺负、宽容，这些基本原则，可以更简单、清晰的制定策略，得到更好的结果。虽然现实世界跟我们这个模拟游戏也不完全一致，但我相信在动态变化的世界中，始终秉承以上原则，长期来看，肯定不会吃亏，自己内心也更加心安理得。
想清楚自己的目标，始终盯紧目标，不要受情绪、竞争意识等因素影响目标。我们要的理性是不受情绪影响、不受对手影响，达成自己目标的理性，对手在第 8 轮给我们上了很好一课。在游戏过程中，我始终受竞争意识影响，导致我的目标偏离题目给的目标，题目要的目标是收益绝对值最高，我内心的目标是收益相对值最高，即比其它组和对手高。

斗哥谈判课：石油定价练习复盘

游戏基本规则

游戏分析

游戏过程

总结

发表评论取消回复

游戏基本规则

游戏分析

游戏过程

总结

发表评论 取消回复

发表评论取消回复