斗哥谈判课:石油定价练习复盘

游戏基本规则

博弈中的两个石油国家,分别就石油价格进行报价,价格有 10、20、30 三档,双方都报高价时,双方都得到较高收益;双方都报低价时,双方都得到较低收益;一方高价、一方低价,低价方将得到高收益、高价方得到低收益。目标是已方收益最大化,不关心对方收益高低。

具体报价-收益表格如下:

报价B 国30B 国20B 国10
A 国30A:11 B:11A:2 B:18A:2 B:15
A 国20A:18 B:2A:8 B:8A:3 B:15
A 国10A:15 B:2A:15 B:3A:5 B:5

游戏进行 8 轮,每轮双方背靠背报价,报完价后可以看到对方这一轮报价。

游戏分析

这是三个选项版本的囚徒困境,如果只考虑单论游戏,在囚徒困境中,无论对方选择什么,已方选择背叛都是最佳选择。在这里也是类似的,一锤子买卖的单轮游戏,我方选择 10 是收益最高的(有个例外:对方选择 30 的时候,我方选择 20 是收益最高的)

因为这是一个明确的有限次数游戏,如果绝对理性,第 8 轮是最后一轮,变成了单轮游戏规则,那么理性的双方都会选择 10;那变成了只有第 7 轮需要决策,第 7 轮变成的事实上的最后一轮游戏,第 7 轮又变成了单轮游戏决策规则,理性双方选择 10;依次类推,1至 8 轮理性双方都是选择 10。对于明确有限次数的游戏,绝对理性必然导致双输结果。

《合作的进化》一书是专门研究囚徒困境的,通过让世界各地的个人、机构提交决策程序,让决策程序两两对战,对战轮次不确定,由概率决定,来模拟长期合作。提交程序有各种各样的人和机构,包括心理学专家、社会学专家、博弈专家等等。最终总分获得第一名的程序规则如下:

  1. 善良,不首先背叛。第一轮选择合作,只要对方不背叛,就一直合作;
  2. 以牙还牙,不可被欺负。如果对方背叛,下一轮也跟着背叛,惩罚对方;
  3. 宽容,对方背叛后,再改回合作时,下一轮立刻跟着合作

以上原则是基于不确定次数的游戏制定的,因为本次是一个明确有限轮次的游戏,我们认为善良原则不适用于本次游戏。

游戏过程

我们是 A3 组 对阵 B3组,一个组 5 个人,A3 某个组员视角

第一轮:10 VS 10

基于明确限次游戏、游戏过程不存在变化因素、人是理性的假设,我们选择了 10,对方也选择了 10;

第二轮:30 VS 30

我们觉得这样下去双输,并认为人不是绝对理性的,选择释放善意,试图得到对方合作,我们选择了 30;对方可能基于同样的考虑,也选择了 30;

第三轮:30 VS 30

有了上一轮的试探,双方都继续保持合作,选择了 30;

第四轮:20 VS 30

出现了一个我们没有想到的变化,被通知这一轮收益翻倍,双方可以会面谈判。双方谈判代表谈判的结果是双方都报价 30,如果一方不信守承诺,对方在接下来 4 轮都会选择 10 来作为报复。在对方选择 30 的情况下,我方选择30 收益将是 11 X 2 = 22,选择 20 收益将是 18 X 2 = 36,额外收益 14

如果选择 20,接下来 4 轮遭到对方选择 10 的报复,我们也跟随选择 10,那么接下来 4 轮的收益是 5 X 4 = 20;4至 8 轮 5 轮总收益是 56。

如果我们选择 30,接下来 4 轮里面,我们相信理性的双方最后一轮一定是选择 10;那 5、6、7 轮假设双方都选择 30,那么这三轮收益是11 X 3 = 33。四轮总收益是 38,4至 8 轮总收益是 60。

这样看起来第四轮选择30,收益比选择 20要高4,但是这是基于对方5-7 轮都是合作,才能得出这样的收益,具有不确定性;而选择 20,后面 4 轮的收益都是确定的,不可能比我们计算的更少,只有可能更多。

作为提出选择 20 方案的我,内心其实还有个偏离目标(已方收益最大化,不关心对方收益)的竞争意识,期望比对方收益更大,赢得“比赛”,其实题目给我们设立的目标并没有赢得比赛。

小组内部有不同意见,最终举手表决通过了 20 的方案。

对方遵守若言给出了 30 的报价,我们给出了 20 报价,对方得到 4 分,我们得到 36 分。

总结:

中途出现了意外变化、回到了理性主导、竞争意识导致出现偏离目标的决策、选择了背叛谈判结果。

第五轮:30 VS 10

剩下轮次不多,理性主导的我建议后面 4 轮无脑出10,不要对重回合作抱有期望。有小组成员还是期望能够重启合作,就算重启不了合作,也释放一次善意。

这一轮我们讨论了比较久,导致超时。

最后有个小组成员提到,对方这一轮出 10,我们出 10 和 30 的收益,我方收益差不多,5 和 2 的区别,影响不大。于是,我们达成了一致,出 30。

对方如我们预期的一样,出 10。

第六轮:10 VS 10

还是有分歧,30 和 10 都有主张,有成员建议继续释放善意,我的观点是这一轮释放善意只影响对方第 7 轮的决策,第8 轮对方肯定出 10,而且第 7 轮很有可能出 10,我们应该出 10。最终双方都是出了 10。

回想起来,我自己在这里还是受竞争意识影响多一些:不能让对方得高分。事实上我们的目标里是完全不关心对方得分的。

第七轮:20 VS 10

又出现了一个意外的变化,第 7轮如果双方选择不同,双方收益都X4,第 8 轮也一样,双方可以会面谈判。开始对前面基于理性做出的背叛行为感到后悔,破坏了双方的信任关系,没想到后面规则还有变化。

但小组成员想到了引入场外因素来修补背叛带来的不信任问题,方案就是第7轮让我方得高分,第 8 轮我方保证让对方得高分,具体出牌是:20 vs 30、30 vs 20,如果我方第 8 轮不遵守诺言,则需要当众表演。

我们有点意外的是,对方这一轮没有遵守诺言,出了 10,我方出了 20,收益是:12 vs 60

第 八轮:10 VS 20

看到第 7 轮结果,我们有点绝望,第 8 轮我们无脑出了 10,并认为对方也一定是出 10。但是让我们意外的是,对方居然出了 20,不能理解对方为何做出如此决策。

后来询问对方,对方是因为在这一轮里面考虑自己收益最大化,如果出 10,只能得到 5 分,如果出 20,则可以得到 12 分。这是一个真正理性的决策,紧盯着目标,不受情绪和竞争意识的影响。

这样看,其实对方在第 7 轮做出的决策是不理性的,是受到报复情绪的影响,因为对方遵守诺言的话,两轮下来得分更高。但也有可能对方存在对我们不信任的因素,担心我们第 8 轮无法遵守承诺。

总结

  1. 书本上的理论基于理想模型,比如人是绝对理性的,博弈过程中不存在变化因素,现实世界不会是理想模型,人不是完全理性的,会受人性影响,包括善的、恶的;同时世界瞬息万变,情况是在动态变化的。
  2. 斗哥在这堂课上,教我们要守正、同时也不能被欺负,做个强有力的好人,很开心斗哥教我们的是正道。在这个游戏中,我觉得想的过于复杂,其实秉持简单、善良、不被欺负、宽容,这些基本原则,可以更简单、清晰的制定策略,得到更好的结果。虽然现实世界跟我们这个模拟游戏也不完全一致,但我相信在动态变化的世界中,始终秉承以上原则,长期来看,肯定不会吃亏,自己内心也更加心安理得。
  3. 想清楚自己的目标,始终盯紧目标,不要受情绪、竞争意识等因素影响目标。我们要的理性是不受情绪影响、不受对手影响,达成自己目标的理性,对手在第 8 轮给我们上了很好一课。在游戏过程中,我始终受竞争意识影响,导致我的目标偏离题目给的目标,题目要的目标是收益绝对值最高,我内心的目标是收益相对值最高,即比其它组和对手高。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部