Traveler's Dilemma 3－～月下の夜想曲～

賽局理論(Game Theory)是近代著名天才數學家兼經濟學家John Nash提出
囚徒兩難(Prisoner's Dilemma)則是他用以佐證其理論的例子。

Nash提出這個理論後，其實衍生出相當複雜的經濟學與策略學應用
在策略學上，我們探討的是如何應用Game Theory來產生"最優策略"
甚至應用在企業經營決策上的"合作理論"。

一、最佳策略的產生

Robert Axelrod在開始研究合作之前，設定了兩個前提：
1.人性都是自私的
2.沒有任何權威可干預個人決策
也就是說，個人可以完全按照自己利益最大化的企圖進行決策。

在此前提下，"合作理論"要研究的問題是：
1.人為什麼要合作？
2.人什麼時候是會合作的，什麼時候又是不合作的？
3.如何使別人與你合作？

社會實踐中有很多合作的問題。比如國家之間的關稅報復，對他國產品提高關稅有利於保護本國的經濟，但是國家之間互提關稅，產品價格就提高了，喪失了競爭力，損害了國際貿易的互補優勢。在對策中，由於雙方各自追求自己利益的最大化，導致了群體利益的損害。"對策論"正是以著名的「Prisoner's Dilemma」來描述這個問題。

A和B各表示一個人，他們的選擇是完全無差異的。選擇C代表合作，選擇D代表不合作。如果AB都選擇C合作，則兩人各得3分；如果一方選C，一方選D，則選C的得零分，選D的得5分；如果AB都選D，雙方各得1分。

顯然，對群體來說最好的結果是雙方都選C，各得3分，共得6分。
如果一方選C，一方選D，總體得5分。如果兩人都選D，總體得2分。

策略學界用這個矩陣來描述個體理性與群體理性的衝突：每個人在追求個體利益最大化時，就使群體利益受損，這就是Prisoner's Dilemma。在矩陣中，對A來說，當對方選C，他選D得5分，選C只得3分；當對方選D，他選D得1分，選C得零分。因此，無論對方選C或D，對A來說，選D都得分最多。
這是A單方面的最優策略。而當兩個最優策略相遇，即A，B都選D時，結果是各得1分。這個結果在矩陣中並非最優。困境就在於，每個人採取各自的最優策略時，得出的解是穩定的，但卻不是最佳的，這個結果顯現了個體理性與群體理性的矛盾。在數學上，這個一次性決策的矩陣沒有最佳解。

如果"遊戲"進行多次，只要對策者知道遊戲次數，他們在最後一次肯定採取互相背叛的策略。既然如此，前面的每一次也就沒有合作的必要，因此，在次數已知的多次遊戲中，對策者沒有一次會選擇合作。

如果這遊戲在多人間進行，而且次數未知，對策者就會意識到，當持續地採取合作並達成默契時，對策者就能持續地各得3分，但如果持續地不合作的話，每個人就永遠得1分。這麼一來，合作的動機就顯現出來。多次對局下，未來的收益應比現在的收益多一個折現率W，W越大，表示未來的收益越重要。在多人對策持續進行下去，且W比較大，即未來充分重要時，最優的策略是與別人採取的策略有關的。假設某人的策略是，第一次合作，以後只要對方不合作一次，他就永不合作。對這種對策者，當然合作下去是上策。假如有的人不管對方採取什么策略，他總是合作，那麼總是對他採取不合作的策略得分最多。對於總是不合作的人，也只能採取不合作的策略。

Axelrod做了一個實驗，邀請多人來參加遊戲，得分規則與前面的矩陣相同，什麼時候結束遊戲則是未知的。他要求每個參賽者把追求得分最多的策略寫成程式，然後用單循環賽的方式將參賽程式兩兩博奕，以找出什麼樣的策略得分最高。

第一輪遊戲有14個程式參加，再加上Axelrod自己的一個隨機程式(即以50%的機率選取合作或不合作)，運轉了300次。結果得分最高的程式是加拿大學者Robert寫的"以牙還牙"(Tit for Tat)。這個程式的特點是，第一次對局採用合作的策略，以後每一步都跟隨對方上一步的策略，你上一次合作，我這一次就合作，你上一次不合作，我這一次就不合作。
Axelrod還發現，得分排在前面的程式有三個特點：
第一，從不首先背叛，即"善良的"
第二，對於對方的背叛行為一定要報復，不能總是合作，即" 可激怒的"
第三，不能人家一次背叛，你就沒完沒了的報復，以後人家只要改為合作，你也要合作，即"寬容的"。

為了進一步驗證上述結論，Axelrod決定邀請更多的人再做一次遊戲，並把第一次的結果公開發表。第二次徵集到了62個程式，加上他自己的隨機程式，又進行了一次競賽。結果，第一名的仍是"Tit for Tat"。
Axelrod總結這次遊戲的結論是：
第一，Tit for Tat仍是最優策略。
第二，前面提到的三個特點仍然有效，因為63人中的前15名裡，只有第8名的Harrington程序是"不善良的"，後15名中，只有1個總是合作的是" 善良的"。可激怒性和寬容性也得到了証明。此外，好的策略還必須具有的一個特點是"清晰性"，能讓對方在三、五步對局內辨識出來，太複雜的對策不見得好。 "Tit for Tat"就有很好的清晰性，讓對方很快發現規律，從而不得不採取合作的態度。

二、合作的進行過程及規律

"Tit for Tat"的策略在靜態的群體中得到了很好的分數，那麼，在一個動態的進化的群體中，這種合作者能否產生、發展、生存下去呢？群體是會向合作的方向進化，還是向不合作的方向進化？如果大家開始都不合作，能否在進化過程中產生合作？為了回答這些疑問，Axelrod用生態學的原理來分析合作的進化過程。

假設對策者所組成的策略群體是一代一代進化下去的，進化的規則包括：
1.嚐試。人們在對待周圍環境時，起初不知道該怎麼做，於是就試這個，試那個，哪個結果好就照那個去做。
2.遺傳。一個人如果合作性好，他的後代的合作基因就多。
3.學習。比賽過程就是對策者相互學習的過程，"Tit for Tat"的策略好，有的人就願意學。
按這樣的思路，Axelrod設計了一個實驗，假設63個對策者中，誰在第一輪中的得分高，他在第二輪的群體中所占比例就越高，而且是他的得分的正函數。這樣，群体的結構就會在進化過程中改變，由此可以看出群體是向什麼方向進化的。

實驗結果很有趣。"Tit for Tat"原來在群体中占1/63，經過1000代的進化，結構穩定下來時，它占了24%。另外，有一些程序在進化過程中消失了。其中有一個值得研究的程序，即原來前15名中唯一的那個"不善良的"Harrington程式，它的對策方案是，首先合作，當發現對方一直在合作，它就突然來個不合作，如果對方立刻報復它，它就恢復合作，如果對方仍然合作，它就繼續背叛。這個程序一開始發展很快，但等到除了"Tit for Tat"之外的其它程序開始消失時，它就開始下降了。因此，以合作系數來測量，群體是越來越合作的。

進化實驗揭示了一個哲理：一個策略的成功應該以對方的成功為基礎。"Tit for Tat"在兩個人對策時，得分不可能超過對方，最多打個平手，但它的總分最高。它賴以生存的基礎是很牢固的，因為它讓對方得到了高分。 Harrington程式就不是這樣，它得到高分時，對方必然得到低分。它的成功是建立在別人失敗的基礎上的，而失敗者總是要被淘汰的，當失敗者被淘汰之後，這個好占別人便宜的成功者也要被淘汰。

那麼，在一個極端自私者所組成的不合作者的群體中，"Tit for Tat"能否生存呢？Axelrod發現，在得分矩陣和未來的折現系數一定的情況下，可以算出，只要群體的 5%或更多成員是"Tit for Tat"的，這些合作者就能生存，而且，只要他們的得分超過群體的總平均分，這個合作的群體就會越來越大，最後蔓延到整個群體。反之，無論不合作者在一個合作者占多數的群體中有多大比例，不合作者都是不可能自下而上的。這就?明，社會向合作進化的ratch是不可逆轉的，群體的合作性越來越大。 Axelrod正是以這樣一個鼓舞人心的結論，突破了"Prisoner's Dilemma"的研究困境。

在研究中發現，合作的必要條件是：
第一、關係要持續，一次性的或有限次的遊戲中，對策者是沒有合作動機的。
第二、對對方的行為要做出回報，一個永遠合作的對策者是不會有人跟他合作的。

那麼，如何提高合作性呢？
1.要建立持久的關係，即使是愛情也需要建立婚姻契約以維持雙方的合作。
2.要增強識別對方行動的能力，如果不清楚對方是合作還是不合作，就無法回報他了。
3.要維持聲譽，說要報復就一定要做到，人家才知道你是不好欺負的，才不敢不與你合作。
4.能夠分步完成的對局不要一次完成，以維持長久關係，比如，貿易、談判都要分步進行，以促使對方採取合作態度。
5.不要嫉妒人家的成功，"Tit for Tat"正是這樣的典範。
6.不要首先背叛，以免擔上罪魁禍首的道德壓力。
7.不僅對背叛要回報，對合作也要作出回報。
8.不要耍小聰明，想占人家便宜。

Axelrod在《The Evolution of Cooperation》書中結尾提出幾個結論。
第一、友誼不是合作的必要條件，即使是敵人，只要滿足了關係持續，互相回報的條件，也有可能合作。
比如，第一次世界大戰期間，德英兩軍在壕溝戰中遇上了三個月的雨季，雙方在這三個月中達成了默契，互相不攻擊對方的補給線，到大反攻時再你死我活地打。這個例子說明，友誼不是合作的前提。
第二、預見性也不是合作的前提，Axelrod舉出生物界低等動植物之間合作的例子來說明這一點。但是，當有預見性的人類了解了合作的規律之後，合作進化的過程就會加快。這時，預見性是有用的，學習也是有用的。

有趣的是，當遊戲中考慮到隨機干擾，即對策者由於誤會而開始互相背叛的情形時，以原程式稍作修正的"Tit for Tat with Repentance"，以一定的機率不報復對方的背叛，和 "Tit for Tat with Forgiveness"，以一定的機率主動停止背叛。群體所有成員處理隨機環境的能力愈強，"Tit for Tat with Repentance"效果愈好，"Tit for Tat with Forgiveness"效果愈差。

　三、 Axelrod的貢獻與局限性

Axelrod 提出的"Tit for Tat"策略，從社會學的角度可以看作是一種"互惠式利他"，這種行為的動機是個人私利，但它的結果是雙方獲利，藉由"互惠式利他"有可能覆蓋了範圍最廣的社會生活，人們通過送禮及回報，形成了一種社會生活的秩序，這種秩序即使在多年隔絕，語言不通的人群之間也是最易理解的東西。比如，Columbus登上美洲大陸時，與印地安人最初的交往就開始於互贈禮物。有些看似純粹的利他行為，比如無償捐賺，也經由某些間接方式，比如社會聲譽的獲得，得到了回報。研究這種行為，將對我們理解社會生活有很重要的意義。

Prisoner's Dilemma擴展為多人"遊戲"時，就展現了一個更廣泛的問題──"社會悖論"，或"資源悖論"。人類共有的資源是有限的，當每個人都試圖從有限的資源中多拿一點時，就產生了局部利益與整體利益的衝突。人口問題、資源危機、交通堵塞，都可以在社會悖論中得以解釋，在這些問題中，關鍵是通過研究，制定遊戲規則來控制每個人的行為。

很可惜的是...理論與現實，是有差距的！

首先，《The Evolution of Cooperation》暗含著一個重要的假定：個體之間的對奕是完全無差異的。
然而在現實中，對策者之間絕對的平等是不可能的。一方面，對策者在實際的實力上有差異，雙方互相背叛時，可能不是各得1分，而是強者得5分，弱者得0 分，這麼一來，弱者的報復就毫無意義。另一方面，即使對局雙方確實旗鼓相當，但某一方可能懷有賭徒心理，認定自己更強大，採取背叛的策略能占便宜。 Axelrod的得分矩陣忽視了這種情形，而這種賭徒心理恰恰在社會上大量引發了零和對奕。因此，程式還可以在此基礎上進一步改進。

其次，Axelrod認為合作不需預期和信任。這是他受到質疑頗多之處。對策者根據對方前面的戰術來制定自己下面的戰術，合作要求個體能夠識別那些曾經相遇過的個體並且記得與其相互交手的歷史，以便作出反應，這些都暗含?"預期"行為。在應付複雜的對策環境時，信任可能是對局雙方達成合作的必不可少的環節。但是，預期與信任如何在電腦程序中展現出來，現階段是不太可能的。

最後，也是最重要的一點，重複交鋒在現實中是很難完全實現的。一次性的競爭大量存在，引發了很多不合作的行為，而且，對策的一方在遭到對方背叛之後，往往損失過大，沒有機會也沒有還手之力去進行報復。比如，商場上的違約行為，國家間的核攻擊。在這些情況下，社會要使交易能夠進行，並且防止不合作行為，必須通過法制手段，以法律的懲罰代替個人之間的"以牙還牙"，規範社會行為。

-----------------------------------------------------

參考資料：
Axelrod R.(2006),《The Evolution of Cooperation》

~End~

Big Cat

～月下の夜想曲～

Big Cat 發表在痞客邦留言(0) 人氣()

E-mail轉寄

«	五月 2024					»
日	一	二	三	四	五	六
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

～月下の夜想曲～

感性超越於理性會讓人盲目
理性凌駕於感性卻使人冷酷

Unbent, Unbowed, Unbroken.

Traveler's Dilemma 3

歷史上的今天

留言列表

Calendar

文章分類

Introduction (2)

Log (6)

Criticism (4)

Itinerary (5)

Science (1)

Mathematics (5)

Architecture (1)

History & Myth (2)

Poetry (2)

Recreation (1)

文章彙整

My Link

Music

Math

Art

Bookshelf

參觀人氣

最新留言

新聞交換(RSS)

«	五月 2024					»
日	一	二	三	四	五	六
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

«	五月 2024					»
日	一	二	三	四	五	六
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

～月下の夜想曲～

感性超越於理性會讓人盲目 理性凌駕於感性卻使人冷酷 Unbent, Unbowed, Unbroken.

Traveler's Dilemma 3

歷史上的今天

留言列表

Calendar

文章分類

Introduction (2)

Log (6)

Criticism (4)

Itinerary (5)

Science (1)

Mathematics (5)

Architecture (1)

History & Myth (2)

Poetry (2)

Recreation (1)

文章彙整

My Link

Music

Math

Art

Bookshelf

參觀人氣

最新留言

新聞交換(RSS)

感性超越於理性會讓人盲目
理性凌駕於感性卻使人冷酷

Unbent, Unbowed, Unbroken.

«	五月 2024					»
日	一	二	三	四	五	六
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31