Photo by Matt Popovich on Unsplash
囚徒困境(prisoner's dilemma)是賽局理論中一個非常經典的範例。有兩個人被認為一起犯案的嫌疑犯遭警方逮捕,警方對他們進行審訊。特別的是,警察將他們分開審訊,不給他們溝通討論的機會。
分開審訊時,兩邊的警察皆對犯人說:如果你們都不認罪,都關一個月;如果兩個人都認罪,都關五年;如果一個人認罪而另一個沒有認罪,背叛對方認罪的立即釋放,沒認罪的關十年。情境如下圖所表示。這裡我們假設人都是理性的、只為自己的利益。
上面這張圖,我們改用數字來表示成下圖這樣:
圖中的數字表示回報(payoff),嫌疑犯 A/B 是玩家(player),不認罪/認罪為策略(strategy)。這裡正好體現出賽局的三要素:payoff、player、strategy。接下來許多情境我們都會用這樣的矩陣來模擬雙方同時選擇策略的賽局。
回到囚徒困境,這兩個嫌疑犯將如何選擇呢?我們分開討論,當嫌疑犯 B 不認罪時,A 選哪個策略最好?0 > -1 所以認罪比較好。而當 B 選擇認罪時,因為 -5 > -10,認罪這個策略是 A 最好的選項。考量在對方選擇某個策略的情況下,我們選擇哪個策略最好,這個概念就是賽局理論中「最佳回覆」(best response)的概念。所以換句話說,在 B 不認罪的情況下,A 認罪是最佳回覆;在 B 認罪的情況下,A 認罪也是最佳回覆。最佳回覆這個概念很重要,因為賽局裡可能沒有所謂的「最佳解」,你的收益受別人決策的影響。有句話還滿能表現最佳回覆的概念:「見人說人話,見鬼說鬼話。」
-1 < 0 且 -10 < 5。在這個矩陣上,我們把 0 和 -5 標示出來,可以看到 0 和 -5 都是屬於同樣的一列—認罪,表示「無論 B 怎麼選,A 選擇認罪都是最佳回覆」。當我們有一個策略無論對方選什麼策略都是最佳回覆,那麼這個策略在賽局理論中稱為「支配性策略」(dominant strategy)。
我們推完 A 該如何做策略了,換來看 B。同樣的道理,B 的認罪也是個支配性策略,我們把較好的回覆策略也用紅色標起來如下圖。
雙方的支配性策略都是認罪,所以最後結果會落在右下角那格,也就是雙方基於理性都會認罪。在這邊我們做到了「利用支配性策略來預估結果」這件事。
從表格我們可以看到對於這兩個人來說,(-1, -1)比(-5, -5)好,但結果卻落到了(-5, -5),表示個人理性下的選擇不代表能使群體得到較好的回報。
從囚徒困境的例子來看,(-1, -1)相較於(-5, -5)是個「雙贏」的結果,但他們卻達不到。這可能是因為他們缺乏信任,覺得對方可能背叛自己,不相信對方會不認罪,所以如果自己選擇不認罪而對方認罪就虧大了!-10 可是這個賽局矩陣裡最慘的!
每個人心理都有自己評估回報的公式,它常常取決於你的信念。一個售價 10 元的商品,在你的心裡可能值 20 元。所以你對事物越了解,越能提高決策的品質。
從囚徒困境這個範例可以看出警察分開嫌疑犯這招是非常高明之處的!刻意分開他們,使他們「不能溝通」,讓賽局裡的玩家趨於選擇認罪。
如果從現實一點的層面來看,對警方來說,犯人判什麼罪說不定不重要,重要的是如果嫌疑犯早點認罪,那就能早點破案完事。
許多影劇都會演古代中國一些衙門的官員會對嫌疑犯嚴刑拷打,即使對方真的沒有犯案,都可能屈打成招,從賽局的角度思考那些官員可能是因為這樣做對他們來說比較有利才這麼做的。聽起來可能比較黑暗一點,這裡不是要人做比較黑暗的事,而是讓大家了解別人可能怎麼想事情、可能做哪些你聽起來可能不太道德的事。學賽局可能不會讓你叱吒風雲,但能幫助你保護自己。
本篇只是個簡單的討論,我們可以看出賽局討論著重「人」的因素。跟許多理工的學科不同,在賽局裡可能沒有「最佳解」,我們討論的是「最佳回覆」。從本篇的討論可以看出,一個簡單的賽局案例,都可能牽扯出無限的想法與延伸,這就是賽局的魅力!
下一篇我們將介紹納許均衡~