以牙还牙（tit for tat）.ppt

下载文档 降价啦

10
0
约2.74千字
约 38页
2017-09-10 发布于天津
举报
版权申诉
保障服务

以牙还牙（tit for tat）.ppt

1、本文档共38页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

以牙还牙（tit for tat）

以牙還牙（Tit for tat）這一策略有兩個步驟：第一個回合選擇合作。下一回合是否選合作要看上一回對方是否合作，若對方上一回背叛，此回合我亦背叛；若對方上一回合作，此回合繼續合作。以牙還牙（Tit for tat）以牙還牙策略有四個特點：友善：以牙還牙者開始一定採取合作態度，不會背叛對方。報復性：遭到對方背叛，以牙還牙者一定會還擊作出報復。以牙還牙（Tit for tat）寬恕：當對方停止背叛，以牙還牙者會原諒對方，繼續合作。不羨慕對手：以牙還牙者個人永遠不會得到最大利益，整個策略以全體的最大利益為依歸。上校賽局上校賽局是一個兩人參與的零和賽局，參與者需要同時在某一些對象中分配有限的資源，其最後的收益是單個對象收益之和。上校賽局此賽局原本的述敘是，有一個上校被要求找到在 N 個戰場裡士兵的最佳分佈，其條件為：每個戰場，分派較多士兵的一方會勝利。雙方都不知道對方在每個戰場上分派了多少的士兵。贏了較多戰場的一方是最後的贏家。教授鄞宗賢學生李信諺丘震亞吳亞屏黃英哲定義兩名參賽者合作性質零和架構非零和架構完整訊息非完整信息對稱非對稱 Two-person(兩名參賽者) ……顧名思義，就是整個賽局中，只有兩名參賽人員。事實上，限定兩名參賽人員只是賽局理論裡的最基本模型。 Zero-Sum(零和) 指參與賽局的各方，在嚴格競爭下，一方的收益必然意味著另一方的損失，參與賽局之各方收益和損失相加總和永遠為「零」，故雙方不存在合作的可能。 Zero-Sum(零和) 換言之，自己的幸福是建立在他人的痛苦之上的，二者的大小完全相等，因而雙方都想盡一切辦法以實現「損人利己」。著名例子：賭博、期貨、股票投機等。 Non Zero-Sum(非零和) 參與賽局之各方收益和損失相加總和並非為「零」。自己的所得並不與他人的所失的大小相等，連自己的幸福也未必建立在他人的痛苦之上，即使傷害他人也可能會發生「損人不利己」的情況。 Non Zero-Sum(非零和) 所以參與賽局的雙方存在「雙贏」的可能性，進而產生合作的可能。著名例子：談戀愛。 Perfect knowledge(完整信息) 與賽雙方皆能夠完整的獲得所有與賽局相關的一切資訊。例子：象棋，西洋棋。 Imperfect knowledge(非完整信息) 反之，與賽雙方不一定能夠完整的獲得所有與賽局相關的一切資訊，而該資訊很可能是被隱藏起來。例子：戰爭迷霧，眾多樸克牌遊戲，麻將……。 Cooperative(合作性質) 顧名思義，賽局中需要與賽者一起合作達成目標者，即可稱之。只可能在非零和的狀況下才會發生。 Symmetric(對稱) 參與賽局者的雙方，所能獲得的資訊與所遵循的遊戲規則都「相同且對等」。例子：西洋棋，象棋……。 Asymmetric(不對稱) 反之，參與賽局者的雙方，所能獲得的資訊與所遵循的遊戲規則不盡然「相同且對等」時，則稱之。例子：兵棋推演，官兵捉強盜……。 Asymmetric(不對稱) 反之，參與賽局者的雙方，所能獲得的資訊與所遵循的遊戲規則不盡然「相同且對等」時，則稱之。例子：兵棋推演，官兵捉強盜……。何為「囚徒困境」？囚徒困境是賽局理論中非零和博弈模型裡具代表性的例子，反映個人最佳選擇並非團體最佳選擇。單次發生的囚徒困境，和多次重複的囚徒困境結果不一定會一模一樣。「囚徒困境」的定義囚徒困境的主旨為，若囚徒們彼此合作，堅不吐實，可為全體帶來最佳利益（無罪開釋）。但在資訊不明的情況下，有機會因為出賣同夥可為自己帶來利益（縮短刑期）。「囚徒困境」的定義也因為同夥把自己招出來可為他帶來利益，因此彼此出賣雖違反最佳共同利益，反而是自己最大利益所在。著名的相關例子：納許平衡。「囚徒困境」的定義納許平衡博奕矩陣犯人甲招供不招供犯人乙招供各判刑2年甲判10年乙無罪開釋不招供甲無罪開釋乙判10年各判刑半年 Strictly Dominant Strategies(嚴格佔優策略) 在一個博弈當中，無論對手採取什麼策略，你若有幾個策略，而其中一個策略可以使你得到比採取其他策略更好的結果，那麼，這個策略就是你的優勢策略。 Pareto Optimality(帕累托最優法則) 帕累托最優是指資源分配的一種理想狀態模型。假定固有的一群人和可分配的資源，如果從一種分配狀態到另一種狀態的變化中，在沒有使任何人境況變壞的前提下，使得至少一個人變得更好，這就是帕累托改善。 Pareto Optimality(帕累托最優法則