演化动力学与合作复杂性

snachina · 发表于 2019-7-10 11:34:47

1 复杂性科学(Complexity science)

复杂性科学(Complexity Science) 被誉为21世纪的科学 [1]. 复杂性科学主要研究复杂系统(Complex System) 与其复杂性(Complexity) [2]. 作为一门多学科交叉综合的研究方法, 复杂系统理论研究涉及到数学、生物学、经济学、物理学、人工智能、神经科学、心理学、社会学、计算机科学、复杂性理论(Complexity Theory)、系统生态学、系统论(System Theory)、信息论、控制论(Cybernetics) 等. 一个复杂系统通常由多个独立的个体(或子系统)组成, 个体之间存在局部相互作用而相互适应. Strogatz在他的《Sync》一书中 [3], 总结各个时代的研究热点, 归结为C- 理论. 具体的, 20世纪60年代是控制论(Cybernetics)、70年代是突变理论(Catastrophe Theory)、80年代是混沌理论(Chaos Theory)、90年代是复杂性理论(Complexity Theory).

复杂性思想方法首先由法国哲学家Edgar Morin提出. 这里, “复杂”不是“简单”的对立面, 而是一种新的方法论. 这种方法论认为某种事物规律之所以简单并不是本身简单而是经过了人为的简化, 并且承认世界的不可知性. Morin 反对用经典科学的还原论及机械决定论来认识世界, 并认为世界的基本性质是有序性与无序性的统一. 比利时诺贝尔化学奖获得者Ilya Prigogine 在1979年提出了复杂性科学的概念. 他提出耗散结构理论(Dissipative Structure) 并研究了物理、化学中的“导致复杂过程的自组织现象” [4,5], 认为在非平衡态系统中, 系统内各要素之间存在复杂的非线性相干效应时才能产生自组织(Self-organization) 现象.

复杂性科学研究兴起的标志性事件是1984年美国圣达菲研究所(Santa Fe Institute, SFI) 的建立. 该所是在美国诺贝尔物理学奖得主Gell-Mann 的倡议下, 并在诺贝尔物理学奖得主Anderson和诺贝尔经济学奖获得者Arrow等人的支持下创立的. 该所把复杂性作为研究的中心议题, 旨在世界范围内促进对复杂系统理论的多学科研究. 圣达菲研究所是国际复杂性科学研究的中心, 也是复杂性科学研究者的朝圣地, 许多国际著名物理学家、经济学家都曾在那里工作过. 在我国也有许多学者长期推动和支持复杂系统与复杂性科学研究, 其中包括我国著名科学家钱学森教授和戴汝为教授 [6].

由于复杂系统中的个体具有自适应性(Adaptation), 即个体能够依据环境进行自我反馈调节, 因此复杂系统有时又被称为复杂自适应系统(Complex Adaptive System, CAS). 遗传算法的创始人Holland认为这种适应性造就了复杂性 [7]. 现实中的许多系统, 如股票市场(Stock Market)、社会性昆虫(Social Insects)、生态系统(Ecological System)、大脑、免疫系统(ImmunologicalSystem)、细胞及人类社会、文化系统中群体行为(Group Behavior) 等都是典型的复杂自适应系统.

涌现(Emergence) 和自组织行为(Self-organization Behavior) 是复杂系统重要的宏观表现行为. 在复杂系统中, 个体与个体之间通过特定的相互作用关系, 在一定的条件下, 有序的集体组织行为(Collective Behavior) 会涌现出来 [8]. 这种涌现行为通常是“1 + 1 > 2” 的, 也就是整体的行为大于部分之和. 由于复杂系统研究的难点在于对其建模和仿真, 因此,研究者通常只专注于被研究系统的某一种属性并对其进行简化分析. 例如, Von Neumann等人对元胞自动机(Cellular Automata) 的早期研究, Conway的生命游戏(Game of Life), 以及Wolfram的相关研究都揭示了复杂性可以通过系统中个体的局部相互作用而产生. 但在更多的情况下, 系统往往会出现混沌振荡等表现行为, 即系统处于“混沌的边缘” (Edge of Chaos). 复杂系统研究早期揭示的在开放系统中远离平衡态的自组织现象的理论除前面已介绍的Prigogine的耗散结构理论, 还包括Haken的协同论(Synergetics) [9]和Thom的突变论(Catastrophe Theory) [10].

与复杂性研究密切相关的是自组织临界性(Self-organized Criticality,SOC) 的发现 [11, 12], 这是20 世纪后半叶在统计物理学中非常重要的发现. 当系统逐渐演化到自组织临界状态时, 系统的时空动力学行为不再具有特征时间和特征空间尺度, 而表现出满足幂律(Power Law) 分布的时空关联, 包括突变事件的规则性、分形、1/f 噪声及标度律. 1989 年, Bak等人提出的沙堆模型, 很好地阐释了出现自组织临界性的机理 [12]. 自组织临界性是具有临界点吸引子的动力系统的一类性质, 因此它们的宏观行为在相变临界点附近表现出时空上的标度不变性. 自组织临界现象的产生, 则是由于内在的自发动力学机制驱使系统达到临界状态造成的, 与控制参数的取值无关 [11]. 这被认为是自然界中导致复杂性出现的一种机理, 并被广泛应用于不同学科中, 如进化生物(物种大爆发)、森林火灾预测、生态学、经济学、社会学、神经生物学等. 作为一类自组织系统, 多智能体系统(Multi-agent System, MAS) 的研究近年来引起了计算机科学界、控制理论界的兴趣, 得到了广泛的关注. 多智能体系统是由多个相互作用的具有自学习及自适应的个体组成. 个体不具有全局信息, 并且系统是分布式的, 即不存在一个中心控制个体. 多智能体系统可以用来研究软件系统, 智能交通, 机器人协作, 人工社会等. 在Vicsek的自驱粒子(Self-driven Particle) 模型 [13]及Reynolds的Boid模型 [14]的启发下, 多智能体的合作控制(Cooperative Control) [15], 如一致性(Consensus)、群集行为(Swarming Behavior) 等问题得到了很好的研究 [16,17].

2 复杂网络(Complex networks)

在20世纪末, 复杂网络(Complex Networks) 的研究掀起了复杂性科学研究的新热潮. 复杂网络本身也成了一门新的科学-网络科学(Network Science) [18]. 实际上, 复杂自适应系统中个体之间的相互作用关系可以看成是一个动态网络 [19,20], 因而可用复杂网络方便地对复杂系统进行描述和刻画. 系统中的个体是网络中的节点, 个体之间的相互作用关系是网络中的边. 传统的思想认为个体之间相互作用的拓扑关系是随机的, 可用一个随机网络来刻画. 例如1960年Erdos和Renyi提出的随机图论(Random Graph Theory) [21], 就得到了广泛的应用与发展 [22]. 现代意义上的复杂网络理论起源于对人际关系网络的定量研究. 对于无处不在的人际关系网络的认识, 最早美国著名社会心理学家Milgram在美国通过一系列连锁信实验, 证实了社会关系网络的小世界现象(Small-World Phenomenon), 即所谓的六度分离(Six Degrees of Separation). 数据统计表明平均只需通过6个中间人就可以联系任何两个互不相识的美国人 [23].

1998年, 时为Cornell大学力学系研究生的Watts和他的导师Strogatz合作提出了小世界网络模型(Small-World Network Model), 并用实际网络数据证实了真实世界网络拓扑具有“小世界性”, 并且是介于完全随机与完全确定性之间的, 也就是说真实网络的拓扑形成是这两种力量相互作用的结果 [24]. 论文一经Nature发表, 立刻在全世界范围内引起了广泛的关注 [25]. 1999 年, 时任美国Notre Dame大学物理学教授的Barabási与他当时的研究生Albert合作在Science发表了一个具有划时代意义的重大发现: 绝大多数真实世界网络拓扑统计性质满足一个幂律, 即网络中任选一个节点的邻居数(节点度, k) 的分布满足p(k) ∝ k−γ[26], γ通常介于2 ～ 3之间. 在这类网络中, 大部分节点只占有少数几条连接(边), 而一小部分节点却占有网络大部分的边(这类节点被称为Hubs). 他们把满足这一特性的网络称为无标度网络(Scale-Free Network), 并基于增长(Growth) 和优先连接(Preferential Attachment) 的思想提出了一个网络模型, 可以生成这种无标度网络.

实际上, “优先连接” 现象大量存在于社会经济系统中, 这是现实世界中一些统计量满足长尾分布(Long-Tailed Distribution) 或幂律的根本原因. 如语言中的词频对其排名的Zipf分布(Zipf’s Law), 城市大小与其排名的分布, 个人财富的Pareto分布(Pareto Distribution), 发表文章的引用次数分布(Price's “Cumulative Advantage”) 等. 这些幂律在不同的背景下, 被冠以不同的名字, 像Yule过程(Yule Process)、Gibrat律(Gibrat's Law)、累计优势(Cumulative Advantage)、富者越富(The Rich Get Richer), 成比例效应(Proportionate Effect), Bradford 分布(Bradford Distribution), Lotka定律(Lotka's Law), Taylor定律(Taylor's Law), 和Matthew效应(Matthew Effect). 在Yule工作的基础上 [27], Simon首先利用主方程的方法分析求解了优先连接导致的幂律 [28], 即实现了一类Zipf律, 又被称为Yule-Simon分布(Yule-Simon Distribution). 关于幂律研究的进一步综述, 可参见文献 [29]. 小世界网络模型及无标度网络模型是复杂网络研究中的两个重要里程碑 [18], 复杂网络从而成为复杂系统研究的重要工具与手段. 目前复杂网络的拓扑结构已得到了细致的研究. 有关度分布(Degree Distribution), 聚集系数(Clustering Coefficient), 平均度(Average Degree), 同配/异配性(Dis/assortative Mixing), 度相关性(Degree Correlation), 社团结构(Community Structure) 等网络拓扑结构统计性质的论述可参见综述文献 [30–32].

复杂网络的拓扑结构终究是为其实现的功能服务的, 因此复杂网络上的各类动力学研究, 像疾病、谣言传播 [33]、同步 [34]、观点动力学 [36] 及更一般的社会动力学(Social Dynamics) [35]、演化博弈动力学 [37,38] 等, 引起了许多学者的兴趣, 得到了系统的发展. 真实的网络拓扑结构并不是静态的、一成不变的, 而是在持续的动态演化之中. 网络拓扑与网络上的动力学相互作用并彼此影响、共同演化. 这种复杂网络的共演化(CoevolutionaryNetwork) 是近年来的一个研究热点 [39].

2009年是Barabási 等人发表无标度网络论文,即复杂网络理论研究开展十周年. 为此Science杂志特地推出一期专栏, 总结与展望复杂系统与网络研究 [40]. 目前, 复杂网络研究的一个瓶颈是如何获取及分析真实的海量数据. 21 世纪的研究已经从一般简单模型分析逐渐变化到处理自然和人类社会活动中大量存在的实际数据 [41]. 这种数据驱使(Data-Driven) 的研究, 是复杂系统研究者共同面对的一个挑战 [42].

3 演化博弈动力学(Evolutionary game dynamics)

复杂自适应系统的一些概念和研究模型实质上与达尔文主义(基于自然选择的进化论) 具有紧密的联系, 并建立在当代演化生物学对适应与演化(Adaptation and Evolution) 的普遍认同的基础之上. 复杂系统中的个体可以适应、通讯、合作(Cooperation)、分工(或分化, Specialization)、时空组织和复制. 个体之间的通讯与合作在实际系统的不同层次上不断发生. 在复杂系统中, 个体之间出现合作的驱动力(Driving Force) 可用演化博弈论(Evolutionary Game Theory) 进行建模分析 [43–45]. 演化博弈论作为研究复杂系统的重要手段和工具, 它不仅便于定性和定量地研究个体间的合作, 而且便于建立简洁优美的模型, 能够体现一般复杂系统所具有的自组织和涌现行为等特性. 因此, 作为一个复杂性科学研究领域, 演化博弈动力学引起了复杂系统研究者的极大关注.

演化博弈动力学作为多学科交叉研究的一个结合点, 在数学、生物学、社会学、经济学、政治学、心理学、计算机科学、人工智能等领域均得到了广泛的研究与应用 [46–58]. 作为演化博弈动力学研究的主旨之一, 合作的涌现(Emergence of Cooperation) 和演化机制(Mechanisms for Evolution of Cooperation) 自上世纪70年代以来, 一直备受关注 [43,44,59–64]. 演化博弈中所指的合作是广义上的, 包括个体的利他行为(Altruistic Behavior), 平等主义(Egalitarianism), 互利共生关系(Mutualism) 等. 合作现象在自然界和人类社会中普遍存在. 自然界中的实际例子包括: 微生物, 如噬菌体(Phage) [65]和酵母菌 [66–69]; 社会性昆虫, 如蜜蜂和蚂蚁 [70]; 动物, 如蜥蜴(Lizard) [71], 棘鱼(Stickle Fish) [72], 清洁鱼 [73,74], 吸血蝙蝠(Vampire Bat) [75], 猫鼬(Meerkat) [76]; 高等灵长类哺乳动物如大猩猩 [77]. 人类社会中也普遍存在合作行为 [78–80], 如非洲原始部落中的狩猎者与收集者(Hunter-Gatherer) [81].

个体的合作行为很容易被其他自私个体的作弊行为所利用 [82–84]. 研究者在实验中发现, Myxococcus xanthus细菌群落中就存在作弊行为 [85]. 2019年是Darwin诞辰210周年, 也是他的物种起源理论(On the Origin of Species) 发表160周年. 尽管Darwin学说成功地解释了很多自然现象, 然而关于合作的涌现与维持始终是困惑Darwin 的一个问题 [86]. 在生命演化过程中, 合作产生了具有不同层次的复杂生命组织结构. 从基因到DNA, 从单细胞生物到多细胞生物, 从社会性昆虫到人类社会, 可以说合作是物种演化的重要条件之一. 除Darwin所认为的演化的两种驱动力: 变异和自然选择之外, 哈佛大学Nowak教授认为合作是演化过程中的第三个原动力 [64].

经典博弈论是研究依据其他参与者的效用(Utility) 情况, 理性参与者策略之间相互作用的一门科学. 博弈论的要素有两点: 参与博弈者的目标或利益的相互冲突, 以及博弈者为理性个体. 现代博弈论已成为一门横跨数学、生物、心理学、计算机科学、运筹学、经济学、哲学、政治学、军事科学等领域的交叉学科. 公认的现代博弈论起源于数学家Von Neumann和经济学家Morgenstern在1944年的合著: 《博弈论和经济行为》 [87]. 尽管当时这本著作中博弈论的理论框架只适用于一些有限的特例, 如零和非合作博弈问题, 但这本著作第一次将数学方法引入博弈问题的研究之中, 对博弈论研究的发展起到了至关重要的作用. 经过许多学者的努力, 特别是Nash在非合作博弈理论中创造性地引入策略均衡的概念之后 [88], 博弈论日渐成为一种应用性极强的分析工具, 被各学科研究者广泛使用. 所谓Nash均衡(Nash Equilibrium) 是指给定博弈中其他个体(Player) 的策略时, 任何一个个体都不能依靠单方面地改变自己的策略来增加自己的收益(Payoff) 的情形. 换言之, 在Nash均衡中, 固定其他个体的策略, 个体所选策略已经是最佳的反应, 此时Nash均衡成为一致解的概念.

基于经典博弈论, 演化博弈论为研究自然界及人类社会经济系统中的合作行为提供了一个方便的数学框架 [43,54]. 1973 年, Maynard-Smith和Price开创性的将博弈论成功地应用到研究动物之间的争斗行为中 [44]. 他们提出了鹰鸽博弈(Hawk-Dove Game) 模型(又叫雪堆博弈(Snowdrift Game) [89]或胆小鬼博弈(Chicken Game) [37]). 其主要思想就是采用依赖于接触频率的适应度(Frequency-Dependent Fitness) (对应博弈论中的效用或收益)的策略选择更新方法. 演化博弈论放弃了经典博弈中Nash 均衡的概念, 而引入了演化稳定策略(Evolutionarily Stable Strategy, ESS) 的概念. 假设策略i为ESS, 则必须满足条件: 如几乎所有的个体(Population) 都采取策略i, 那么所有采用策略i的个体的适应度要比任何可能的变异策略要大. 如不满足这些条件, 变异策略可以入侵种群, 那么i策略的个体将会消减, 即变得不稳定.

有了ESS的概念, 就可以判断策略的稳定性. 由于经典博弈中最重要的概念是收益矩阵(Payoff Matrix) 和收益, 因此可以把经典博弈中的想法应用到ESS 中来. 假设生物的适应度跟收益成简单的线性关系, 并且经典博弈中参与者理性(Rationality) 选择的策略就对应于ESS. 与传统的Nash 均衡相比, ESS这个概念要更加严格一些, 因此可用于平衡点选择. 因为所有的ESS必定是Nash均衡, 但只有严格对称的Nash均衡才有可能是ESS. 值得一提的是, 这里的ESS 是一个“静态”的概念, 其假设只要求表现更好的策略具有更快的复制(增长) 速率, 并不涉及具体的博弈动力学.

1978年, Taylor和Jonker引入了复制动力学的概念(Replicator Dynamics), 进一步拓展了演化动力学的研究 [90]. 复制动力学的主要假设为给定的策略类型的单位复制率正比于适应度之差:

其中,表示策略i的适应度,表示平均适应度. 复制动力学是关于博弈动力学(策略更新)的连续确定性方程, 从而可以赋予前面介绍的ESS这一静态的概念以动力学含义. 复制方程在不动点附近的稳定性将对应于策略的演化稳定性(ESS).

尽管博弈论研究成果颇丰, 但作为研究合作行为的范例, 囚徒困境博弈(Prisoner’s Dilemma Game) 和雪堆博弈最为著名并且是使用最为广泛的两种二人博弈(Two-Person Game) 模型 [91]. 囚徒困境博弈是非零和博弈中较具代表性的例子, 它反映了个体最佳选择并非团体最佳选择的问题. 1950年就职于美国兰德公司(RAND) 的Flood和Dresher提出相关困境(Dilemma) 的理论, 并由Tucker 以囚徒的方式进行阐述, 并因此命名为囚徒困境博弈 [92]. 经典的囚徒困境如下: 警方逮捕A、B两名犯罪嫌疑人, 但缺乏足够证据指控二人. 于是警方隔离A、B两人, 并分别和二人见面, 同时向双方提供以下选择: 若一人招供并作证指控对方(背叛对方), 而对方保持沉默, 此人将立刻无罪获释, 沉默者将判刑10年; 若二人都保持沉默(相互合作), 则二人各被判刑半年; 若二人相互指证对方(互相背叛), 则两人各被监禁2年(如表1所示). 由表1可见, 无论对手采取什么策略, 采取背叛总能获得较大的收益, 因而总是个体最好的选择. 因此, 囚徒A、B最终相互背叛, 各服刑2年. 但是如果两人相互合作, 保持沉默, 就能获得更少的刑罚(各半年).这充分刻画了个体利益和团体利益的冲突, 体现了两难境地(Dilemma). 刻画团体利益, 常用帕累托最优(Pareto Optimum) 这个概念. 帕累托最优是指在此状态下系统中所有个体的收益总和获得最高. 因此, 用经典博弈论的纳什均衡理论来分析, 得到的均衡是二人都相互背叛对方, 但此时Nash均衡导致了系统的次优点(Suboptimal), 并不是帕累托最优的.

在一般形式的囚徒困境博弈中, 每个纯策略的个体(Pure Strategist) 都有两种选择: 合作(Cooperation, C) 与作弊(Defection, D). D策略个体利用C策略个体, 获得收益T, 而被利用的C策略个体获得S. 双方都合作各获得R, 都作弊各获得P, 其中T > R > P > S, 写成收益矩阵为

囚徒困境可以简化为只具有两个参数b和c, 即捐赠-受益者的形式(Donor-Recipient Version), 并具有恰当的生物学上的意义 [63,93]. 此时合作行为意味着个体付出代价c, 给另外一个个体带来b的收益, 通常b > c. 作弊(背叛)行为既不付出代价, 也不给其他个体带来任何收益. 此时, 囚徒困境的收益矩阵元素分别为R = b − c, S = −c, T = b和P = 0, 即

由此可见, 合作是一种积极策略(Active) 且是建设性的(Constructive), 作弊是一种消极被动策略(Passive); 并且, 囚徒困境的ESS是全部作弊(All Defection).

一般形式的雪堆博弈定义与囚徒困境博弈非常类似, 区别在于定义合作与背叛收益矩阵元素中S和P的排列顺序不同, 即T > R > S > P. 此时, 个体的最佳策略取决于对手的策略: 当对手采取C策略时, 采取D; 当对手采取D策略时, 采取C. 由此可以看出, 在雪堆博弈中, 个体的两难境地被弱化了, 此时永远作弊等纯策略并不是个体的最佳策略.

同样地, 雪堆博弈存在一种简化形式. 顾名思义, 两个汽车司机A、B因大雪封路被困在回家途中. 如两个司机相互合作, 都下车进行铲雪, 分担铲雪的总代价c, 从而得以回家, 获得收益b, 此时两个合作者的收益都是b−c/2. 但是当只有一个司机下车进行铲雪, 于是两人都能回家, 获得收益b, 此时下车铲雪者独自承担铲雪的总代价c, 获得净收益b−c, 而另外的作弊者不花任何代价获得收益b. 当两人都不主动下车铲雪, 都回不了家, 被困雪地, 都一无所获, 收益定义为0. 写成矩阵的形式为

此时, 系统中存在三个纳什均衡(Nash Equilibria): (0, 1), (1, 0) 和(x∗, 1 − x∗). 其中纯策略纳什均衡(Pure Strategy)(0, 1) 和(1, 0) 是演化不稳定的, 而唯一的混合策略(Mixed Strategy) Nash均衡为x∗= (b − c)/(b − c/2)是演化稳定的, 即个体的最佳策略是以概率x∗采取合作, 以1 − x∗的概率采取作弊. 换言之, 在无限大, 混合均匀人口中的复制动力学中 [53], 系统最终收敛到唯一内部平衡点, 此时合作者的平衡稳定比例为x∗. 这个平衡点x∗也是雪堆博弈中的唯一的ESS. 在雪堆博弈中, 尽管系统中的合作者与作弊者可以共存, 但是此时所有个体的收益总和仍然少于所有个体都合作时的收益总和. 因此, 雪堆博弈和囚徒困境一样, 揭示了关于合作的社会两难问题的实质 [94,95].

值得一提的是, 定量评估现实世界中个体之间的相互作用(博弈活动) 中的收益矩阵非常不易 [89]. 囚徒困境和雪堆博弈, 表面上看起来很相似的两类博弈, 在对合作的产生发展却有着许多本质不同的地方. 如Hauert发现 [89], 与空间囚徒困境中合作水平得到了加强和提高的情况 [96]不同 , 空间结构却对雪堆博弈中的合作演化常常起到抑制作用. 实验发现在共同入侵宿主细胞过程中, 噬菌体(Phage)之间策略行为常常是囚徒困境关系 [65,97]. 实验又发现, 一种酵母菌必须付出一定代价分泌一种酶来消化糖分获得它的生命活动能量, 而这种酶不但给分泌者带来了利益, 也给一些不分泌酶者带来了好处, 他们直接可以利用这些酶而获得能量. 因此, 这类酵母菌之间的策略行为是雪堆博弈类型的 [67].

在研究社会两难问题的二人博弈中, 除囚徒困境和雪堆博弈这两种常用的模型之外, 还有猎鹿博弈(Stag-Hunt Game). 这种博弈充分揭示了自保(独自狩猎, 但收获比较小)和社会公共合作(共同打猎, 可扑捉到鹿等大型动物)的本质问题 [98]. 其博弈矩阵元素排列顺序为R > T > P > S. 在这种博弈中, 个体的最佳策略是和对手保持一致, 因此又称为协调博弈(Coordination Game) [37]. 在协调博弈中, 两个纯策略都是Nash均衡. 在复制动力学中, 这种系统有一个内部不稳定平衡点, 而两个边界点都是稳定平衡点, 因此被称为双稳博弈(Bistability Game) [99]. 有关二人博弈依据收益矩阵元素T, R, S, P之间大小排列顺利进行更详细的分类和描述, 请参见文献 [100–102]和综述 [37].

除二人博弈外, 多人博弈(N-Person Game), 如公共品博弈(Public Goods Game, PGG), 为研究公共合作行为中的行为模式提供了十分有用的工具 [103]. 在经济学行为实验中, 实验组织者分别给参与实验的N个个体c金额的资金 [104–109]. 每个个体独立地并同时决定是否向公共库(Common Pool)中进行投资. 公共库中募集到的资金增值r倍后(1 < r < N − 1), 再平均分给参与实验的N个个体, 而不论他们是否进行了投资. 容易看出, 如果每个个体都进行投资, 那么所有个体的收益总和将最大化. 此时每个个体的净收益为(r − 1)c. 但是, 在这种环境之下, 每个个体都面临着搭便车(Free-Riding) 的诱惑, 即分享公共库中其他人的投资, 而自己不付出任何贡献. 因为, 对于每个个体的单位投资额, 实际只有r/N < 1返还给投资个体. 因此, 完全理性的个体绝对不投资, 这导致了公共品博弈的Nash均衡全是搭便车者(All Free-Riding). 很显然, 这造成了公共品悲剧(The Tragedy of the Commons) [110], 由此可以得出, 凡是属于最多数人的公共财产往往是最少受人照顾的. 现实中有很多这样的例子, 包括公海渔业、全球气候变暖 [111]、温室气体排放、环境保护等. 实际上, 当N > 2时, 公共品博弈退化为囚徒困境博弈. 当N = 2时, 公共品博弈可以等价于多人参与的囚徒困境博弈. 因而, 在没有其他有效促进合作机制的作用下, 公共品博弈中个体之间的合作局面比囚徒困境中更难涌现和维持 [79].

4 自组织合作涌现机制(Mechanisms for the emergence of self-organizing cooperation)

在研究个体之间的合作行为的涌现机制时, b − c参数的囚徒困境是最常用的范例之一 [59,63,64,93]. 这是因为这种囚徒困境博弈形式简单, 且能充分反映个体利益与群体利益相冲突的特点. 自然界中的合作行为一般是有代价的, 因此通过分析收益与代价的比率(Benefit-to-Cost Ratio), 可以研究这种合作的代价对合作行为的影响. 作为二人囚徒困境的推广形式, 公共品博弈在人类经济行为学实验和模型分析中得到了广泛的应用与发展 [79,107]. 因此, 在进一步论述合作机制之前, 有必要对有关囚徒困境中合作演化和促进机制的国际前沿研究进行回顾和总结.

容易看出, 在任何混合均匀的种群中, 作弊者的收益总是高于合作者. 因此, 在缺乏充分合作机制的环境中, 种群将在自然选择作用下向完全作弊者慢慢演化, 直到合作者消失. 为了解释自然界无处不在的合作行为, 自二十世纪六十年代以来, 一些可能的合作机理, 如亲缘选择(Kin Selection) [93,112, 113]、直接(间接)互惠(Direct/Indirect Reciprocity) [73, 114–119]、空间互惠(Spatial Reciprocity) [96,120–123]、群体选择(Group Selection) [124–128]等得到了一定的探讨(参见综述 [64,129]).

传统的演化分析方法是基于固定选择(Constant Selection) 的, 个体的适应度只取决于个体的表现型(Phenotype), 跟周围作用的个体无关. 在这种假设下, 适应度景象(Fitness Landscape) 是固定不变的. 如Fisher自然选择基本定理(Fisher’s Fundamental Theorem of Natural Selection) 说明个体的适应度总是随着演化过程的深入而逐渐增加 [130]. 这与上文所述的, 在取决于频率的选择的情况下, 个体的适应度随着对作弊者的自然选择而逐渐减小是相互矛盾的. 因此, 固定选择的方法并不适合用来研究合作行为的演化. 之后, Price对Fisher的理论进行了修正, 整合了演化和自然选择(Evolution and Natural Selection) 因素, 统一了演化动力学理论. 他的研究成果被命名为“Price 方程”(Price’s Equation) [131,132]. 但是, 一些学者认为, 在合作行为机制研究中采用演化博弈动力学的思想和方法更为合适和简便 [43,54].

4.1 亲缘选择与群体选择(Kin section and group selection)

亲缘选择的思想首先由Fisher [130]和Haldane [133] 提出并引起讨论, 但是由Hamilton首次进行了数学模型定量描述, 并得到了所谓的为Hamilton规则(Hamilton’s Rule). 当合作行为的受益者和实施者具有基因关联(Genetic Relationship) 时, 自然选择有利于合作行为. 更精确地, Hamilton规则指出, 个体之间的关系系数r(The Coefficient of Relatedness) 必须超过合作(利他)行为的代价与收益比c/b, 即r > c/b. 合作行为增加的不是个体本身的适应度, 而是个体的广义适应度(Inclusive Fitness) [43,112,123].

亲缘选择适用于具有基因关联的个体之间的合作行为, 但在人类社会中, 合作行为大量存在于非亲属、非相关(Unrelated) 个体之间 [134]. 这时“群体选择” 机制促进了合作的产生与维持. 显然, 一个全部由合作者组成的群体要比一个全由作弊者组成的群体要更成功, 更占优势. 因此, 在多层次选择(Multilevel Selection) 的情况下, 这群合作者将最终取代全为作弊者的群体 [127,128]. Traulsen和Nowak的研究结果表明, 在弱选择和极少群体分裂的情况下, 合作演化的条件可以表示为一个简单规则 [125]: b/c > 1 + n/m, 这里n是群体所允许容纳的最大个体数, m为群体的个数.

遗憾的是, 关于亲缘选择学说和群体选择学说在国际演化生物理论界存在众多争论 [64]. 虽然亲缘选择理论在实际应用中存在一些局限性, 如工蜂有时也会偷偷地产卵; 当受精过的蜂蛹有机会发育成蜂后时, 会竞相朝蜂后发育, 尽管一个蜂巢只能有一个蜂后 [135]. 但是一些学者仍然相信可以通过一些理论修正使得亲缘选择学说成立. 相比而言, 由于群体选择理论不涉及亲缘关系条件, 其应用范围相对广泛, 尤其能够解释人类社会活动中甚至是对完全陌生人的合作帮助行为.

4.2 直接互惠(Direct reciprocity)

直接互惠是指今天你帮助了我, 那么明天我会帮助你 [115–117]. 要使得直接互惠在两个个体之间起作用, 这一对个体必须能够相遇多次并相互博弈, 且个体需要记住对方的“样子”(Face). 经典的合作理论分析是基于静态的“单轮博弈”(One-Shot Game), 因此适合使用Nash均衡的概念. 分析直接互惠的理论框架是迭代囚徒困境博弈(Iterated Prisoner’s Dilemma). 当囚徒困境博弈在两个个体之间进行多次时, 每个个体都可以根据上次博弈的结果选择进行下次博弈的策略. Boyd等人指出迭代囚徒困境博弈中不存在纯策略的ESS [136]. 在1970年代末的Axelrod 锦标赛(Axelrod Tournament)中 [59–61,63], 英国数学家、生物学家Rapoport 提出的“ 针锋相对”(Tit-for-Tat, TFT)策略脱颖而出, 打败了其它策略. 所谓TFT是一个偏向合作的策略, 第一步采取合作, 然后重复其对手上一步的策略. 然而, TFT在有环境干扰时表现并不好, 两个采用TFT策略的个体在“ 颤抖的手” (Trembling Hands)的效应的影响下, 容易走向相互作弊的极端.

Nowak等人在带有随机干扰噪声环境中的研究表明TFT是合作涌现的催化剂, 一旦TFT逐渐取代完全作弊者(Always Defect), 一种慷慨的TFT(Generous Tit-for-Tat, GTFT) 会涌现出来 [137,138]. 与TFT相比, GTFT是一种具有宽恕性(Forgiving) 的策略: 即使对手作弊, 也以一定概率(1 − c/b) 跟对手进行合作 [138,139]. 在GTFT逐渐占优时, 由于随机漂变(Random Drift), 整个种群会逐渐失去惩罚的能力(即与对手针锋相对), 向全部合作(Always Cooperate) 演化. 然而, 全部合作又最终能够被全部作弊策略取代, 因此形成了合作与作弊的战争与和平的循环(Cycles of War and Peace) [99].

进一步的研究表明赢留输变策略(Win-Stay-Lose-Shift, WSLS) 比TFT, GTFT更鲁棒, 具有更好的表现 [140]. WSLS策略是指个体如果现在的策略获得的收益大于某个期望水平(Aspiration Level), 那么下一步就保持这个策略不变, 否则就切换到另外一个策略. 因此, WSLS 是一种形式比较简单的学习策略 [37,141]. 当TFT策略建立了合作, WSLS就能维持合作 [64]. 在二人博弈中, 个体之间的博弈行为可以通过谈判的方式达成一致. 合作博弈动力学中的谈判行为也引起了学者的兴趣 [142,143].

4.3 间接互惠(Indirect reciprocity)

间接互惠是指“今天我帮助了你, 那么明天将会有其他人来帮助我” [114, 118]. 一些实验观察研究表明间接互惠在动物和人类中普遍存在 [73,119]. 由于现实条件的限制, 当一个个体对另外一个个体进行了帮助, 但还没有等到这个受帮助的个体进行回馈, 这个帮助的个体已经离开了. 由于直接互惠不太可能在同样两个个体之间得以实现, 间接互惠成了更为普遍的互惠形式. 间接互惠中最重要的是个体通过合作帮助等行为建立良好的声望(Reputation), 从而被其他人帮助. 间接互惠发挥作用, 个体需要记住其他个体的名字(及声望). 因此个体之间的交流沟通是必不可少的. 这种交流沟通可能与语言的产生与高等智慧的演化具有直接关系 [144–146], 并导致了道德体系(Moral System) 与社会范式(Social Norm) 的演化与形成 [64].

4.4 空间互惠(Spatial reciprocity)

另一种新型的互惠形式, 被称为空间互惠, 近年来引起了研究者的广泛关注. 空间互惠理论是受Nowak等人的关于空间博弈(Spatial Game) 经典论文启发所产生的 [96,120,121]. Nowak等人发现当个体被放置在空间方格子上, 并只与周围最近邻居进行博弈和竞争时, 合作者会“抱团” , 形成合作者的团簇(Clusters of Cooperators), 从而合作者可以相互支持对方, 共同抵御周边作弊者的入侵 [96]. 在空间博弈中这种合作者形成团簇从而维持合作的机制被称之为空间互惠 [64]. 传统方法是用复制动力学分析无结构人口(Non-structured Population) 中的合作演化动力学 [44,53,54,99]. 但是, 现实中个体之间的作用关系往往是有结构的 [147,148]. 每个个体只占据一个空间方格(Spatial Lattice) 或社会网络中的一个节点, 且通常只与周围直接邻居有博弈作用关系. 因此, 针对传统方法的弊端, 产生了演化图论(Evolutionary Graph Theory) 这种以网络结构刻画个体之间的博弈关系的新的研究方法 [122,123,149]. 这种方法又被称之为复杂网络上的演化博弈(Evolutionary Games on Complex Networks) (请参见综述 [37,38]).

虽然空间博弈会引发合作时空组织的有趣现象, 如合作的万花筒(Kaleidoscope of Cooperation) [96,100,101,120,150–156], 但网络中个体策略空间配置关系纷繁复杂, 给严格的定量的数学分析带来了困难. 因此, 对于空间格子等规则网络(Regular Graphs), 一般用对估计(Pair Approximation) 等方法进行近似分析 [157]. Ohtsuki等人利用对估计的方法 [122], 发现了在社会网络上自然选择利于合作行为产生的一个充分性判据(“b/c > k” 规则): b/c > k, 其中b、c分别为合作行为的收益和代价, k为网络的平均度. 在此发现基础上, Taylor 等人利用广义适应度的计算方法(Inclusive Fitness Analysis) [123], 在一类同质网络(Homogeneous Graphs) 上, 得到了对“b/c > k” 规则的有限尺度修正公式: b/c > k(N − 2)/(N − 2k), 其中N为个体的数目.

除上文已经介绍的常见的几种合作机制外 [64], 其他的一些机制 [95, 105,109,158–162], 如自愿参加博弈 [106–108,163,164]、奖励与惩罚 [107, 108,165–174]、基于标签的合作(Tag-Based Cooperation), 又称作合作的色动力学(Chromodynamics of Cooperation) [69,175–180]、受成功驱使的迁徙(Success-Driven Migration) [181] 等也得到了比较深入的研究与探讨. 一般地, 某种合作机制之所以能够促进合作的涌现和维持则是因为合作机制加强了合作者之间的“ 聚类” (Clustering of Cooperators and Assortment of Cooperators), 使得合作者之间的博弈关系比与其他作弊个体之间更为频繁.即使合作暂时受到作弊的压制, 但合作也能通过合作机制迅速地建立起来, 从而使得合作得到强化和维持.

5 结论与展望(Conclusions and future directions )

近年来, 由于复杂系统和复杂性科学研究的蓬勃发展, 演化博弈动力学作为研究复杂系统的一个可行切入点, 在多学科交叉综合研究中发挥了重要的作用. 合作涌现机制研究涉及多个学科的综合, 是一个很有发展前景的研究领域. 由于当前合作复杂性及演化动力学研究的进展, 新的方向不断涌现, 也产生了一系列公开难题(Open Problem) 与挑战. 在2009年9月9日, 在哈佛大学举办的Edward Wilson和James Waston的对话上, Wilson就表示合作的演化机制研究可作为青年科研工作者选择的一个研究方向. 目前, 针对合作演化博弈动力的研究主要基于弱选择假设(即博弈收益只是对个体适应度的小修正) [126,182–191]. 但对于强选择(即博弈收益很大程度上决定了个体适应度) [126]下, 尤其是在具有策略变异(Strategy Mutation)、迁移(Migration) 的结构种群(Structured Populations) [192–201]中的研究尚处于理论探索的初级阶段 [202,203], 有待进一步研究.

随机性的存在使得行为策略的动态演化更加复杂. 尤其在结构种群中, 合作行为的演化因同时受到系统结构特性和随机性的双重影响而越发复杂. 种群结构对合作行为的演化具有重要的作用 [64,96,204–210], 但是在当前的研究成果中有两个方面值得注意: 一方面, 大部分模型中个体在进行博弈时常常是二元的: 要么完全参与博弈, 要么完全不参与博弈. 换而言之, 当个体选择参加博弈时, 不管博弈的环境怎样, 他们总是进行博弈; 当个体选择不参加博弈时, 他们完全不受博弈情况的影响, 以独立于合作和背叛策略的第三种策略孤独者(Loner) 存在, 并获得预设的固定收益. 这些研究成果未充分考虑个体之间交互的随机性对合作演化动力学的影响. 另一方面, 大部分模型中个体参与的博弈类型常常是确定性的并且是单一的, 即种群中所存在的博弈困境独立于种群中的各策略的比例或外部环境. 这些研究未充分考虑博弈困境随机性在结构种群中对合作演化的影响. 因此, 在结构种群中, 在随机性(如交互随机性和博弈困境随机性)与结构特性耦合条件下的合作行为的演化亟待探索.

为了研究合作的演化, 许多学者将惩罚机制的研究作为破解合作机理难题的敲门砖 [80,107,173,174,211–221]. 惩罚机制曾被广泛认为是有效促进合作行为演化的重要机制. 但是, 随着对惩罚机制的深入研究, 惩罚机制所衍生的两个问题逐渐引起关注, 即二阶困境(Second-order Social Dilemma) [222–230]和反社会惩罚 (Anti-social Punishment) [231–237]. 二阶困境的存在严重的阻碍了惩罚策略的演化 [238], 而反社会惩罚的存在则在一定程度上动摇了有关惩罚机制可以促进合作演化的结论 [239,240]. 因此, 关于惩罚的演化及其对合作演化的作用仍有待于进一步研究.

除了理论研究, 数值仿真实验是一种重要的研究方式, 并被广泛应用于合作行为的涌现与演化研究. 由于复杂网络上的演化博弈过程在数学上很难严格的分析和证明, 只能依赖大量的数值仿真. 因此, 只有大量的计算工作才能详尽地揭示复杂网络的拓扑性质, 如网络的小世界性 [241]和异质性 [242]等对合作演化的影响(请参考综述文献 [37]). Santos等人通过数值仿真发现异质的无标度网络拓扑能有效地促进合作 [242–246]. 此外, Li等人通过数值仿真发现异质的供给网络也可以促进合作演化 [247]. 但是, 在另一方面, 有学者发现在一些条件下, 网络的异质性并不总是利于合作 [248–252]. 例如, Fu等人发现在Newman-Watts小世界网络中存在中间程度的网络拓扑异质性使得合作演化最优 [248]; Masuda发现当个体需要支付交互代价时, 网络拓扑异质性对合作的促进受到影响 [251]; Gracia-Lázaro通过实验发现异质网络不促进合作 [250]. 因此, 有必要进一步发展新的数学理论和工具, 对一般网络上的演化博弈过程进行严格的数学分析 [253], 澄清并统一网络拓扑性质对合作演化影响的认识.

网络和博弈动力学的共演化(Coevolutionary Dynamics of Networks and Games) 是目前演化博弈研究中的一个热点问题 [254–272]. 网络拓扑影响博弈结果, 而博弈结果反作用于网络拓扑, 并调整网络拓扑(或社会关系). 与静态网络上的博弈过程相比, 这种情形更符合实际. 目前, 动态网络上合作演化的大部分结论都是基于数值仿真结果. 由于模型的复杂性, 在理论研究上进展缓慢. 因此, 完善理论工具、进一步探索共演化过程中出现的极其丰富的动力学行为, 是一个很有发展前景的研究方向.

参考文献 :略.

snachina · 发表于 2019-7-10 11:35:16

		自动登录	找回密码
密码			立即注册