大脑中的编码与位置

王立铭《脑科学讲义》/个人笔记之一

标记线和群体编码

一般而言，大脑神经组织和脑功能有着两种工作方式，即标记线（Labeled Line）和群体编码（Population Coding）。

其中的标记线可以看成是专线电话，只有特别紧急的、尤其是生死攸关的活动，才会配备标记线——遇到这种情况，反应要迅速、动作要快，不能磨磨蹭蹭、改来改去。这些活动和人体的心智发育无关，而是天生的本能，在PVE的情况下必须是天生习得才可以生存的基本本能，才会用到这种工作方式。 File:Descartes-reflex.JPG

典型的例子就是下丘脑，下丘脑掌管人体的激素调节和新陈代谢，如果下丘脑中饥饿相关的神经元激活则会刺激进食行为。一些基于GLP-1的药物（包括司美格鲁肽和替尔泊肽）则会通过抑制下丘脑的饥饿感知能力，干预对进食行为的奖励机制，从而起到了减肥的效果。

标记线理论这种神经专线专用的思想，算是最早期、也是对于神经最朴素的认知，并且由于神经元连接的距离小于光学观测的极限，因此很多人将神经视作和血管一样的管道而不是真正的细胞，譬如笛卡尔就把神经看成身体连接到大脑的某种管道（“流动于管道的动物灵魂”），**约翰内斯·缪勒（Johannes Müller）**则提出“神经特殊能量定律”（Law of Specific Nerve Energies）——无论用什么方式（光照、按压、电击）刺激视神经，大脑的感知永远是“视觉”或“光”。

与标记线相对的工作方式则是基于神经网络的群体编码。标记线模式下，神经细胞专线专用，而在神经网络中通过不同节点的排列组合可以形成不同的功能，每个神经元都有可能承担起不同工作系统的不同功能，因此这种群体工作的灵活性大大扩展了神经细胞处理信息的能力。对于群体编码的研究最早起源自对味觉的研究，卡尔·普法夫曼（Carl Pfaffmann）在1950年代发现单根味觉神经纤维居然会对多种味道起到反应，因此提出大脑识别不同的味道不是通过某一根神经的信号而是一群神经共同组成的编码识别，由此也引起了标记线理论和群体编码理论的论战。

如今我们可以确定的基本味觉为酸甜苦咸鲜油：甜代表糖类的摄入，鲜代表氨基酸，油脂味则是脂肪的摄入，这属于人体必须的营养素；咸味识别了钠为主的碱金属，对于维持人体钠钾平衡有积极意义；酸味则是识别出了氢离子，尤其是食物分解腐败而来的氢离子；苦味则是人体敏感度最高的，主要识别的是各种对人体有毒的生物碱。人体的味觉主要是根据这6种检验受体的信号组合而来，相比起专线味觉的感知也因为这种神经网络而更为丰富。

标记线和群体编码很多时候实际上是共存的。譬如，视觉活动主要是通过集体编码为基础的神经网络运行，但是当生物通过视觉系统识别到天敌之后，也会不经由一般的视觉网络解析出这是什么就直接做出本能反应逃跑。味觉种的苦味，也因为事关生死，也有着类似于专线的反应机制。

群体编码与定位系统

个人认为，标记线类似于一种具有明确含义的参数，而群体编码则类似于词向量（Word Vector）。既然有了词向量，那么位置编码（Position）是如何运作的？

2014年，诺贝尔生理学或医学奖被授予了约翰·奥基夫，以表彰他发现了位置细胞；授予爱德华·莫泽和梅-布里特·莫泽，以表彰他们发现了网格细胞。他们说发现的位置细胞和网格细胞则是人体对于位置的感知机制。

约翰·奥基夫和乔纳森·多斯特罗夫斯基在1971年于大鼠的海马体中发现了位置细胞，他们意识到了海马体受损的大鼠的空间感知能力也受到了损伤，在测试中大鼠位于空间的特定位置且面向特定方向，某些细胞则会被激活。在这个理论的基础上，发展出了“认知地图理论”，这就好比大脑领域的知识图谱。

然而，位置细胞实际上并不是按照位置方向排列。也就是说，明明是书架上相邻的两本书，其在大脑中的位置细胞也不是紧密相邻而是可能距离遥远，大脑并不会因为两个位置的距离相近将两者编码到相近的神经中。既然位置细胞本身是位置无关的，那么大脑是如何记住这两本书就是在相邻的位置呢？

这个问题要等到2005年，挪威的莫泽夫妇发现了网格细胞，才得解答。网格细胞位于海马体旁边的内嗅皮层，细胞的排列方式十分特别，构成了一个个等边三角形，当动物运动到某个位置则会激活这个网格结构中的某个顶点，甚至在黑暗环境中这个网格仍然在运作中。网格细胞中的三角形构造并非是统一的，既有大尺度的三角形，也有小尺度的三角形，并且在朝向上也有差异；可以想象如果位置细胞结合多个网格细胞的位置感知输入，就可以获得极为精确的位置。换句话说，定位信息则是一套基于三角关系计算的群体编码。

按照这种理论，位置细胞实际上也是我们对于空间的某种概念认知，这种概念认知其实可以是空间无关的，而网格细胞控制了我们对于这个概念真正的空间的位置感知。一种理论就认为，人体的大脑中建构有一个独立的认知中的世界和空间，而我们脑中的世界通过外界信息的反馈不断改进，最终进化为人体的空间定位系统。

如果进一步探究，网格细胞的构造方式还是比较复杂的。大脑的空间感知本质是异中心（Allocentric）而不是一自我为中心（Egocentric）的，因此大脑会想象你在一个六边形平铺的网格平面上的某一个顶点位置；由于网格的边长并非不变的，朝向角度也不一定统一，所以可以确保总有几个网格顶点可以精确定位到你的位置。如果人体发生旋转，你的网格排列并不会发生改变，但是由于人体有多种朝向的网格，总有一个网格可以和你的朝向垂直并在移动方向上对你定位。

相较于可以飞行的动物，贴地活动的动物并没有获得垂直方向上的准确认知。科学家让老鼠爬上爬下（比如在一个螺旋楼梯或攀爬架上），发现内嗅皮层的网格细胞并没有生成新的倾斜平面。相反，原本铺在地面的 2D 正六边形网格，在垂直方向（Z轴）上直接被拉伸成了长长的圆柱体。也就是说不管某个位置在垂直上距离如何不同，在大鼠的世界中它只是一个平面中的相同位置。类似的，对于人类而言高度信息是由另外一套极其粗糙的神经元单独记录的，他并没有和平面信息一样精确，只是一个粗糙的感知能力。

这个现象也可以解释为什么人容易在多层商场和立交迷路，游戏中的晕3D也是因为大脑基于平面为主、高度为辅的定位系统无法适应纯粹的3D输入导致的——人体的空间感知系统出现了崩溃，大脑以为你是吃了某种神经毒素导致位置相关的神经系统失效，因此激发了人体的呕吐机能强制排毒。为了缓解晕3D，可以通过固定准星或者扩大视野，将视觉锚定在某个二维空间中来缓解。所以不是自古CT不抬头，抬头就不是人类的天性。

空间信息的产生与复用

位置细胞和网格细胞无时无刻不在重构空间认知。罗伯特·穆勒 (Robert Muller) 和约翰·库比 (John Kubie) 的“全局重映射”实验 (1987年)中，科学家先后将小鼠放在圆柱形的空间和长方体的空间中，小鼠在两个空间中激活的位置细胞完全不同，当小鼠位于新环境之后旧的位置细胞则会休眠、新的位置细胞则会活跃。莫泽夫妇 (Mosers) 和斯特凡·洛特格布 (Stefan Leutgeb) 则没有完全改变空间的形状，而是针对空间的颜色和气味做出调整，结果发现虽然小鼠激活的位置细胞仍然不变，但是其放电的频率发生了改变，这种现象被称作“速率重映射”（Rate Remapping）。

这两种实验证明了，大脑可以根据不同位置整体改变或者微调原先的位置建模。但是我的问题是，如果大脑可以根据外界认知复现和微调原先的定位系统，那么他们的定位系统是如何存储下来的。莫泽夫妇曾经通过向小鼠注射蝇蕈醇抑制了海马体的活动，结果网格细胞的六边形周期性放电网络瘫痪了，而确认朝向的方向细胞则不会收到影响——由此可见，人体的定位系统必然依赖于海马体的运作。Menno P. Witter 教授则在逆向跨突触神经示踪剂帮助下，成功绘制出海马体 CA1 和下托（Subiculum）向内嗅皮层第 V/VI 层发出的大量反馈神经纤维，从生理层面上证明了海马体与网格细胞所在的内嗅神经有着密切的关系。

从莫泽夫妇的实验中，我们可以看出来神经细胞的放电代表了某种存储记忆的机制，这种机制通过改变放电频率来记录神经之间的接触能力，间接表达了记忆的信息。一般而言，长期记忆的存储并非由海马体主导，而正是基于高频同步放电改变神经突触的强度从而引发的长时程增强效应（Long-Term Potentiation, LTP）——简而言之，当某几个神经经常出现同步放电情况，他们之间的连接就会得到加强。然而，光光有这一点实际上并不足够，如果神经元之间的连接可以存储长期记忆，那么谁来唤醒长期记忆呢？

想象一下，我到了一个新的环境里面，看到一个似曾相识的位置，然后我们的空间认知会不会就是基于这个旧的位置找回旧的空间感知？Menno P. Witter 教授的研究似乎可以证明，海马体在这个过程中起到了某种激活作用，海马体内的神经突触可以穿过海马伞直接投射回内嗅皮层的深处。如果按照特征识别（Pattern Completion）理论，海马体的CA3 区通过其循环侧支网络执行模式完成，迅速激活了代表该位置的旧有的位置细胞（Place Cells），这些位置细胞一旦放电，会立即通过上述的反馈通路，将电信号传回内嗅皮层。

这几年的连续吸引子网络（Continuous Attractor Neural Network, CANN） 针对的就是海马体和内嗅皮层之间的反馈网络关系。所谓“吸引子”，这个概念实际上来自于物理学，指的是某个相空间（State Space）内系统在该区域内的所有轨迹最终都会向其汇聚的一个区域。我们的大脑通过神经元连接在一起，正如前面所讲的，突触的强度实际上是在不断调整的，通过长期的LTM效应某些神经元之间的连接强度持续增强，最终在大脑中构成这么一个“吸引子”区域，在这个区域内生物体的电化学能量更倾向于在这么一个区域内运动，乃至于持续不断的保持下去。

在大脑中，吸引子可以分为离散吸引子和连续吸引子两种，离散吸引子则是彼此隔离的吸引子，而连续吸引子则像是连续不断的几段拼接在一起的渡槽，当能量充足的情况下，能量团就可以平稳通过不连续的阻力区域（鞍点，Saddle point）的从渡槽中流通。而在海马体与内嗅皮层之中存在很多连续吸引子，这些吸引子具有流形的特征，在数学上可以表示为一维的环路（Ring）或更高维的环面（Torus），可以想象能量可以在这个流体回路之中不断循环，从而构成了长期记忆的基础。

不负责任的推理过程

假设我们看到“1+1=”这一串数字，大脑会如何反应呢？现在开始一本正经地胡说八道。

首先是视觉输入了“1+1=”这个图像信号，这个信号由“放电包” (Activity Bump) 或 “神经群体向量” (Population Vector)构成，是指一小群特定神经元的同步高频放电。

这个放电包抵达视觉处理的神经网络中，视觉信号的持续输入导致了整个系统的高能、非稳定的活跃状态。由于神经元之间的反馈连接（由 LTP 固化），系统会自发地通过循环反馈来减少这种“不一致性”，降低系统本身的能量，放电包顺着能态最小的方向——即表示Token(1)、Token(+)、Token(=)的持续性势陷（对应不变的概念、长期记忆）转移，从而实现了Tokenizer的功能。标记Token的势陷应该是相互隔离、相互孤立的，不至于相互混淆，但同时也是可以支持联想的。

接着能量继续从视觉识别系统出发，向数学处理的的神经网络按顺序发出了Token(1)、Token(+)、Token(1)、Token(=)的电信号，理论上这个电信号组合必然是有序的，通过某种无记忆、有顺序的结构维持在一起。这个电信号组合所带来的能量输入，彻底改变了原先比较稳定的数学处理专用的神经网络，导致系统开始坍缩，最终让能量团最终稳定在Token(2)，这就是我们想要的结论。

这里我不明白的一个点在于突触的权重矩阵会彻底改变。在网格细胞的实验中，小鼠在不同环境中的网格细胞放电行为完全不同，那么理论上必须要存在机制存储这些权重。Pattern Completion虽然可以解释为什么这个权重会改变，但是没有解释这些权重到底从哪里来的问题。换言之，我们读到“1+1=”和“1x1=”的时候，大脑如何理解计算规则以及改变了？非正规网络（Non-normal networks）中，神经网络并不需要改变原先的权重矩阵，而是通过调整神经网络的能量状态，输入不同的背景信号，从而让能量团进去不同的势陷中。

这里可以提到局部正反馈（Self-Excitation）和侧向抑制 (Lateral Inhibition)，讨论一下坍缩的整体过程了。如果能量团能够始终激活大量的神经网络，按照热力学定理能量就会在高熵状态下很快耗尽，因此这个坍缩的过程实际上也是生物体维持能量、降低能耗的过程。神经网络中每个势陷都倾向于通过正反馈维持自己的激活状态——随着正反馈作用增强，接收到最强输入信号的神经元放电速度增加最快，它激发的全局抑制信号也随之增强，从而导致了那些信号较弱的对手停止放电，最终系统从一个群体活跃、无序的高熵状态回到了一个单独放电、有序的低熵状态。

局部放大和全局抑制

这个过程实际上类似于神经网络学习中的Softmax函数，在Softmax中注意力越高的神经元（Token）会获得极高倍率放大，由于Softmax的分母是分子的总和，高注意力分子的爆发会导致其他分子的最后占比趋近于0，Attention机制也保证模型可以收敛。

不同于计算机的Softmax，大脑在释放谷氨酸加强兴奋性神经元的同时，也通过中间神经元释放GABA等抑制性神经介质实现了侧向抑制。在生物学上，兴奋性神经元的连接性远远小于一般神经元。2011年的研究表明，释放抑制性神经介质的中间神经元几乎几乎和锥形神经元——兴奋性神经元——构成了全连接的关系，然而它们不负责计算具体的细节，也不像大脑皮层一样有着功能分区，而是构成了一张压制全局兴奋性的“抑制毯” (Blanket of Inhibition)。换句话说，神经的兴奋抑制是全局性的，局部放大的赢家也受到了同样的抑制。

可以想象在高能、非稳态的网络中，神经从最开始的全局兴奋，逐渐进行自我增强和全局抑制的机制，最终只有少数神经元的增强能力在几次迭代之后还维持在全局的抑制能力之上，最终构成了新的稳态下少数持续放电的神经元。2011年的另外一篇文献提到了，兴奋性神经元会刺激周围的抑制性中间神经元，中间神经元不仅仅释放了神经介质，还主动降低电压和电阻来分流兴奋性神经元的电流——由于抑制信号是由兴奋信号之后才引发，神经元只能在抑制信号到达前的几毫秒的缝隙中产生动作电位，做不到这一点的都要被抑制。如果大脑的抑制机制受到破坏，兴奋性神经元无法得到抑制，就会进入到癫痫的状态。

那么可以总结一下这个机制：

系统处于高能量状态，全局激活，所有神经元都处于兴奋的放电状态；
一部分神经元因为位置好（尤其是势陷中的），放电能量越来越多获得的正反馈越多，大部份神经元越放电能量越少；
大脑的抑制系统启动，全局抑制兴奋的神经元，大量神经元被剪枝、停止放电；
如果系统仍然处于高能状态，则回到第一步；否则进入稳态，兴奋的神经元保持放电。