明清的蒙古源流
元朝覆灭之后元朝覆灭之后,元顺帝和太子爱猷识理答退回漠北建立北元,然而明朝此后数次北伐蒙古,导致北元首都哈尔和林被焚毁、北元宗室威信扫地。黄金家族内部忽必烈以来忽必烈系与阿里不哥系、窝阔台系之间的内部矛盾死灰复燃,而蒙古高原上新兴贵族也觊觎黄金家族的位置,外有强明,内有权臣,漠北政权开始进入了一个动荡的时期。 首先,卫拉特通过扶持阿里不哥系的大汗挟天子以令诸侯,削弱传统的东部蒙古贵族的话语权,逐步掌握了东西蒙古的控制权。卫拉特的首领马哈木及其子脱欢,在与东部蒙古强臣阿鲁台的长期拉锯战中逐渐占据上风。脱欢在1438年击败东蒙古贵族,在事实上统一了蒙古诸部,以脱脱不花(即泰松汗)为傀儡大汗,定都哈拉和林。脱欢之子也先在1449年“土木堡之变”大败明军、俘虏明英宗,卫拉特也达到了极盛,也先于是与大汗脱脱不花决裂并击杀之,在1453年自立为蒙古大汗。也先称汗打破了自成吉思汗以来“非黄金家族不能称汗”的绝对政治禁忌,不仅仅是卫拉特新贵族和蒙古旧贵族之间的冲突激化,导致蒙古所有贵族的强烈反弹。也先在称汗之后就陷入了内外交困的局面,仅仅一年就被暗杀而死。 也先之死并没有恢复草原的秩序,卫拉特受...
Hopfield Networks讲解
原文:https://ml-jku.github.io/hopfield-layers/作者:Johannes Brandstetter贡献者: Viet Tran, Bernhard Schäfl, Hubert Ramsauer, Johannes Lehner, Michael Widrich, Günter Klambauer and Sepp HochreiterFeb 16, 2021Translated by Gemini 3.1 Pro 这篇博客文章解释了论文《Hopfield Networks is All You Need》以及相应的全新 PyTorch Hopfield 层。 主要贡献 我们引入了一种新的能量函数及其对应的新更新规则,该规则保证能收敛到能量函数的局部极小值。 新的能量函数是 Krotov、Hopfield 和 Demircigil 等人引入的现代 Hopfield 网络(又称密集联想记忆,Dense Associative Memories)的推广(离散状态 ⇒ 连续状态)。具有连续状态的新型现代 Hopfield 网络保留了其离散版本的...
ChatGPT的虚假承诺
ChatGPT的虚假承诺 *原文地址*:https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html 作者: 诺姆·乔姆斯基(Noam Chomsky)、伊恩·罗伯茨(Ian Roberts)、杰弗里·瓦图穆尔(Jeffrey Watumull) 日期: 2023年3月8日 Translated by Gemini 3.1 Pro 豪尔赫·路易斯·博尔赫斯(Jorge Luis Borges)曾经写道,生活在一个充满巨大危险与希望的时代,就是同时体验悲剧与喜剧,并在理解我们自己和世界时体验“启示的降临”。今天,我们在人工智能领域所谓革命性的进步确实既引起了担忧,也带来了乐观。乐观是因为智能是我们解决问题的手段。担忧是因为我们害怕最流行、最时髦的人工智能流派——机器学习——会将一种存在根本缺陷的语言和知识概念纳入我们的技术中,从而使我们的科学退化,并败坏我们的伦理。 OpenAI的ChatGPT、谷歌的Bard和微软的Sydney都是机器学习的奇迹。粗略地说,它们获取海量数据,在其中寻找模式,并越...
什么是Token
Token是什么?Deepseek给出的解释是: token 是模型用来表示自然语言文本的基本单位,也是我们的计费单元,可以直观的理解为“字”或“词”;通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号计为 1 个 token。 一般情况下模型中 token 和字数的换算比例大致如下: 1 个英文字符 ≈ 0.3 个 token。 1 个中文字符 ≈ 0.6 个 token。 阿里云的解释是 大模型以 Token 为单位处理输入和输出。一个 Token 可能是: **单个字符:**如A、我 **完整的单词:**如large、Model **长单词的一部分:**一个长单词通常会被拆分为多个 Token,拆分的过程称为分词。 根据经验,平均 1 个汉字约对应 1.5-2 个 Token;1 个英文字母约对应 0.25 个 Token;1 个英文单词约对应 1.3 个 Token: 阿里云百炼:约 4-5 个 Token Hello World:约 2 个 Token 每个模型都有最大输入和输出 Token 数(详见模型列表),超过限制会导致请求失败。 ...
大脑中的编码与位置
王立铭《脑科学讲义》/个人笔记之一 标记线和群体编码一般而言,大脑神经组织和脑功能有着两种工作方式,即标记线(Labeled Line)和群体编码(Population Coding)。 其中的标记线可以看成是专线电话,只有特别紧急的、尤其是生死攸关的活动,才会配备标记线——遇到这种情况,反应要迅速、动作要快,不能磨磨蹭蹭、改来改去。这些活动和人体的心智发育无关,而是天生的本能,在PVE的情况下必须是天生习得才可以生存的基本本能,才会用到这种工作方式。 典型的例子就是下丘脑,下丘脑掌管人体的激素调节和新陈代谢,如果下丘脑中饥饿相关的神经元激活则会刺激进食行为。一些基于GLP-1的药物(包括司美格鲁肽和替尔泊肽)则会通过抑制下丘脑的饥饿感知能力,干预对进食行为的奖励机制,从而起到了减肥的效果。 标记线理论这种神经专线专用的思想,算是最早期、也是对于神经最朴素的认知,并且由于神经元连接的距离小于光学观测的极限,因此很多人将神经视作和血管一样的管道而不是真正的细胞,譬如笛卡尔就把神经看成身体连接到大脑的某种管道(“流动于管道的动物灵魂”),**约翰内斯·缪勒(Johannes Müll...
为什么本地LLM会慢?
内存宽带墙在LLM生成文本(Decoding阶段)时,它是逐字(Token)生成的。为了生成 哪怕仅仅一个Token ,计算单元也必须把模型的所有权重(Weights)从显存(VRAM)或内存(RAM)中完整地读取一遍。 因此,模型生成的速度主要取决于内存带宽,而不是算力。 计算公式: 理论生成速度 ≈ 内存带宽 / 模型加载的体积。 硬件差异: 数据中心级的英伟达 H100 显卡内存带宽高达 3.3 TB/s ;而顶级的消费级显卡 RTX 4090 带宽约为 1 TB/s ;如果是普通的系统内存(DDR5),带宽通常只有 60-80 GB/s 。 如果你用纯CPU运行模型,或者显卡带宽不足,数据搬运的速度远远跟不上处理器计算的速度,导致计算核心大部分时间都在“排队等数据”。 HBM vs GDDRAPI 端的企业级显卡(如 A100 / H100)使用的是 HBM(高带宽内存) 。这种内存直接和 GPU 核心封装在一起,数据通道极宽。一块 H100 的带宽高达 3.3 TB/s 。本地消费级显卡(如 RTX 4090)主要是用 GDDR6X 显存。虽然玩游戏很强,...
追踪大型语言模型的思维
原文地址:https://www.anthropic.com/research/tracing-thoughts-language-model 更多网址:https://transformer-circuits.pub/2025/attribution-graphs/biology.html 发表日期:2025年3月27日 翻译模型:Gemini 3 Pro 追踪大型语言模型的思维像Claude这样的语言模型并不是由人类直接编程的——相反,它们是在海量数据上训练出来的。在训练过程中,它们学会了自己的解决问题的策略。这些策略编码在模型为其写下的每个单词所执行的数十亿次计算中。对我们这些模型的开发者来说,它们目前依然是难以理解的。这意味着我们并不了解模型是如何完成它们所做的大部分事情的。 了解像Claude这样的模型是如何思考的,将使我们能够更好地理解它们的能力,并帮助我们确保它们在做我们希望它们做的事情。例如: Claude能说几十种语言。如果在它“脑海”中有一种语言,那是什么语言? Claude逐词编写文本。它只是专注于预测下一个词,还是曾经提前规划? Claude能够逐步...
中国如何接入国际互联网
中国如何接入国际互联网这个问题,首先要解决的是中国什么时候接入互联网。我从小的认知是从1987年开始,由建立国际电子邮件通道开始,并且人民日报也曾有报道称是1987年: “ 20年前的9月20日,中国第一封跨国电子邮件从北京发至德国卡尔斯鲁厄大学的一台计算机上。这标志着中国成功接入国际互联网。而对此给予巨大帮助的是德国波茨坦大学哈首·普拉特那研究所的维纳·措恩教授,当时,他任职卡尔斯鲁厄大学,同中国互联网的先驱们一起为中国打开了迈入国际互联网之门。……1987年9月14日,两国科学家共同起草了中国第一封跨国电子邮件,内容为‘跨越长城,走向世界’。20日,这封电子邮件穿越半个地球抵达德国。” ——《人民日报》2007年9月22日报道 by 吕鸿 关于这件事,DW还有相关的报道: “1987年的9月14日,我在北京科技大学输入了中国第一封电子邮件的文本。然后又折腾了一个星期,9月20日才成功发送。”……他向德国之声记者透露,中国的互联网在起步阶段主要获得德国的帮助,而非网络技术最为领先的美国的帮助,取决于多个方面的因素。”当时还是冷战时期啊,美国人当然不希望互联网、电子邮件这...
TPC/IP协议和NAT网络
在1974年Cerf和Kahn发表那篇奠基性的《分组网络互联协议》时,TCP(Transmission Control Program)还是一个浑然一体的单体协议。在这个最初的设想中,TCP不仅要负责“把数据包送到哪里”(路由与寻址),还要负责“确保数据包安全到达”(传输控制、纠错、排序)。这种设计在同构网络中运行尚可,就好比一家只送挂号信的邮局,每一封信都必须被追踪、确认回执。然而,当ARPA的研究人员试图将这种设计推向更广阔的异构网络——特别是包含卫星网(SATnet)和无线电网(PRnet)的复杂环境时,这种“大包大揽”的设计立刻撞上了南墙。问题的核心在于可靠性与实时性的根本冲突。在1977年的三网互联实验中,研究人员(特别是Danny Cohen)发现,如果你想在网络上跑实时语音(Voice over Packet),TCP那种“丢包必须重传”的强迫症逻辑简直是灾难。 试想一下,你在打卫星电话,中间丢了0.5秒的音节。如果按照TCP的逻辑,系统会暂停后续的播放,直到那丢失的0.5秒被重新传回来。结果就是,你听到的不是流畅的对话,而是一段段被严重延迟、顺序错乱的“鬼畜”音频...
TCP和OSI
CYCLADES和X.25之争并非是70年代的个例,自70年开始到90年代TCP/IP最终胜利,计算机网络领域经历了旷日持久的Protocol War,这中间出现了大量曾经风靡一时但如今鲜为人知的网络协议,X.25只是其中的一个有点显眼的注脚而已。在讨论TCP和OSI之前,我感到比较疑惑的一个点是:为什么电信公司都要设计这样的网络设备,为什么如此强调线路的可靠性,为什么不在一开始采用网络拓扑? 如果我们在以往的电信网络设计中,传统上长途电话会先打到电话局,然后电话局之间交换要传递的信息,最终把信息交到我们的最终用户手上,因此每一条通话都有着明确且固定的路线。所谓的专线电话,就是各个电话局中你和目的地接口始终连接在一起,这样子你就在物理上独占了一个路线,这根电线可以从你家一直连接到几百公里之外一路畅通无阻。更重要的事情是,整个网络中具有计算能力的实际上只有电话局而不是你的电话机,这就默认了一个无法计算的终端机和一个有强大交换功能的交换中心——在小型机兴起之前,边缘设备一般都无法承担网络通讯的重任,因此端到端网络基本上不可能。 1960年代兴起的分组交换技术打破了这一点。分组交换好比...