热点资讯

开云首页

你的位置：开云中国2026世界杯手机版入口 > 开云首页 > 开云中国2026世界杯手机版入口字节会师何恺明！开源连络扩散谈话模子Cola DLM

开云中国2026世界杯手机版入口字节会师何恺明！开源连络扩散谈话模子Cola DLM

发布日期：2026-05-19 07:24 点击次数：136

大谈话模子简直只可走"权衡下一个 token "的蹊径吗？

继何恺明之后，字节也给出了相似的回话：NO。

何况，双方都一口同声地盯上了兼并个概念——在连络语义空间中建模谈话。

更要道的是，字节此次胜仗开源开到底，论文、代码、模子权重、汉文博客通通释出。

帮大家快速回忆一下。就在上周，何恺明团队推出首个扩散谈话模子 ELF ——

它跳过 token 层，把所有这个词这个词生成流程留在连络 embedding 空间里完成，仅用 105M 参数就跑赢一众主流扩散谈话模子，第一次证明连络道路在谈话生成上真有后劲。

而字节此次带来的 Cola DLM（Continuous Latent Diffusion Language Model），则进一步佐证了这一趋势。

他们相似选拔跳出杂乱 token 的连续，把生成流程交给连络空间，赶走是：

在 ~2B 参数、约 2000 EFLOPs 的严格对照实验下，Cola DLM 展现出了比自纪念模子和主流杂乱 DLM 更贯通的 scaling 趋势。

干系词，耿介你觉得这不外是又一个"把图像扩散模子搬进谈话边界"的故事时，字节却告诉你：错了。

Cola DLM 的 motivation 从来不是 diffusion。

啊？？不是为了 diffusion，赶走作念了个 diffusion language model？

字节：Token ≠语义，表征才是信得过的主角

事实上，信得过的主角藏在这句话的后半段：

Cola DLM 的 motivation 从来不是 diffusion，而是representation（表征）。

在字节看来，信得过遑急的是表征，Token 这种 tokenizer 工程和历史演化的副产品，只是是表征被扫尾出来的一种花式辛苦。他们还斗胆给出了一个暴论：

Token 是东谈主类谈话系统的上层载体，不是语义自己。

绵薄看一个例子你就懂了，比如咱们用不同的话抒发兼并个好奇：

我今天很痛快。

今天我感情很好。

今天过得挺景色。

token 差了一大堆，但语义照旧那一个。

放在以前，主流大模子经常会把这些不同说法，当成几套不同的抒发折柳去学——明明背后是兼并个语义，模子偏专爱在 token 这个上层挨个对都。

是以字节的判断是，如若模子里面存在一种更贯通、更详细的"语义气象"，那这些执行疏浚、只是说法不同的句子，其实没必要被折柳挂牵，而是不错在里面连续到周边的暗示。因此执行上而言：

Cola DLM 的 diffusion 不是在规复 token，而是在 transport 一个 latent prior。

怎么" transport 一个 latent prior "？字节选拔胜仗把语义和扫尾分层。

具体设施论指路论文 3.1.1，这里咱们绵薄翻译过来等于：

Cola DLM 的生成模子，执行上唯有两部分。一个 latent prior，厚爱生成"潜在语义"；一个 decoder，厚爱把这些语义翻译成具体笔墨。看上去就像是把"生成一句话"拆成了两件相对孤立的事。

而且要道在于，所有这个词这个词 diffusion/flow matching 流程，其实都发生在 latent 空间里，而不是 token 空间里。

等于说，Cola DLM 干的不是把一堆脏 token 徐徐去噪成干净 token，而是先在连络语义空间里，把一团偶然语义徐徐组织成零散想好奇的潜在抒发，终末再调处翻译成笔墨。

是以在它的生成旅途里，其实压根莫得 token 的缓缓生成流程，token 只在终末一步才出现，前边学的都是"语义怎么酿成"。

这亦然 Cola DLM 和许多扩散谈话模子最大的不同。

许多 DLM，执行上照旧围绕 token 在作念"修修补补"，比如规复被 mask 的 token、缓缓还原杂乱文本。但 Cola DLM 胜仗把 diffusion 从"笔墨层"搬到了"语义层"，diffusion 不再厚爱"生成 token "，而是厚爱"组织语义"。在字节看来：

这不是包装上的互异，而是变嫌了 diffusion 在模子里到底干什么。

Cola DLM 背后要道细节

设施论咱们知谈了，那 Cola DLM 信得过"和传统连络 DLM 拉开差距"的处所到底在哪？

谜底，就藏在几个很工程化但很要道的遐想选拔里。

要道 1：latent 不是绵薄的 embedding 替代品

领先是 latent 是怎么来的。许多东谈主一听"连络谈话模子"，第一反馈是——不等于在 word embedding 上作念扩散嘛。

但 Cola DLM 偏巧没这样作念，亚博体育世界杯中国官网首页它专门搭了一套 Text VAE：

Encoder：把杂乱文本压缩成连络 latent（至极于索取"语义指纹"）；

Decoder：把 latent 再还原回环本。

别离在哪？token embedding 照旧和 token 逐一绑定的，每个 token 一个向量，执行上照旧 token 序列。

而 Cola DLM 要的 latent，是一个不错连络变化、可被概率建模的偶然变量。

这样一来，模子处理的对象就不再是"下一个 token "，而是"整段文本对应的语义气象"。

要道 2：prior 不是平常的 diffusion

Cola DLM 用的不是大家熟识的"加噪→去噪"那种 diffusion，而是一个叫 block-causal DiT+Flow Matching 的组合。

组合看不懂没关系，知谈这个组合作念的事就行了：

从一个绵薄散布（比如高斯）动身；

在连络期间里学习一个 vector field（向量场）；

把这个散布"运载"成确凿数据对应的 latent 散布。

说白了等于，不靠反复去噪，而是胜仗学一条"最优旅途"，把噪声平滑地引向零散想好奇的语义。

更妙的是，它在这个语义旅途上还引入了 block 结构——

九游体育(NineGameSports)官网

块内并行治理局部语义的快速组织，块间按因果法令保证合座逻辑不乱。

合座至极于在语义层再行搭了一套生成框架，"局部快、合座顺"，两样都没丢。

要道 3：考研时变装单干明确

连络扩散谈话模子有一个常见问题：

语义暗示 latent 很容易被 diffusion 带偏，终末退化成一个"穿了马甲的 token "，即名义是连络向量，但骨子里照旧在记词，压根没酿成信得过的语义详细。

是以 Cola DLM 的作念法是——把两个任务透顶分开。

Encoder/Decoder：只管"怎么把笔墨变谚语义暗示，再变回来"；

Prior（DiT+FM）：只管"怎么从噪声生谚语义暗示"。

而且考研时，Encoder 在 diffusion 阶段基本"冻结不动"。

为什么不让它也随着学？因为一朝让 Encoder 去顺应 diffusion，它就会为了裁汰 loss 而偷懒，把语义暗示暗暗滑向"好权衡的 token 花式"，终末又回到老路上。

字节想要的是一个贯通的语义空间，而不是一个被任务浑浊的中介层。是以他们反治其身，让 prior 去顺应语义空间，开云中国2026世界杯手机版入口而不是让语义空间助威 prior。

此外，他们还加了一个语义管束（BERT-style mask loss），防患 encoder 在重建时"语义垮塌"。

实考据明，莫得这个管束，latent 照实会为了降 loss 而漂走。

要道 4：把考研概念拆成了三块不错折柳会诊的子任务

如若说前边三点更像工程上的巧想，而这第四点等于 Cola DLM 在表面上的硬功夫。

字节把考研概念拆成了三个不错单独看、单独会诊的子任务：

重建才调：给了 latent，Decoder 能不行把原文还原出来？

压缩才调：这个语义暗示到底压缩了几许原文信息？

拟合才调：Prior 能不行学出 latent 的确凿散布？

这样拆的公正在于，传统自纪念把所有这个词东西都糊在一个"权衡下一个词"的吃亏函数里。

生收效果不好时，你压根不知谈是那处出了问题，不知谈是贯通错了、挂牵不够，照旧生成旅途歪了。

而 Cola DLM 把账算得明领会白，那处不行折柳看目的就知谈。

这也它能跑出贯通 scaling 趋势的底层原因——

不是瞎蒙，而是每一个形状都能单独会诊、单独优化。

终末鉴于篇幅原因，这里咱们胜仗放上字节 Cola DLM 磋磨的效果省流版（详备内容指路博客）：

兼并个追问，两种谜底

而说到这里，咱们很难不把字节 Cola DLM 与何恺明团队的 ELF 放在一齐看。

很零散想的是，两份使命简直同期，都在挑战一个被默许了二十年的假定——

谈话模子必须征战在杂乱 token 上。

为什么这个假定驱动受到质疑？

一方面，自纪念大模子走到今天，"权衡下一个 token "这条路的瓶颈越来越显着——推理慢、长程依赖弱、考研概念和确凿生成质料之间存在结构性 gap。

另一方面，扩散模子在图像、视频生成上的到手，让大家驱动反想：杂乱 token 简直是谈话智能必须依附的载体吗？照旧只是历史选拔的一种民风？

这两年扩散谈话模子的探索（LLaDA、Dream-7B、MDLM 等）也曾把这个问题拉到了台面上，但大多半使命还停留在"杂乱派"——照旧在 token 上作念扩散。

直到 ELF 和 Cola DLM 出现，双方简直同期给出了兼并个谜底——无谓绑在 token 上。

只不外具体解法上有所不同。

我也去对比了两项磋磨之前的区别，用图片展示如下：

绵薄说，ELF 像一个东谈主从新干到尾，在原长度 embedding 空间里反复酌量，到终末一步才落笔成字。

Cola DLM 则像两个单干部门，语义部先参谋"要抒发什么"，笔墨部再厚爱"具体怎么写"。

两条道路设施上自然不同，但底层慈祥饱和一致——

让建模发生在最妥贴谈话执行的暗示空间里，不要被" token= 语义"这个默许框架猖狂。

执行上而言，它们其实是兼并个问题的两种回话。

而这也代表着一种趋势——是期间再行意识连络扩散谈话模子了。

夙昔两年，扩散谈话模子的舞台简直一直由"杂乱派"占据。但 ELF 和 Cola DLM 这一前一后两次入手，让"连络道路"第一次以一种严肃、可被对比、可被复现的姿态站到了台前。

更值得得当的是，Cola DLM 还顺遂指出了一件更大的事——长久以来"调处多模态"卡住的中枢拒绝之一，等于文本是杂乱的，而图像、视频、音频自然偏连络。

如若想让它们信得过插足兼并个" latent 宇宙"，必须有一个把文本映射到连络语义 latent 的接口。

而 Cola DLM 恰好上演了这样的变装。而这，唐突才是字节此次入手的信得过筹划——

不是在扩散谈话模子的赛谈里再添又名选手，而是为谈话模子造一座桥，把它接入连络多模态的宇宙。

自然，Cola DLM 团队我方也很克制，他们在博客终末写谈：

Cola DLM 只是这条路上的一次早期尝试，但这条路自己值得赓续走下去。

作家先容

终末按照旧例先容一下这项磋磨的作家。

所有这个词这个词团队由字节提升 Seed 团队主导，聚拢了来自港大、东谈主大、北大、北邮、澳国立多所高校的磋磨者，粉饰谈话建模、扩散模子、视频生成等多个概念。

第一签字 Hongcan Guo（郭泓灿），现在是北邮东谈主工智能学院大四本科生，从 2025 年 6 月起在字节 Seed 实习。

磋磨好奇相聚在生成模子与推理模子的数学基础和学习能源学，Cola DLM 的博客恰是出自他手。

通信作家 Yan Zeng（曾妍）则是字节 Seed 里面的"大牛级"东谈主物，她是字节爆款视频生成模子 Seedance 系列的研发厚爱东谈主。有汉典透露，这位西安交大学友 2021 年以校招生身份加入字节后，仅用了五年就从算法工程师晋升至 4-2 职级。

此次 Cola DLM 里许多"分层潜变量 +diffusion prior "的想路，与视频生成边界长久剿袭的 latent diffusion 道路存在显留心迭之处。

团队里还有一位很零散想的"跨界选手"—— Shen Nie。他是东谈主大高瓴 AI 学院李崇轩组的代表性磋磨者，同期亦然杂乱扩散谈话模子 LLaDA 的第一作家。而 LLaDA 刚巧亦然 Cola DLM 在论文里要点比拟的一条杂乱扩散道路。

某种好奇好奇上，这件事自己就挺零散想：一位杂乱扩散道路的代表东谈主物，也参与到了连络 latent 道路的磋磨里。某种进度上也阐述，Cola DLM 此次信得过想参谋的，也曾不单是"扩散怎么生成文本"，而是更底层的：

文本智能到底应该征战在什么样的气象空间之上？

其他几位中枢作家相似来头不小。

Hengshuang Zhao 是香港大学计较机系助理莳植，曾在 MIT CSAIL、牛津 Torr Vision Group 作念博士后，长久活跃于计较机视觉与生成建模边界。

Qiushan Guo 则来自港大 MMLab 羅平组，同期亦然字节 Seedream 图像生成模子的遑急研发成员之一。

其他签字作家还有：Qinyu Zhao、Yian Zhao、Rui Zhu、Feng Wang、Tao Yang、Guoqiang Wei。

执行上，如若把整份作家名单放在一齐看，其实会发现一个相称零散想的气象——

字节此次作念谈话模子，某种进度上简直是把"视频 / 视觉生成"那套中枢想路合座带了进来：

作念 latent diffusion 的、作念视频生成的、作念图像 prior 的、作念杂乱 DLM 的，终末一齐再行想考"文本到底该怎么建模"。

这唐突亦然为什么 Cola DLM 合座看上去，会和传统谈话模子道路呈现出相称不同的气质。

因为它从一驱动关注的，就不单是"如何更好地生成文本"，而是在尝试把谈话再行放回连络语义空间里，变成一种能够与图像、视频、音频自然对都的模态。

而这，也许才是 Cola DLM 最值得关注的处所：

当文本不再只是 token 序列，而成为连络宇宙中的一种语义气象后，多模态智能又会长成什么样。

抱抱脸地址：https://huggingface.co/ByteDance-Seed/Cola-DLM

GitHub 地址：https://github.com/ByteDance-Seed/Cola-DLM

论文：https://arxiv.org/abs/2605.06548

博客：https://hongcanguo.github.io/posts/2026-cola-dlm-zh.html

一键三连「点赞」「转发」「小心心」

迎接在指摘区留住你的想法！

— 完 —

中国 AIGC 产业峰会全气势发布！� �梭巡议程

从底层架构到爆款诓骗，从软件到硬件，从创作到投资 ... 这一次，咱们但愿聚都AI 赛谈的实战派，聊透 AI 到底怎么落地、怎么收获、怎么变嫌使命。

5 月 20 日，北京 · 金茂万丽栈房，@所有这个词东谈主，迅速 AI 起来！� �

一键关注 � � 点亮星标

科技前沿阐明逐日见开云中国2026世界杯手机版入口

上一篇：开云中国2026世界杯手机版入口北京时辰5月17日！广东宏远最新3音讯，崔永熙现身新行止

下一篇：开云app官方在线入口 8年总揽成绝唱！后詹姆斯时间，东部依旧无东谈主完毕连冠

热点资讯

开云首页

开云中国2026世界杯手机版入口 字节会师何恺明！开源连络扩散谈话模子Cola DLM

开云中国2026世界杯手机版入口字节会师何恺明！开源连络扩散谈话模子Cola DLM