
莫得大厂高管站台,一房子却挤满了开源圈的熟面目。
不端往台下扫一眼,就能对上好几个GitHub上的明星 ID:
有当前大模子推理框架顶流SGLang的中枢开辟者BBuf(Xiaoyu Zhang);
有主导下一代算子编程生态TileLang的赞佩者唐正举;
有操刀 KVCache 解耦与传输神器Mooncake的中枢孝顺者马腾;
有来自智源东谈主工智能磋磨院、围绕Triton/FlagOS死磕 AI 编译器的肖航;
还有像R0CKSTAR这样在 GitHub 上荒谬活跃的硬核开辟者。

这场看似是开源圈极客们的面基会,却委果是有点反差在身上的——
行为的攒局者,是国产 GPU玩家,摩尔线程。
这事确乎有点道理。
因为畴昔提到国产 GPU,外界最容易念念到的要道词,往往如故硬件参数、显存容量、算力见解、生态替代、模子能不成跑起来。
但这场SGLang × MUSA Meetup信得过抛出的问题依然变了:
若何让国产 GPU 信得过参加大模子推理的主流开源工程链路?
说得更平直小数,就是让 SGLang、Triton/FlagOS、TileLang、Mooncake、KVCache、P/D 分袂、分散式通讯、CI/CD、upstream PR 这些东西,能够围着国产 GPU 全部转起来。
有一说一,在合座听下来之后,有一个极度直不雅的感受。
那就是国产 GPU 的竞争,依然不单是芯片参数之争,转而驱动迈向生态坐标之争。
为什么这样说?咱们赓续往下看。
国产 GPU 驱动"扩圈"了
先看这场 Meetup 自身。
它的主题很明确:SGLang × MUSA。
SGLang 是当下大模子推理 serving 鸿沟关怀度很高的开源框架,面向 LLM 和多模态模子,中枢标的是低蔓延、高蒙眬,遮蔽从单卡到大鸿沟分散式集群的部署场景。
这类框架之是以蹙迫,是因为今天的大模子落地,早就不是"模子磨练好了,放上去跑"这样浮浅。
信得过参加坐褥环境后,系统要处理的是一整套复杂问题。
举例 prefill 和 decode 若何拆,KVCache 若何复用,长高低文若何省钱,多轮对话若何降 TTFT,大鸿沟集群若何退换,新模子发布后若何 day-0 support,出了性能 gap 若何定位到具体 kernel。
第一个上台的是 SGLang 中枢开辟者BBuf。

△SGLang 中枢开辟者 BBuf
这个在 GitHub 上领有 27k 星的开源推理框架,当今依然是全球开辟者部署大模子的首选。
他带来的 SGLang 2026 Q2 Roadmap,每一条都踩在行业的痛点上:
针对 DeepSeek V4 的全链路优化,包括 W4A16 量化、MegaMoE 加快和疏淡防护力撑持;
jit_kernel 全面替代传统的 sgl-kernel,用 TVM-FFI 把编译速率擢升了数倍,再也无谓等几个小时的 wheel 包;
Vibe Coding 全面落地,用 AI agent 自动分析 profiler、定位性能瓶颈、提交 PR,5 月前依然完成了卓越 60 个优化任务;
多模态身手全面升级,撑持 LTX2、Wan、混元视频等最新模子,性能比其他框架最高快 5 倍。
最让东谈主印象久了的是他展示的一组数据。
SGLang 通过 P/D 分袂架构,在 12 个 H100 节点上跑出了 52.3k 输入 token/s/node、22.3k 输出 token/s/node 的成绩,比 DeepSeek 官方 API 还低廉 5 倍,这个终端依然被全球 10 多个团队复现。
紧接着上台的摩尔线程 Contributor R0CKSTAR,带来了全场最硬核的工程奉行分享。

△摩尔线程工程师 R0CKSTAR
他用一句话回来了畴昔半年的责任:
SGLang on MUSA 依然完成了从环境构建到 CI 测试的全链路买通。
这意味着什么?
当今你只有克隆 SGLang 的官方仓库,装置 sgl-kernel 和 sglang,就能在摩尔线程 MTT S5000 显卡上平直运行简直扫数主流大模子。
DeepSeek、通义千问 3.5、GLM-4.5、FLUX、Wan 这些热点模子,都依然完成了深度优化。
他特别提到了 MUSA 的三层 CUDA 兼容栈。
畴昔适配一个推理框架要改几千行代码,当今只有在源头加一转 import torchada,99% 的 CUDA 代码就能平直运行。这个看似浮浅的蜕变,措置了国产 GPU 生态的一大痛点。
据了解,铁心 5 月 12 日,摩尔线程在 SGLang 干线累计提交 47 个 PR,其中 41 个已合入,完成了从环境构建到分散式推理的全链路买通。
智源的肖航则带来了 DeepSeek V4 在 MUSA 上的 Day0 适配效率。

△智源 AI 编译器磋磨员
通过 FlagOS 的 Triton 算子优化和摩尔线程的 SQMMA 张量加快引擎,他们把 DeepSeek V4 的首 token 蔓延裁减了 56.7%,蒙眬量擢升了 23%。
对此,肖航暗示:
咱们莫得作念什么黑魔法,就是把两个最要道的算子优化到了极致。
FP8 矩阵乘算子平均加快 8.85 倍,疏淡防护力算子平均加快 6.01 倍,这两个占了推理时候 80% 的算子一优化,端到端性能当然就上去了。
TileLang 赞佩者唐正举的分享,则让扫数东谈主看到了下一代算子编程的改日。

△TileLang 赞佩者唐正举
这个 2025 年 2 月才开源的花样,短短一年多就收货了 6k 星和 133 位孝顺者,连 DeepSeek V4 的中枢 kernel 都是用 TileLang 写的,正如唐正举所说:
用 TileLang 写 FlashAttention,只有 50 行 Python 代码,性能和群众手写的 CUDA 一模一样。
况且从他在现场展示的对比图来看,通常的 GEMM 算子,TileLang 用 15 行代码达到了 CUTLASS 的性能,代码量减少了 90%。
临了上台的阿里云马腾,带来了 Mooncake 花样的最新剖释。

△Mooncake Contributor 马腾
这个专注于 KVCache 解耦的花样,当今依然是 SGLang、vLLM 等主流推理框架的标配。
他展示的一组较为吸睛的数据:
通过 RDMA P2P 权重更新,Kimi K2 1T 模子的权重同步时候从 53 秒降到了 7.2 秒,加快了 7.37 倍;EPD 三级解耦架构让多模态模子的首 token 蔓延裁减了 6-8 倍;HiCache + Mooncake 后端让多轮对话的缓存射中率卓越 90%。
至此,这场 Meetup 的拼图基本齐备——
SGLang 是推理框架主链路,MUSA 是国产 GPU 底层平台,FlagOS/Triton 措置要道算子优化,TileLang 裁减高性能 kernel 编程门槛,Mooncake 补上 KVCache 和坐褥部署。
这,世界杯预选赛下单就是一条较为齐备的工程链路。
为什么摩尔线程能把他们摇来?
这个问题的谜底不成只归结为办了一场行为。
开源圈很试验,群众满足来,中枢原因不是谁会讲故事,是这件事的确和他们正在作念的工程问题关系。
领先看 MUSA 自身的遐想初心。
摩尔线程 CTO张钰勃在开场中解释,MUSA 是 Meta-computing Unified System Architecture。

△摩尔线程 CTO 张钰勃
Meta-computing 指向通用打算,摩尔线程但愿 GPU 尽量拥抱通用打算,而不是给改日可打算的鸿沟设限;Unified 则意味着摩尔线程居品但愿遵守团结套长入程序,幸免不同居品线使用不同提示集和架构,导致软件生态无法积存。
更要道的一句话是,MUSA 不但愿开辟者为了使用 MUSA 而再行学习一套东西。
这句话看似朴素,其实直指国产 GPU 生态的痛点。
开辟者最怕什么?
不是新硬件自身,是为了新硬件,学习一整套新 API,重写一堆代码,改完还进不了上游,社区一更新又要再行补丁。
淌若一个国产 GPU 生态条款开辟者重新学一遍,那它靠近的就是巨大的移动阻力。
是以 MUSA 的门道,是尽量靠拢开辟者依然闇练的 GPU 编程情势、API 接口和使用民俗。底层杀青不错不同,但表层体验尽可能一致。
od体育中国手机官网入口三层 CUDA 兼容栈的道理就在这里。
torch_musa 认真把 PyTorch 和 MUSA 的基础身手接起来;torchada 认真让 CUDA-first 生态赓续责任;mthreads-ml-py 认真把建立经管、拓扑、显存、MTLink、P2P 等信息领路给表层框架。
用一句更平素的话说,摩尔线程在尽量把底本的路修到我方门口。
这平直影响到开源社区和洽的可行性。
因为上游花样最敬重的是低侵入、可人慕、可复用。淌若一个适配决策需要大面积蜕变干线代码,后续每次 rebase 都倒霉,上游很难接收。
反过来,淌若适配不错通过更透明的情势完成,PR 就更容易被 review,也更容易继续伴随社区迭代。
这就是从"我我方赞佩一个分支"到"我参加干线"的区别。
再看生态勾引。
SGLang × MUSA,是推理主链路买通。
摩尔线程从客岁驱动把 SGLang 当作重心接入和孝顺的开源花样,经由泰半年远程,MUSA 后端近期依然合入 SGLang 干线。后续不单是伴随 feature,也但愿在框架层面孝顺更多身手。
这件事的道理在于,国产 GPU 不再只是某个框架的外部适配对象,依然驱动成为干线生态的一部分。

FlagOS × MUSA,是要道算子和新模子适配。
大模子推理的性能竞争,越来越多发生在 kernel、编译器、退换、低精度和通讯层。DeepSeek V4 day-0 适配这样的责任,骨子上进修的是从模子发布到工程落地之间的反馈速率。能不成第一时候跑通,能不成快速调优,能不成在真实 shape 上找到更好的竖立,决定了生态跟不跟得上。

Mooncake × MUSA,是推默契耦和坐褥部署。
KVCache 的价值在 Agent、多轮对话、长高低文期间被进一步放大。Mooncake 与 MUSA 的勾引,不单是让某个缓存后端能跑在国产 GPU 上,更是在探索跨实例 KVCache 分享、弹性扩缩容、缓存复用、原地升级这类坐褥级问题。

TileLang × MUSA,则是下一代算子生态的提前布局。
淌若改日更多模子和硬件都需要定制 kernel,算子编程不成恒久停留在少数群众手里。TileLang 这类 DSL 的价值,是把高性能 kernel 编程形成更多开辟者能上手的工程器具。

这四条线合在全部,才是摩尔线程能组局的底气。
它把我方放进了大模子推理的真实工程采集里,包括框架、算子、缓存、通讯、部署、CI/CD、upstream 等等。
而这,亦然国产 GPU 生态信得过要补的课。
国产 GPU 的生态位,正在走向和洽
淌若把这场 Meetup 从更重大的算力发展角度来看,它的价值大概远超期间分享自身。
畴昔几年,国产 GPU 的生态逆境是相比光显的。
很多厂商民俗了闭门觅句,我方重新写一套深度学习框架,我方攒一套算子库,终端因为不相宜主流开辟者的民俗,鲜有东谈主问津。
又或者,有的厂商只是拉一个罕见 Fork 作念适配,从来不向开源上游提打法码,导致主流框架一更新,我方的适配版块就成了无东谈主赞佩的孤品。
而当今,摩尔线程给出了一个皆备不同的谜底:
全面融入全球开源生态,去和宇宙上最聪惠的一批东谈主全部作念事。
在这场行为中,咱们时时听到几个词:Day-0 Support、Upstream PR、CI/CD。
这评释国产 GPU 的生态位正在发生质变。摩尔线程不再只甘心于作念一个被迫的适配者,它要的是主动出击,成为中枢代码的"孝顺者",甚而是改日架构的"共建者"。
他们不单是是丢一个单点的 Patch 畴昔,而是把一整套包含环境构建、PR 提交、CI 自动化测试、Release 发布、文档赞佩在内的工程闭环,深深地镶嵌到了 SGLang 等顶级花样的血脉中。
这种可继续的 Upstream 模式,才是信得过掌抓生态说话权的情势。
这场开源局还讲授了一件事,国产 GPU 依然走上了大模子推理开源生态的全球牌桌。
在这个牌桌上,依然坐着风头正劲的 SGLang,坐着死磕底层编译的 Triton/FlagOS,坐防备塑算子生态的 TileLang,坐着主导解耦架构的 Mooncake。
而当今,国产 GPU,也不错拉开椅子,牢固地坐下来,和这群明星玩家们全部打好大模子期间最要道的这把牌。
一键三连「点赞」「转发」「防御心」
接待在指摘区留住你的念念法!
— 完 —
� � 点亮星标 � �
科技前沿剖释逐日见世界杯(中国)