签到成功

知道了

CNDBA社区CNDBA社区

大模型中 CoE 架构 说明

2025-12-06 22:26 164 0 转载 大模型
作者: dave

在大模型(Large Language Models, LLMs)领域,COE 架构通常指的是 Conditional Computation(条件计算) 的一种实现形式,其中最典型、最广泛应用的就是 Mixture of Experts(MoE,混合专家) 架构。虽然“COE”并非一个严格统一的标准术语,但在工业界和学术论文中,COE 常被用作 “Mixture of Experts” 或 “Conditional Routing to Experts” 的代称,尤其在如 Google、阿里、智谱等公司的大模型技术文档中。

下面对 COE(Conditionally Routed Experts / Mixture of Experts)架构进行系统说明:

http://www.cndba.cn/cndba/dave/article/131769


一、什么是 COE 架构?

COE(Conditional Computation with Experts) 是一种稀疏激活的模型架构,其核心思想是:

对于每个输入 token,只激活模型中的一小部分参数(即“专家”),而不是整个模型。http://www.cndba.cn/cndba/dave/article/131769

这使得模型可以拥有超大规模参数量(如千亿、万亿级别),但每次推理时仅使用一小部分(如 2 个专家),从而控制计算成本(FLOPs)和延迟。


二、核心组件:Mixture of Experts (MoE)

COE 架构通常基于 MoE 层构建。一个典型的 MoE 层包含:http://www.cndba.cn/cndba/dave/article/131769

组件 说明
多个 Experts(专家) 通常是若干个结构相同的前馈网络(FFN),例如 8 个或 64 个独立的 FFN 模块。每个 expert 是一个“子模型”。
Router(路由器)/ Gating Network(门控网络) 一个轻量级网络(通常是一个线性层 + softmax),根据输入 token 的表示,计算该 token 应该分配给哪些 experts 及其权重。
Top-k 选择机制 通常只选择得分最高的 k 个 experts(如 k=1 或 k=2),其余 experts 不参与计算。这是实现稀疏性的关键。

示例(Top-2 MoE):

  • 输入 token → 经过 router → 得到对 64 个 experts 的打分 → 选 top-2 experts → 将 token 输入这两个 experts → 加权融合输出。
  • 每次只激活 2/64 = 3.125% 的 FFN 参数。

三、COE 架构的优势

优势 说明
高容量、低计算成本 模型总参数可达万亿,但每次推理 FLOPs 接近 dense 模型(如只比 dense 大 1.5 倍)。
提升模型能力 不同 experts 可学习不同领域的知识(如数学、代码、对话),实现专业化分工。
可扩展性强 增加 expert 数量即可扩大模型容量,无需改变整体结构。

四、挑战与解决方案

挑战 解决方案
负载不均衡(Load Imbalance) 某些 experts 被频繁调用,某些几乎不用 → 使用 auxiliary loss(辅助损失) 鼓励均匀分配(如 Google 的 Switch Transformer)。
通信开销大(多设备训练) Experts 分布在不同 GPU 上,需跨设备传输 token → 采用 expert parallelism + 高效路由调度(如 DeepSpeed-MoE、阿里通义千问的 COE 实现)。
训练不稳定 Router 初期随机,导致梯度稀疏 → 使用 capacity factor(容量因子) 限制每个 expert 处理的 token 数上限,避免 overflow。

五、典型应用案例

模型 公司/机构 COE/MoE 特点
GLaM Google 1.2T 参数,64 experts,top-2 routing
Mixtral 8x7B Mistral AI 8 个 7B experts,top-2,开源,性能媲美 Llama2-70B
Qwen-Max / Qwen-Plus 阿里通义 采用 COE 架构,支持高复杂度任务
DeepSeek-MoE 深度求索 开源 MoE 模型,16 experts,top-2
DBRX Databricks 132B MoE 模型,top-4,擅长编程与推理

注:阿里在 Qwen 技术报告中明确提到其 COE(Conditional Computation Experts)架构,即基于 MoE 的稀疏激活设计。http://www.cndba.cn/cndba/dave/article/131769


六、COE vs Dense 模型对比

指标 Dense 模型(如 Llama2-70B) COE/MoE 模型(如 Mixtral 8x7B)
总参数量 70B 47B(激活约 12.9B)
推理 FLOPs 仅为 dense 的 ~1/5
训练成本 极高 相对较低(因稀疏性)
部署难度 简单 需要 expert 路由和并行调度
知识覆盖 均匀但有限 专家可专业化,覆盖更广

七、总结

COE 架构 = 基于 MoE 的条件计算框架 = 用“按需激活专家”的方式实现“大模型、低计算”

http://www.cndba.cn/cndba/dave/article/131769

它是当前构建超大规模高效大模型的核心技术之一,特别适合:http://www.cndba.cn/cndba/dave/article/131769

  • 云服务中的多任务场景(不同用户请求路由到不同 experts)
  • 需要高容量但受限于推理成本的部署环境

未来,随着硬件(如支持动态稀疏的 AI 芯片)和系统优化(如更高效的 router)的发展,COE 架构有望成为大模型的主流范式。

http://www.cndba.cn/cndba/dave/article/131769
http://www.cndba.cn/cndba/dave/article/131769http://www.cndba.cn/cndba/dave/article/131769http://www.cndba.cn/cndba/dave/article/131769


如需进一步了解某具体模型(如 Qwen-COE、Mixtral)的实现细节或代码结构,也可以告诉我,我可以提供技术拆解。

用户评论
* 以下用户言论只代表其个人观点,不代表CNDBA社区的观点或立场
dave

dave

关注

人的一生应该是这样度过的:当他回首往事的时候,他不会因为虚度年华而悔恨,也不会因为碌碌无为而羞耻;这样,在临死的时候,他就能够说:“我的整个生命和全部精力,都已经献给世界上最壮丽的事业....."

  • 2297
    原创
  • 3
    翻译
  • 658
    转载
  • 198
    评论
  • 访问:9704420次
  • 积分:4556
  • 等级:核心会员
  • 排名:第1名
精华文章
    最新问题
    查看更多+
    热门文章
      热门用户
      推荐用户
        Copyright © 2016 All Rights Reserved. Powered by CNDBA · 皖ICP备2022006297号-1·

        QQ交流群

        注册联系QQ