基于我获取的信息，现在我可以写一篇关于Qwen3-235B的深度技术文章了。让我整理一下信息并开始写作。

阿里Qwen3-235B：当MoE架构遇上"思考预算"，中国大模型的技术突围

在DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro的围剿中，阿里云的通义千问Qwen3-235B-A22B不仅活了下来，还活出了自己的节奏——2350亿总参数，220亿激活参数，支持119种语言，还能在"思考模式"和"非思考模式"间无缝切换。这背后，是中国大模型在架构创新上的又一次大胆尝试。

老实说，当我第一次看到Qwen3-235B的技术规格时，我的第一反应是："又来一个参数怪兽？"但仔细研究后，我发现阿里云这次玩得有点不一样。

MoE架构的"精打细算"

2350亿总参数，220亿激活参数——这个数字组合本身就很有意思。Qwen3-235B-A22B采用了Mixture-of-Experts（MoE）架构，这意味着虽然模型总参数庞大，但每次推理时只有约10%的参数被激活。

这种设计让我想起了那句老话："有钱要花在刀刃上"。在AI模型的世界里，"刀刃"就是推理时的计算成本。传统的密集模型（Dense Model）在推理时需要加载所有参数，而MoE模型则聪明得多——它只激活与当前任务最相关的专家模块。

# Qwen3-235B的MoE配置
model_config = {
    "total_params": "235B",
    "activated_params": "22B",  # 约10%的激活率
    "experts": 128,
    "activated_experts": 8,     # 每次只激活8个专家
    "context_length": "128K"
}

这种设计带来的直接好处是：推理速度提升，成本降低。根据阿里云的数据，Qwen3-235B在仅使用10%激活参数的情况下，就能达到与Qwen2.5密集模型相似的性能。对于需要大规模部署的企业来说，这可不是个小数目。

"思考模式"与"非思考模式"：AI的"双模式驾驶"

Qwen3最让我眼前一亮的功能是它的双模式设计。这就像给你的AI装上了"手动挡"和"自动挡"：

思考模式：模型会像人类一样逐步推理，经过深思熟虑后给出答案。适合数学证明、代码调试、复杂逻辑分析等需要深度思考的任务。
非思考模式：快速响应，近乎即时。适合日常对话、简单问答、内容生成等对速度要求高的场景。

更妙的是，你可以在对话中动态切换模式：

# 多轮对话中的动态模式切换
chat_history = [
    {"role": "user", "content": "如何证明勾股定理？"},  # 默认启用思考模式
    {"role": "assistant", "content": "思考中...最终答案..."},
    {"role": "user", "content": "现在几点了？/no_think"},  # 切换到非思考模式
    {"role": "assistant", "content": "现在是下午3点"},
    {"role": "user", "content": "这个结论正确吗？/think"},  # 切换回思考模式
    {"role": "assistant", "content": "思考中...关于时间准确性的分析..."}
]

这种设计背后的哲学很明确：不是所有问题都需要深度思考。让AI在简单问题上"偷懒"，在复杂问题上"深思"，这才是真正的智能。

训练数据的"量变到质变"

Qwen3的训练数据规模让我印象深刻：约36万亿token，几乎是Qwen2.5（18万亿token）的两倍。但这不仅仅是数量的堆砌。

阿里云的团队在数据质量上下了不少功夫： 1. 多语言覆盖：支持119种语言和方言，从主流语言到小众方言都有涉猎 2. 专业领域增强：使用Qwen2.5-Math和Qwen2.5-Coder合成数学和代码数据 3. 文档处理：用Qwen2.5-VL从PDF中提取文本，再用Qwen2.5提升提取质量

训练过程分为三个阶段： 1. 基础训练：在30万亿token上预训练，上下文长度4K 2. 知识增强：增加STEM、编程、推理任务数据比例，额外训练5万亿token 3. 长上下文扩展：使用高质量长上下文数据将上下文长度扩展到32K

基准测试：硬碰硬的较量

虽然具体的基准测试数据需要查看技术报告，但从阿里云公布的信息来看，Qwen3-235B在多个关键领域都表现出了竞争力：

代码能力：在LiveCodeBench等编程基准上表现出色
数学推理：在AIME25等数学竞赛基准上有不错的表现
知识测评：在GQPA等知识测试中成绩亮眼
多语言能力：支持119种语言，这在开源模型中相当罕见

更值得注意的是，Qwen3的小尺寸模型也表现惊人。Qwen3-4B居然能匹敌Qwen2.5-72B-Instruct的性能，这让我不得不重新思考"大就是好"的固有观念。

工程化落地：不只是实验室玩具

作为一个工程师，我最关心的是：这玩意儿怎么用？阿里云给出了相当完整的答案：

推理框架支持： - SGLang（>=0.4.6.post1） - vLLM（>=0.8.4） - Ollama、LMStudio、MLX、llama.cpp、KTransformers

部署示例：

# 使用vLLM部署
vllm serve Qwen/Qwen3-30B-A3B --enable-reasoning --reasoning-parser deepseek_r1

# 使用Ollama本地运行
ollama run qwen3:30b-a3b

长上下文支持：Qwen3-2507版本已经支持256K上下文，甚至可以扩展到100万token。这对于处理长文档、代码库分析等任务来说，简直是福音。

Agent能力的"硬核升级"

Qwen3在Agent能力上的优化也值得一提。它加强了对MCP（Model Context Protocol）的支持，这意味着： - 更好的工具调用能力 - 更精确的环境交互 - 更复杂的多步骤任务处理

from qwen_agent.agents import Assistant

# 定义Agent配置
llm_cfg = {
    'model': 'Qwen3-30B-A3B',
    'model_server': 'http://localhost:8000/v1',
    'api_key': 'EMPTY'
}

# 定义工具集
tools = [
    {'mcpServers': {
        'time': {'command': 'uvx', 'args': ['mcp-server-time']},
        "fetch": {"command": "uvx", "args": ["mcp-server-fetch"]}
    }},
    'code_interpreter'  # 内置代码解释器
]

# 创建Agent
bot = Assistant(llm=llm_cfg, function_list=tools)

开源策略：Apache 2.0的底气

阿里云这次很大方，所有Qwen3模型都在Apache 2.0许可证下开源。这包括： - 6个密集模型：0.6B、1.7B、4B、8B、14B、32B - 2个MoE模型：30B-A3B、235B-A22B

这种开放程度在商业公司中并不多见。阿里云似乎在传递一个信号：我们不怕竞争，我们相信自己的技术实力。

技术挑战与未来展望

当然，Qwen3也不是完美的。MoE架构虽然节省推理成本，但训练复杂度更高。双模式设计虽然灵活，但也增加了模型调优的难度。多语言支持虽然广泛，但小语种的质量仍有提升空间。

从技术趋势来看，Qwen3的几个特点值得关注： 1. 混合架构：MoE + 密集模型的组合可能是未来的主流 2. 可配置推理：让用户控制"思考预算"是个聪明的设计 3. 长上下文优化：100万token的支持预示着新的应用场景

写在最后

Qwen3-235B的发布让我看到了中国大模型团队在技术创新上的决心。他们不再只是追赶，而是开始在某些领域引领。

但技术最终要落地。我建议开发者们实际体验一下Qwen3的双模式设计——感受一下在简单问题上"秒回"，在复杂问题上"深思"的体验。这种"智能分级"的设计理念，或许才是AI真正走向实用的关键。

你准备好用/think和/no_think来控制你的AI助手了吗？

关键字：Qwen3-235B, MoE架构, 思考模式, 大模型工程化, 多语言AI, 开源大模型, 推理优化, Agent能力, 长上下文, 阿里云

豆包，deepseek，通义千问，文心一言综合实力哪个最强？ - 知乎