DeepSeekV4中文能力测评结果发布：再度登顶国内榜首！

发布时间：2026-04-29 17:43:03

SuperCLUE团队公布了对DeepSeek V4系列中文大模型的测评结果，其中DeepSeek-V4-Pro以出色的综合表现登顶国内榜首，Flash版本也紧随其后位列第二，这标志着国产开源模型再次取得了重要突破。

本次测评涵盖数学推理、科学推理、代码生成、智能体任务规划、指令遵循、幻觉控制六大维度，Pro版本获得70.98分，Flash版本为68.82分，这两项成绩均显著领先于国内其他模型。

DeepSeek V4系列运用全新的注意力机制，所有版本都支持百万级的长上下文处理能力，并且能够减少算力和显存的占用量，与国产芯片配合使用时，整体运行效率会更高。

和上一代V3.2相比，这两个版本都取得了全方位的进步。其中Pro版本的智能体能力提升超过20分，数学推理能力提升了将近10分，指令遵循能力提升接近12分，在幻觉控制方面也有显著的优化。

Flash版本在确保高效推理的同时，智能体性能与数学推理能力均得到显著提升，性价比优势十分突出。

Pro版本定价为15元/百万Tokens，主打高性能表现，在幻觉控制方面更为稳定，适用于复杂任务处理及专业场景需求。Flash版本则具备更快的响应速度和更低的使用成本，其API价格仅需1.25元每百万Tokens，日常使用时性价比更高。

测评同时指出，模型在代码生成、复杂指令执行等方面与海外顶尖模型仍存在差距。从整体表现来看，DeepSeek V4依靠均衡的能力与亲民的成本，稳居国内第一梯队，成为日常办公、开发创作、长文本处理场景下的优质选择。