DeepSeekV4中文能力测评结果发布:再度登顶国内榜首!
SuperCLUE团队公布了对DeepSeek V4系列中文大模型的测评结果,其中DeepSeek-V4-Pro以出色的综合表现登顶国内榜首,Flash版本也紧随其后位列第二,这标志着国产开源模型再次取得了重要突破。
本次测评涵盖数学推理、科学推理、代码生成、智能体任务规划、指令遵循、幻觉控制六大维度,Pro版本获得70.98分,Flash版本为68.82分,这两项成绩均显著领先于国内其他模型。

DeepSeek V4系列运用全新的注意力机制,所有版本都支持百万级的长上下文处理能力,并且能够减少算力和显存的占用量,与国产芯片配合使用时,整体运行效率会更高。
和上一代V3.2相比,这两个版本都取得了全方位的进步。其中Pro版本的智能体能力提升超过20分,数学推理能力提升了将近10分,指令遵循能力提升接近12分,在幻觉控制方面也有显著的优化。

Flash版本在确保高效推理的同时,智能体性能与数学推理能力均得到显著提升,性价比优势十分突出。

Pro版本定价为15元/百万Tokens,主打高性能表现,在幻觉控制方面更为稳定,适用于复杂任务处理及专业场景需求。Flash版本则具备更快的响应速度和更低的使用成本,其API价格仅需1.25元每百万Tokens,日常使用时性价比更高。
测评同时指出,模型在代码生成、复杂指令执行等方面与海外顶尖模型仍存在差距。从整体表现来看,DeepSeek V4依靠均衡的能力与亲民的成本,稳居国内第一梯队,成为日常办公、开发创作、长文本处理场景下的优质选择。
