8月21日,DeepSeek发布了新模型V3.1。这款模型采用了UE8M0 FP8 Scale的参数精度,并对分词器和聊天模板做了较大调整。官方表示,UE8M0 FP8是为即将推出的下一代国产芯片设计的。尽管业界期待已久的R2模型未现身,但V3.1带来了显著升级,包括更强的智能体能力、混合思考模式和更高的思考效率。通过后训练优化,V3.1在工具使用与智能体任务中的表现大幅提升。
DeepSeek-V3.1采用混合推理架构,支持思考模式和非思考模式自由切换。用户可在官方App和网页端体验这一功能,通过“深度思考”按钮实现模式转换。DeepSeek API也同步升级,上下文扩展至128K。有网友评价这种混合推理非常棒,能在深度思考和快速响应间灵活切换。此外,V3.1-Think在减少输出token数量的同时,保持了与前代模型相当的任务表现。然而,V3.1的价格有所上涨,API调用价格从9月6日起取消夜间优惠,输入和输出价格均上调。基础模型增加了840B tokens的外扩训练,并已在Huggingface与魔搭开源。DeepSeek还宣布支持Anthropic API格式,方便用户将V3.1的能力接入Claude Code框架。