3月24日晚,DeepSeek发布了更新版的DeepSeek-V3模型,版本号为DeepSeek-V3-0324,参数增至6850亿,比初代V3的6710亿略有提升。新模型尚未公开系统卡。
DeepSeek坚持开源理念,新版模型采用与DeepSeek-R1相同的MIT协议,允许更多商用和模型蒸馏,给予开发者更大自由度。性能方面,编程能力显著优化,尤其在前端代码生成上表现突出。网友测试显示,新版DeepSeek-V3在网站开发和UI设计方面表现出色,只需简单提示就能快速生成高质量页面,审美水平接近全球顶尖闭源模型Claude 3.7 Sonnet。此前,《科创板日报》报道过初代DeepSeek-V3因性价比高而备受关注,在多项基准测试中超越Qwen2.5-72 B和Llama-3.1-405 B等开源模型,与GPT-4o和Claude-3.5-Sonnet并驾齐驱。
幻方量化在论文中指出,通过算法、框架和硬件优化,DeepSeek-V3训练成本极低,假设H800GPU租用价为每块2美元/小时,总训练成本仅557.6万美元。API服务定价调整为每百万输入tokens 0.5元(缓存命中)/2元(未命中),每百万输出tokens 8元,总计10元人民币。相比之下,OpenAI的GPT 4o定价高昂,输入5美元/百万Token,输出15美元/百万Token,总计约140元人民币。