国产大模型正紧追OpenAI的GPT系列。1月20日,DeepSeek发布了DeepSeek-R1,并开源了模型权重。该模型在后训练阶段广泛采用强化学习技术,在少量标注数据下显著提升了推理能力,性能媲美OpenAI o1正式版。测试数据显示,DeepSeek-R1在美国AIME 2024、MATH-500和SWE-bench Verified等数学和软件问题测试中得分均超过OpenAI o1。
同一天,Kimi推出了k1.5多模态思考模型,在long-CoT模式下的数学、代码和多模态推理能力达到OpenAI o1水平,这是非OpenAI公司首次实现这一性能。而在short-CoT模式下,k1.5在多项任务上大幅超越GPT-4o和Claude 3.5 Sonnet。此外,MiniMax于1月15日发布的Minimax-01也在多个基准测试中表现出色,特别是在长上下文处理方面。
国产大模型不仅性能出色,价格也更具竞争力。例如,DeepSeek-R1 API服务每百万输入tokens收费1元至4元,每百万输出tokens 16元,远低于GPT-o1的110元和438元。随着国内外大模型快速迭代,算力需求激增。字节跳动计划在安徽芜湖建设火山引擎长三角算力中心,总投资80亿元。小米也在搭建GPU集群并投资AI大模型。东莞证券、上海证券和东方证券均认为,这些动作将推动国产算力产业链的发展,为服务器、存储和光模块等企业提供更多机会。