T中

GPT革命｜DeepSeek发布新开源模型称仅用2048卡训练、能力与GPT-4o相当

文｜财新刘沛林

2024年12月27日 22:58

DeepSeek新模型训练成本仅为557.6万美元，较业界平均水平低了近一个数量级

原图资料图：DeepSeek 公司logo。

　　【财新网】开源模型还在不断进化。12月26日，国内私募机构幻方量化旗下的DeepSeek发布新一代开源大模型DeepSeek-v3，DeepSeek称该模型是目前最强的开源大模型，能力与闭源的GPT-4o相近，而训练仅需要2048张英伟达H800AI芯片。作为参考，OpenAI训练最新模型单集群算力规模超过万卡。

　　具体来看，DeepSeek此次发布的模型为MoE（混合专家架构）架构，即将任务分类后分配给不同的专家模型解决，参数量为6710亿，激活参数为370亿。

　　DeepSeek提供的评测结果显示，该模型在考察百科知识、代码、数学能力的多个评测集中得分超过阿里云Qwen2.5-72B和Meta的Llama-3.1-405B这两个最强的开源模型；在这些榜单中，DeepSeek-v3得分与OpenAI于2024年5月发布的GPT-4o，以及Anthropic于6月发布的Claude-3.5-Sonnet两个标杆闭源模型得分齐平。

责任编辑：屈运栩 | 版面编辑：李东昊

GPT革命｜DeepSeek发布新开源模型 称仅用2048卡训练、能力与GPT-4o相当

GPT革命｜DeepSeek发布新开源模型称仅用2048卡训练、能力与GPT-4o相当