财新传媒
财新传媒
1111111
财新通行证
T中

GPT革命|DeepSeek发布新开源模型 称仅用2048卡训练、能力与GPT-4o相当

文|财新 刘沛林
2024年12月27日 22:58
DeepSeek新模型训练成本仅为557.6万美元,较业界平均水平低了近一个数量级
news 原图 资料图:DeepSeek 公司logo。

  【财新网】开源模型还在不断进化。12月26日,国内私募机构幻方量化旗下的DeepSeek发布新一代开源大模型DeepSeek-v3,DeepSeek称该模型是目前最强的开源大模型,能力与闭源的GPT-4o相近,而训练仅需要2048张英伟达H800AI芯片。作为参考,OpenAI训练最新模型单集群算力规模超过万卡。

  具体来看,DeepSeek此次发布的模型为MoE(混合专家架构)架构,即将任务分类后分配给不同的专家模型解决,参数量为6710亿,激活参数为370亿。

  DeepSeek提供的评测结果显示,该模型在考察百科知识、代码、数学能力的多个评测集中得分超过阿里云Qwen2.5-72B和Meta的Llama-3.1-405B这两个最强的开源模型;在这些榜单中,DeepSeek-v3得分与OpenAI于2024年5月发布的GPT-4o,以及Anthropic于6月发布的Claude-3.5-Sonnet两个标杆闭源模型得分齐平。

责任编辑:屈运栩 | 版面编辑:李东昊

财新网所刊载内容之知识产权为财新传媒及/或相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。

如有意愿转载,请发邮件至hello@caixin.com,获得书面确认及授权后,方可转载。

推荐阅读
财新移动
说说你的看法...
分享
取消
发送
注册
 分享成功

订阅财新网主编精选版电邮>>