财新传媒
财新传媒
1111111
财新通行证
T中

GPT革命|腾讯混元发布开源文生图模型 采用Sora相同架构

文|财新 刘沛林
2024年05月14日 21:00
本次推出的文生图模型是腾讯第一款开源模型
news 原图 资料图:腾讯混元大模型logo。图:视觉中国

  【财新网】腾讯大模型团队发布首款开源模型。5月14日,腾讯混元大模型宣布推出15亿参数的开源文生图模型,该模型采用和OpenAI于2月发布的文生视频模型Sora相同的DiT架构。腾讯称,采用了该架构的文生图模型较前一代视觉生成在语义理解、画面质感和真实性等方面较大提升,整体效果提升20%。

  DiT(Diffusion with Transformer)可以简单理解为将此前多用于文本的Transformer架构和多用于多模态的Diffusion架构相结合,可以实现更好的多模态理解能力,和更丰富的内容生成。今年2月OpenAI率先发布了采用该架构的文生视频模型Sora,可生成长达1分钟的视频,由于其效果惊艳在业界引爆了文生视频热潮,国内产业界也加快了将该架构用于多模态模型能力的探索。(详见《财新周刊|Sora再进阶》)

责任编辑:屈运栩 | 版面编辑:李东昊

财新网所刊载内容之知识产权为财新传媒及/或相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。

如有意愿转载,请发邮件至hello@caixin.com,获得书面确认及授权后,方可转载。

推荐阅读
财新移动
说说你的看法...
分享
取消
发送
注册
 分享成功

订阅财新网主编精选版电邮>>