T中

GPT革命｜腾讯混元发布开源文生图模型采用Sora相同架构

文｜财新刘沛林

2024年05月14日 21:00

本次推出的文生图模型是腾讯第一款开源模型

原图资料图：腾讯混元大模型logo。图：视觉中国

　　【财新网】腾讯大模型团队发布首款开源模型。5月14日，腾讯混元大模型宣布推出15亿参数的开源文生图模型，该模型采用和OpenAI于2月发布的文生视频模型Sora相同的DiT架构。腾讯称，采用了该架构的文生图模型较前一代视觉生成在语义理解、画面质感和真实性等方面较大提升，整体效果提升20%。

　　DiT（Diffusion with Transformer）可以简单理解为将此前多用于文本的Transformer架构和多用于多模态的Diffusion架构相结合，可以实现更好的多模态理解能力，和更丰富的内容生成。今年2月OpenAI率先发布了采用该架构的文生视频模型Sora，可生成长达1分钟的视频，由于其效果惊艳在业界引爆了文生视频热潮，国内产业界也加快了将该架构用于多模态模型能力的探索。（详见《财新周刊｜Sora再进阶》）

责任编辑：屈运栩 | 版面编辑：李东昊

GPT革命｜腾讯混元发布开源文生图模型 采用Sora相同架构

GPT革命｜腾讯混元发布开源文生图模型采用Sora相同架构