百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

这个“1句话生成视频”AI爆火:支持中文输入,分辨率达到480×480

myzbx 2024-12-29 04:39 13 浏览

萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

一周不到,AI画师又“进阶”了,还是一个大跨步——

直接1句话生成视频的那种。

输入“一个下午在海滩上奔跑的女人”,立刻就蹦出一个4秒32帧的小片段:

又或是输入“一颗燃烧的心”,就能看见一只被火焰包裹的心:

这个最新的文本-视频生成AI,是清华&智源研究院出品的模型CogVideo

Demo刚放到网上就火了起来,有网友已经急着要论文了:

CogVideo“一脉相承”于文本-图像生成模型CogView2,这个系列的AI模型只支持中文输入,外国朋友们想玩还得借助谷歌翻译:

看完视频的网友直呼“这进展也太快了,要知道文本-图像生成模型DALL-E2和Imagen才刚出”

还有网友想象:照这个速度发展下去,马上就能看到AI一句话生成VR头显里的3D视频效果了:

所以,这只名叫CogVideo的AI模型究竟是什么来头?

生成低帧视频后再插帧

团队表示,CogVideo应该是当前最大的、也是首个开源的文本生成视频模型。

在设计模型上,模型一共有90亿参数,基于预训练文本-图像模型CogView2打造,一共分为两个模块。

第一部分先基于CogView2,通过文本生成几帧图像,这时候合成视频的帧率还很低;

第二部分则会基于双向注意力模型对生成的几帧图像进行插帧,来生成帧率更高的完整视频。

在训练上,CogVideo一共用了540万个文本-视频对。

这里不仅仅是直接将文本和视频匹配起来“塞”给AI,而是需要先将视频拆分成几个帧,并额外给每帧图像添加一个帧标记。

这样就避免了AI看见一句话,直接给你生成几张一模一样的视频帧。

其中,每个训练的视频原本是160×160分辨率,被CogView2上采样(放大图像)至480×480分辨率,因此最后生成的也是480×480分辨率的视频。

至于AI插帧的部分,设计的双向通道注意力模块则是为了让AI理解前后帧的语义。

最后,生成的视频就是比较丝滑的效果了,输出的4秒视频帧数在32张左右。

在人类评估中得分最高

这篇论文同时用数据测试和人类打分两种方法,对模型进行了评估。

研究人员首先将CogVideo在UCF-101和Kinetics-600两个人类动作视频数据集上进行了测试。

其中,FVD(Fréchet视频距离)用于评估视频整体生成的质量,数值越低越好;IS(Inception score)主要从清晰度和生成多样性两方面来评估生成图像质量,数值越高越好。

整体来看,CogVideo生成的视频质量处于中等水平。

但从人类偏好度来看,CogVideo生成的视频效果就比其他模型要高出不少,甚至在当前最好的几个生成模型之中,取得了最高的分数:

具体来说,研究人员会给志愿者一份打分表,让他们根据视频生成的效果,对几个模型生成的视频进行随机评估,最后判断综合得分:

CogVideo的共同一作洪文逸和丁铭,以及二作郑问迪,三作Xinghan Liu都来自清华大学计算机系。

此前,洪文逸、丁铭和郑问迪也是CogView的作者。

论文的指导老师唐杰,清华大学计算机系教授,智源研究院学术副院长,主要研究方向是AI、数据挖掘、机器学习和知识图谱等。

对于CogVideo,有网友表示仍然有些地方值得探究,例如DALL-E2和Imagen都有一些不同寻常的提示词来证明它们是从0生成的,但CogVideo的效果更像是从数据集中“拼凑”起来的:

例如,狮子直接“用手”喝水的视频,就不太符合我们的常规认知(虽然很搞笑)

(是不是有点像给鸟加上两只手的魔性表情包)

但也有网友指出,这篇论文给语言模型提供了一些新思路:

用视频训练可能会进一步释放语言模型的潜力。因为它不仅有大量的数据,还隐含了一些用文本比较难体现的常识和逻辑。

目前CogVideo的代码还在施工中,感兴趣的小伙伴可以去蹲一波了~

项目&论文地址:
https://github.com/THUDM/CogVideo

参考链接:
[1]https://twitter.com/ak92501/status/1531017163284393987
[2]https://news.ycombinator.com/item?id=31561845
[3]https://www.youtube.com/watch?v=P7JRvwfHFwo
[4]https://agc.platform.baai.ac.cn/CogView/index.html
[5]https://www.reddit.com/r/MediaSynthesis/comments/v0kqu8/cogvideo_largescale_pretraining_for_texttovideo/

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

相关推荐

一键生成高颜值图表!让你的文字瞬间有画面感,职场人必备!

哈喽,打工人们!忙碌的周中,大熊又来给你们带来一个超实用的效率神器啦!这次的宝藏网站绝对是那种用过就离不开的"真香"型产品!假设你明天就要做重要汇报,可面对一大堆密密麻麻的文字材料,你...

批量将 Word 转换为 PDF/Excel/Txt/图片等多种格式

Word文档是我们工作中经常会打交道的一种文档格式,我们也经常会有需要对Word文档进行格式转换的需求,比如将Word格式转换为PDF、将Word文档转换为Excel、将Word...

绝了!一键用AI生成高颜值动态PPT(附详细步骤+Prompt)

大家好,我是一名酷爱研究AI的产品经理,最近我有个新发现:那些花了你3天做出来的PPT,现在用AI可以1小时搞定!而且颜值还高!为什么AI做PPT比传统方式效率高10倍?我用一张图就能告诉你:AI生成...

ztext - 简单几行代码创建酷炫3D特效文字的开源JS库

把网页上的文字变成酷炫的3D风格,还能制作旋转动效,有了ztext.js,只需要几行代码。ztext能做什么ztext.js是一个能把常规的平面文字变成3D样式的前端开源代码库,让开发者...

文字内插入小图片,也太可爱了吧(文字中怎么插图片)

图文排版H5手机版秀米有小伙伴留言问添加图片的时候可不可以把图片添加到文字之间比如下面这句话中的小贴纸图片后面可以接着输入文字其实吧这就是咱们的『文字内插入小图片』功能嘛可以用来在文字内加个表情包又...

Linux环境下C++代码性能分析方法(linux怎么写c++代码)

技术背景在开发C++应用程序时,找出代码中运行缓慢的部分是进行性能优化的关键。在Linux系统上,有多种工具和方法可用于对C++代码进行性能分析,每种方法都有其特点和适用场景。实现步骤手动中断调试法在...

SVG互动图文,让你的文章更有趣!教你4种简单易学的黑科技玩法!

如果你是一个公众号创作者,那么你一定想知道如何让你的文章更加吸引人,更加有趣,更加有创意。你可能已经尝试过各种图文排版技巧,但是你是否知道,有一种黑科技可以让你的文章变得更加酷炫,更加互动,更加爆款?...

Videoscribe怎么实现实心中文汉字的手绘制作

很多朋友在制作手绘视频的时候,不知道怎么输入实心的中文汉字,之前我们已经给大家分享了怎么输入汉字的方法,但是有一点遗憾的是输出的汉字是空心的手绘展示,在视觉上并不是非常的美观。经过大家不断的探索,终于...

一款用于将文本转化成图表的现代化脚本语言

大家好,又见面了,我是GitHub精选君!今天要给大家推荐一个GitHub开源项目terrastruct/d2,该项目在GitHub有超过10.3kStar,用一句话介绍该项目就是:...

探秘 Web 水印技术(制作水印网站)

作者:fransli,腾讯PCG前端开发工程师Web水印技术在信息安全和版权保护等领域有着广泛的应用,对防止信息泄露或知识产品被侵犯有重要意义。水印根据可见性可分为可见水印和不可见水印(盲水印)...

不忍心卸载的五款神仙工具(不忍心卸载的五款神仙工具是什么)

001.效率工具uTools-装机必备的生产力工具集uTools是一款非常强大的可以装下几乎所有效率工具的电脑生产力工具集,目前拥有Windows、Mac和Linux三个版本。软件界面...

「SVG」飞花令!这份最高检工作报告“超有料”

原标题:【SVG】飞花令!这份最高检工作报告“超有料”栏目主编:秦红文字编辑:沈佳灵来源:作者:最高人民检察院...

svg|2025政府工作报告,有没有你关心的数据?

··<setattributeName="visibility"begin="click+0s"dur="1ms"fill="freeze"restart="never"to="hi...

videoscribe只能输入英文,如何输入中文文本?

videoscribe只能输入英文,如何输入中文文本?打开VideoScribe软件,打开要添加中文字体的位置。打开Photoshop并在文件中创建一个新的透明背景图层。注意:必须是透明背景层。...

五个流行的SVG在线编辑器(svg编辑工具)

随着响应网络的发展,越来越多的高质量的SVG在线编辑器被公众所熟知。SVG矢量图形也越来越受欢迎,以便在任何设备上呈现图像,甚至一些易于使用的SVG在线编辑器,可以替代PS,本文总结了五种流行的SVG...