腾讯开源视频生成模型HunyuanVideo1.5,8.3B参数打造高质量画面

内容分享2周前发布
0 0 0

目前这套系统能在普通消费级显卡上跑起来,画面能到1080p,动作连贯,文字也能写得规矩。说白了,腾讯混元把一款参数不到十亿的轻量级视频生成模型开源了,名字叫 HunyuanVideo 1.5。能在只有14G显存的显卡上本地推理,这点对爱折腾的人来说挺实用。

腾讯开源视频生成模型HunyuanVideo1.5,8.3B参数打造高质量画面

先说效果和对比:在文字到视频任务上,它在结构稳定性这一项拿到79.75分,这个指标把同类开源模型抛在后面不少。指令跟随能力得分61.57,也比一些竞品高出一截。图像生成视频任务里,视觉质量能和闭源的Veo 3、Seedance Pro掰手腕,人工评估里用户偏好数据也向它倾斜。简单讲,就是开源阵营里表现抢眼,和一些商用产品相比也不落下风。老实说,这种差距缩得这么快,挺惊讶的。

功能上有几块比较关键的点。它能读懂中文和英文提示词,能把复杂的角色动作、情绪变化转换成连贯的视频动作。在把静态图生成成视频的时候,模型会尽量保持原图的光影和色调,人物长相也会保持一致,新加入的元素和整体风格也能融合得自然。这个对想做图像到视频传承效果的场景很重大。

腾讯开源视频生成模型HunyuanVideo1.5,8.3B参数打造高质量画面

运动细节上下了功夫:模型用了稀疏注意力这种思路,把计算资源聚焦在运动的物体和关键场景上,静止的背景基本被弱化。这样能在保持物理规律感上做得更稳——列如玻璃碎片自然下落、水面波纹、人物大幅快速动作这些场景,动作连贯性和形体稳定性比较好,不容易出现拉伸或畸变的怪像。挺接地气的改法,省计算又能看起来更真实。

还有镜头和画质方面的处理。训练用的是多阶段渐进式的策略,成片看起来有必定的电影感。支持一些常见的运镜手法,列如推拉、跟拍等。输出上配了超分模块,能把画面智能放大修复到1080p,填补瑕疵、增强细节,这对希望出片质量不太牺牲的人挺友善。

腾讯开源视频生成模型HunyuanVideo1.5,8.3B参数打造高质量画面

技术实现里有几处突破值得讲清楚。整体架构基于一种叫 Diffusion Transformer(DiT)的思路,参数量定在8.3B。为了压缩空间和时间信息,配了一个3D因果VAE做编码解码,能在空间上实现16倍压缩、时间上做4倍压缩,算力和存储的压力都下降不少。与此同时,引入了一个称为SSTA的机制,中文可以理解为选择性滑动分块注意力,通过动态裁剪那些冗余的时空块来降低计算开销。简单说,就是不浪费计算在不重大的地方,资源聚焦到关键帧和运动主体上。

文字生成曾是视频生成里的一个硬伤。HunyuanVideo 1.5在这块也下了工夫:用byT5对OCR里的文本做独立编码,能把印刷体、手写体、特效文字都生成出来,位置合适、笔迹工整。这对需要视频里出现标牌、字幕或者书法效果的场景很实用。别小看这点,许多模型在“写字”上总是退步,弄丢字或者歪掉会显得很业余。

腾讯开源视频生成模型HunyuanVideo1.5,8.3B参数打造高质量画面

风格支持上,系统不局限单一方向,能生成写实、动画、赛博朋克、科幻等多种风格。用户通过提示词能比较灵活地控制输出效果。文生、图生两条线都在做优化,实际效果也较为平衡。开发团队在评估里把它和开源、闭源的几款主流模型做了对比测试,从主观评估到客观指标都有所呈现,整体倾向正向。

关于文本理解部分,模型采用了多模态的大语言模型做编码器,这能让它更精准地把自然语言提示转成可操作的生成信号。对复杂的动作说明、细腻情绪的捕捉都有加分。这里的关键是文本到视觉的语义对齐做得比较细,特别是在多语言场景下中英提示都能被合理解析。

腾讯开源视频生成模型HunyuanVideo1.5,8.3B参数打造高质量画面

再说训练和推理效率的细节。设计里思考了在消费级硬件上的落地,算法层面用稀疏注意力、选择性分块来节约计算,再加上压缩好的编码器,整体推理速度和内存占用都往实用性靠拢。换句话说,不必一堆专业服务器,普通有点折腾精神的创作者也能在本地跑出可用结果。这方面对开源生态来说是利好。

要注意的一些实际问题:虽然支持1080p输出,但高分辨率下细节修复和连贯性依旧需要看具体提示、场景复杂度以及模型的采样设置。文案提示越精细,模型表现越稳;复杂动态场景里可能还会出现小概率的细节瑕疵。总的来看,它把“可用性”这件事放在了比较前面,这个方向挺务实。

腾讯开源视频生成模型HunyuanVideo1.5,8.3B参数打造高质量画面

项目的源代码和更多信息放在了公开页面和 Github 上,想看的人可以直接去官网和仓库浏览。官网是
hunyuan.tencent.com/video/zh,代码库在
github.com/Tencent-Hunyuan/HunyuanVideo-1.5。想试的读者可以直接下代码和模型权重,自行跑通本地流程。

回顾一下发布到目前的发展顺序:先是把模型压缩到8.3B并适配了3D因果VAE,解决了时空压缩问题;随后在注意力机制上做稀疏化和选择性分块,降低了推理成本;接着把文本编码用多模态大语言模型和byT5结合,解决了复杂提示和视频写字的问题;最后通过多阶段训练把画面美学和超分能力推上去。每一步都是为了两个目标:一是让输出更稳,二是让硬件门槛更低。有人会觉得这套路老,实用主义者会觉得这步步稳扎稳打挺靠谱。

腾讯开源视频生成模型HunyuanVideo1.5,8.3B参数打造高质量画面

如果你关注开源视频生成或者想在本地做教学、实验、短片制作,这个项目值得关注。代码和模型都已经开放,门槛也低,不用大机房就能玩出点东西。别忘了,开源之后社区会有更多补丁、提示词库和示例出现,后续空间还挺大的。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...