欧洲杯体育因此保举设置仍为 80GB-Kaiyun网页版·「中国」开云官方网站 登录入口

栏目分类欧洲杯体育因此保举设置仍为 80GB-Kaiyun网页版·「中国」开云官方网站 登录入口

你的位置:Kaiyun网页版·「中国」开云官方网站 登录入口 > 新闻 >

欧洲杯体育因此保举设置仍为 80GB-Kaiyun网页版·「中国」开云官方网站 登录入口

发布日期:2025-09-02 04:12    点击次数:152

欧洲杯体育因此保举设置仍为 80GB-Kaiyun网页版·「中国」开云官方网站 登录入口

刚刚,鹅厂开源"自界说"视频生成模子 HunyuanCustom。

"自界说"主打的便是主体一致性,用一张图片就不错细则视频主角,其一致性评分达到了开源模子 SOTA,且可和闭源比好意思。

这么在构想教唆词时,就不错无用纠结主体特征形色了。

HunyuanCustom 一共相沿单主体参考、多主体参考、局部裁剪、脚色配音四大功能。

其中单主体参考已上线并开源,其余也将在本月内开源。

此外混元的期间东谈主员还在直播中走漏,团队正在和开源社区息争,将适配 AI 创作家常用的 ComfyUI。

期待通盘功能竣工上线的同期,不妨先来望望 demo 成果!

主体一致性达到 SOTA

先看仍是上线的单主体参考,咱们不错分红东谈主类和非东谈主类两个部分来看。

东谈主物部分,教唆词如下:

A woman takes a selfie in a busy city. A woman holds a smartphone in one hand and makes a peace sign with the other. The background is a bustling street scene with various signs and pedestrians.

参考译文:一位女士在郁闷的城市中自拍。她一手拿着智妙手机,一手比耶。配景是链接络续的街景,各种牌号和行东谈主链接络续。

不错看到,参考图中东谈主物的五官、发色、衣饰等特征,包括项链这么的细节,都得到了很好的保留。

还有这位男士,即使逾越吃早餐、搭乘地铁、使命、陪小狗散播等不同场景,东谈主物特征也能保捏不变。

除了东谈主,小动物的特征也不错保捏一致,比如底下这段视频当中,参考主体是小狗,正在公园当中追赶一只小猫(猫由模子解放生成)。

在后续,多主体参考功能也将上线并开源,先来看下两个主体都是东谈主的情况。

On the modern city streets, a man asks a woman for directions, but she doesn ’ t understand what he ’ s saying.

参考译文:在当代城市的街谈上,一个男东谈主向一个女东谈主问路,但她听不懂他在说什么。

画面当中,男性脚色所以侧脸方式呈现的,与像片中的角度彰着不同,但看上去很像团结个东谈主。

再看东谈主和非东谈主物体,这里有一只小企鹅。

A man is sitting in a spacious and bright living room, smiling and greeting a cute penguin. The penguin nods back at him in a friendly manner, as if responding to his greeting.

参考译文:开阔亮堂的客厅里,一位男士正含笑着与一只能人的企鹅打呼唤。企鹅也友好所在头暗示,仿佛在回复他的致意。

具体的进展,获胜看收尾:

在东谈主与非东谈主的多参考主体组合中,还有一种比较特殊的类型便是服装,特殊性主要体现时其交融进程相对其他物体更深。

A man wearing Hanfu walks across an ancient stone bridge holding an umbrella, raindrops tapping against it.

参考译文:又名身着汉服的须眉撑着伞走过一座迂腐的石桥,雨滴轻敲着桥面。

骨子场景当中,多主体参考功能在制作告白的任务当中尤其好用,混元团队还在论文当中特意展示了几组告白制作场景。

除了凭据现存主体生周到新的视频除外,HunyuanCustom 也不错对已有的视频进行局部裁剪。

举例在这个海底场景当中,Hunyuan 对其中的一条鱼进行了告捷替换。

在遮罩、原视频和主张对象被输入 HunyuanCustom 后,蓝本位置的懦夫鱼变成了一只金鱼。

此外 HunyuanCustom 还相沿音频启动,只需要上线一段音频和参考图,即可生成口型匹配的视频。

另外,如若莫得具体的朗诵文本,也不错让模子来合成,不外现时语音合成的声息如故有少许机械感。

混元团队先容,这一问题仍在完善过程当中。

A single person, in the dressing room. A woman is holding a lipstick, trying it on, and introducing it.

参考译文:试衣间里,一个东谈主。一位女士正拿着一支口红,正在边试用边先容。

测评数据方面,在单主体视频定制任务中,作家将 HunyuanCustom 与现存的视频定制要津进行了比较,包括开源模子开源模子如 Skyreels-A2 和 VACE,也包括一些有名的贸易模子。

收尾,HunyuanCustom 在身份一致性(Face-Sim)和主体雷同性(DINO-Sim)两个主张上达到了最好进展,鉴识为 0.627 和 0.593,越过了通盘 baseline 要津。

关于其他功能,期间分解中也展示了一些定性比较:

设置方面,现时 HunyuanCustom 相沿 720P 画质,如若自行部署,需要相沿 CUDA 的英伟达 GPU。

GitHub 模样页中先容,用 HunyuanCustom 生成 720P 视频,最少需要 24GB 显存,但速率会很慢,因此保举设置仍为 80GB。

那么,HunyuanCustom 究竟是何如完了的呢?

一个结构完了多种智商

HunyuanCustom 以文生视频模子 HunyuanVideo 为基础,并鉴识针对不同的任务类型配备了相应的模块。

先看图像启动的生成任务(单 / 多主体参考),这一部分的两个中枢,鉴识是 LLaVA 文本 - 图像交互模块和身份增强模块。

LLaVA 文本 - 图像交互模块的目的是增强模子对输入图像所表露身份信息的相识,并将其与文本形色进行有用交融。

具体而言,给定文本输入、图像输入以及图像在文本中对应的形色词,该模块策动了两种交融模板:

图像镶嵌模板:将文本形色中的图像形色词替换为特殊的图像 token。举例,关于文本教唆" A man is playing guitar ",如若输入的是" man "的身份图像,则处分后的模板为" A    is playing guitar ";

图像附加模板:在文本形色之后添加一个身份教唆,举例" A man is playing guitar. The man looks like    "。

处分后,会被替换为 LLaVA 索要的 24 × 24 的图像隐蔽特征。

尽管 LLaVA 模块大约捕捉文本和图像之间的高层语义关联,但它主要原宥类别、热诚和形势等高档特征,却没关连注到文本、纹理等密致的图像细节,而这些细节关于保捏身份一致性至关进击。

为了进一步增强生成视频的身份一致性,HunyuanCustom 策动了身份增强模块。

其中枢是将表露身份的图像特征流畅到视频的每一帧上,诈骗视频生成模子在时分维度上的建模智商,使身份信息在生成视频的各个帧之间得到有用传播和增强。

具体来说,HunyuanCustom 先将输入图像通过预历练的 3D-VAE 编码器映射到潜空间,得到图像潜码,然后将其与视频潜码在序列维度上进行流畅,酿成新的潜码表露。

极度地,在多身份视频定制任务中,HunyuanCustom 将王老五骗子份定制模子当作基础,并进行了相应的推广——

给定多个身份图像和对应的文本形色,HunyuanCustom 率先对每个图像 - 文本对进行 LLaVA 交互建模,然后将通盘图像编码为潜空间表露,并与视频潜码进行流畅。

再看音频启动(脚色配音)部分,HunyuanCustom 在这一模块中使用的是身份解耦的 AudioNet 模块,目的是确保音频条目的引入不会侵略到东谈主物身份的一致性。

具体而言,给定一个长度音频 - 视频序列,AudioNet 率先对每一帧音频进行特征索要,得到一个特征张量。

由于视频潜码在时分维度上经过了压缩,因此还需要对音频特征进行相应的时分对皆,最终得到一个与视频潜码在时分维度上十足对皆的音频特征张量。

之后,AudioNet 通过一个交叉提防力模块将音频信息注入到视频潜码中。为幸免不同帧之间音频和视频信息的互关连扰,AudioNet 取舍了逐帧的空间交叉提防力机制。

终末是视频启动(局部裁剪),这部分取舍了视频条目注入计策。

HunyuanCustom 率先使用预历练的 3D-VAE 将输入的源视频编码到潜空间,得到压缩后的视频特征表露。

接下来,HunyuanCustom 通过一个特征对皆麇集将压缩后的视频特征映射到与视频潜码相通的特征空间中,使其与视频潜码在时空维度上十足对皆。

在对皆视频条目特征和视频潜码后,HunyuanCustom 探索了两种不同的条目注入方式 :

特征拼接:将对皆后的视频条目特征与视频潜码在特征维度上进行拼接,然后通过一个线性变换层将拼接后的特征从头投影回原始的潜码空间;

特征相通:获胜将对皆后的视频条目特征逐帧相通到视频潜码上,保捏特征的维度不变。

执行收尾标明,特征拼接的方式容易导致视频内容信息的丢成仇压缩,生成的视频质地和连贯性较差。

比较之下,特征相通的方式大约更好地保留视频条目中的时空信息,并与视频潜码进行无缝交融。

为了进一步擢升模子的泛化智商和鲁棒性,HunyuanCustom 在历练时取舍了一系列数据增强计策。

举例,通过当场扰动掩码界限、将掩码漂流为界限框等方式,加多了掩码的各种性和不细则性,使得模子大约更好地适宜不同形势和大小的裁剪对象。

此外,HunyuanCustom 还通过数据网罗筛选和一系列质地算子,赢得了高质地的历练样本。

另外皮历练过程中,混元团队还取舍了 Flow Matching 框架来优化视频生成模子。

该框架通过最小化模子料想的视频潜码演化速率与真确速率之间的均方罪责,来学习视频的时分动态。

具体而言,给定一个视频片断的肇始潜码和收尾潜码,以及表露身份的参考图像,模子学习料想视频潜码在不同期间步上的演化标的和速率,并以最小化速率重建罪举止主张进行优化。

除了 Flow Matching 亏欠外,HunyuanCustom 还引入了援救亏欠函数,以完了多任务学习和模块间的协同优化。

通过统一优化亏欠函数,不同模块间树立起了有用的敛迹和协同,最终使生成视频在多个方面达到更好的均衡和进展。

在推理阶段,HunyuanCustom 率先通过对应的特征索要器,将这些多模态输入漂流为适宜跨模态交互的特征表露。

然后,这些特征表露按照预定的过程,凭据骨子任务情况匹配对应的模块,与生成视频的中间特征进行迟缓交融。

客岁 12 月,混元文生视频功能厚爱上线;本年 3 月,混元团队又推出了图生视频,两项功能都是发布即开源。

那么,你觉得混元的视频生成,还有此次新增的"自界说"功能适宜你的期待吗?宽待评述区交流。

模样主页:

https://hunyuancustom.github.io/

GitHub:

https://github.com/Tencent/HunyuanCustom

Hugging Face:

https://huggingface.co/tencent/HunyuanCustom

论文地址:

https://arxiv.org/abs/2505.04512

—  完  —

� �  量子位 AI 主题策划正在征聚积!宽待参与专题365 行 AI 落地决议,一千零一个 AI 应用,或与咱们共享你在寻找的 AI 居品,或发现的AI 新动向。

� � 也宽待你加入量子位逐日 AI 交流群,一齐来畅聊 AI 吧~

一键原宥 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「防卫心」

宽待在评述区留住你的想法!欧洲杯体育