新闻中心
Kaleido— 智谱AI开源的多主体视频生成框架
Kaleido 是什么
kaleido 是智谱ai推出的开源多智能体视频生成框架,专注于攻克多主体视频生成中的核心挑战——主体身份一致性与背景信息解耦。该框架依托自主研发的数据构造流程及 r-rope(reference rotary positional encoding)机制,精准剥离主体特征与场景背景,在多人物、多物体共存的复杂动态画面中稳定保留各主体的视觉辨识度。目前,kaleido 在多项多主体视频生成基准测试中刷新 sota 表现,为学术界与工业界提供了一个高性能、可复现、完全开源的视频生成技术底座,显著降低高质量多主体内容创作门槛。
DeepBrain
AI视频生成工具,ChatGPT +生成式视频AI =你可以制作伟大的视频!
146
查看详情
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
Kaleido 的核心能力
- 多主体身份稳定生成:支持在连续帧中精准维持多个独立主体(如不同人物、道具或动物)的外观、姿态与风格一致性,即使在密集交互、遮挡频繁或视角剧烈变化的场景下,仍能保障各主体特征不混淆、不变形。
- 背景无关化建模:通过结构化建模策略主动抑制参考图像中背景元素对生成过程的干扰,使主体可自由迁移至任意新背景中,大幅提升生成结果的可控性与泛化能力。
- 高保真动态输出:融合精细化数据预处理、分阶段训练调度与时空一致性正则,产出细节丰富、运动自然、时序连贯的高清视频,满足*级内容生产需求。
- 多模态条件协同控制:兼容多张主体参考图 + 自然语言描述的联合输入方式,赋予创作者更强的语义引导能力与组合创意自由度。
Kaleido 的核心技术机制
- 跨实例数据合成管线:构建了一套面向多主体解耦的端到端数据工程体系。该管线通过主体-背景跨样本重组(例如将A人物置于B场景)、背景语义修复、主体掩码精标、多尺度质量筛选等步骤,强制模型学习“仅关注主体本质特征”的表示范式,从根本上缓解训练数据中的背景耦合偏差。
- R-RoPE(Reference Rotary Positional Encoding)机制:针对多参考图像引发的 Token 混淆问题,Kaleido 设计了具备空间位移特性的旋转位置编码方案。为每张参考图像分配专属 RoPE 偏置,使其 Token 在扩散 Transformer 的时空嵌入空间中占据唯一坐标,从而在注意力层显式区分“谁是参考主体”、“谁是待生成帧”,大幅增强多主体时空定位精度。
- 轻量高效条件融合架构:基于 Diffusion Transformer 主干,采用序列拼接式条件注入策略——将多张参考图编码后的 Token 序列与视频噪声 Token 序列沿时间维度直接拼接,并辅以 R-RoPE 进行结构化标识,实现低开销、高鲁棒的多源条件融合。
Kaleido 的官方资源入口
-
项目主页:htt
ps://www.php.cn/link/9e334886ffd1815f6e50841119fb3065 - GitHub 代码库:https://www.php.cn/link/fcc3d4757401a955a260255ff217a10d
- HuggingFace 模型页:https://www.php.cn/link/1a1b083d532028fdb17114d3776635b4
- arXiv 论文原文:https://www.php.cn/link/6a6b9ab46b610b6bf661a9c766f195eb
Kaleido 的典型应用方向
- 动画工业化生产:依据角色多角度参考图,批量生成符合设定的动作片段,加速原画→中间帧→成片的制作链路。
- 品牌营销视频生成:快速组合多个产品、代言人及场景要素,生成适配不同投放渠道的定制化广告短片。
- 沉浸式电商体验:驱动用户上传照片与商品图,实时生成其虚拟试穿/试戴全过程视频,提升转化率与参与感。
- AI 虚拟人内容生态:为数字人主播、游戏 NPC 或社交机器人生成表情自然、肢体协调、响应及时的互动短视频流。
- 交互式教学资源开发:构建涵盖教师讲解、学生操作、仪器反馈等多主体协同的教学演示视频,强化知识传递的具象性与代入感。
以上就是Kaleido— 智谱AI开源的多主体视频生成框架的详细内容,更多请关注其它相关文章!
# 体视
# 沙溪网站优化
# 江都seo搜索优化
# 西昌网站包年推广
# 长沙广告营销推广
# 抖音seo公司怎么赚钱
# 岳阳柳州网站推广
# 游戏网站推广是做那个的
# 租车类网站推广
# 濮阳网站建设专家团队
# 品牌优化seo工具
# 你可以
# 自然语言
# git
# 安装包
# 结构化
# 多张
# 一键
# 谁是
# 多个
# 开源
# 短视频
# pdf
# ai
# 编码
# github
相关栏目:
【
科技资讯46185 】
【
网络学院92790 】
相关推荐:
J*aScript异步迭代器_j*ascript异步遍历
Go语言中动态执行代码字符串的策略与实践
Yandex免登录网页版地址 Yandex搜索引擎官方访问入口
期待已久:小米17 Ultra、小米首款NAS本月登场
企业名称高精度匹配:N-gram方法在结构相似性分析中的应用
C++如何比较两个字符串_C++ string compare函数与操作符对比
React Router 嵌套组件中 URL 重定向问题的解决方案
QQ网页版官方账号入口 QQ网页版网页版登录指南
汽水音乐车机版横屏版7.1 汽水音乐车机版横屏版下载入口
QQ邮箱登录首页官网地址2026 QQ邮箱官方网页入口
58动漫网在线官方网 58动漫网正版动漫入口网址
CKEditor 5 自定义构建在React应用中渲染失败的调试与解决
微博网页版怎么开启两步验证_微博网页版账号安全两步验证设置方法
手机屏幕碎了但能正常使用怎么办 手机外屏碎裂的修复建议
《燕云十六声》两周内达九百万玩家!位居畅销榜第五
俄罗斯方块最新版入口 俄罗斯方块在线玩官网入口
微信网页版官方快速登录入口 微信网页版网页版账号直达
如何在网页中实现特定地点的随机图片展示
今日头条怎么同步内容到抖音_今日头条内容同步到抖音教程
菜鸟取件码是什么怎么查 最全查询渠道汇总
c++中为什么推荐使用using替代typedef_c++现代化类型别名
天眼查怎么看公司融资情况 天眼查企业融资历史查询步骤【攻略】
微博网页版主页入口 微博官方网站免登录访问
c++如何实现单例设计模式_c++线程安全的单例模式写法
QQ邮箱官方登录入口_QQ邮箱网页版快捷使用平台
qq游戏网页版直接玩_qq游戏免下载快速入口
服务端验证_j*ascript输入检查
C++如何进行游戏物理模拟_使用Box2D库为C++游戏添加2D物理效果
厨房不锈钢水槽发黑生锈怎么处理_水槽用可乐+锡纸2分钟抛亮如新
动漫共和国防屏蔽稳定域名-动漫共和国官方正版直达通道
小红书怎么解除第三方平台绑定_小红书多平台登录解绑方法介绍
SteamMachine定价或为699美元 大家想入手吗?
高德地图家和公司地址在哪设置 高德地图通勤路线设置方法【超详细】
蓝湖怎样用切图标注提对接效率_蓝湖用切图标注提对接效率【设计对接】
Selenium Python中处理点击后新窗口加载冻结问题的策略与实践
word中如何让数字纵向排列_Word数字纵向排列方法
LINUX下如何进行磁盘分区_fdisk与parted工具在LINUX中的使用对比
在python-socketio事件处理器中安全访问Flask应用上下文
解决 Vaadin 8 中大文件音频播放与定位时出现的 IOException
GemBox Document HTML转PDF垂直文本渲染问题及解决方案
《北京人工智能产业白皮书(2025)》发布:全年核心产值预计突破 4500 亿元
LINUX的I/O重定向是什么_深入理解LINUX中 >、>> 与 < 的区别
c++如何实现一个简单的软件渲染器_c++从零开始的3D图形学
微博网页版直接访问 微博网页版账号管理快速入口
2306选座时如何选靠窗位置_12306选座靠窗座位查看方法解析
品牌机怎么重装系统 联想/戴尔/惠普笔记本恢复出厂系统教程
深入理解J*a链表中的IPosition接口与使用
使用J*aScript检测输入元素是否包含在特定类中
Excel函数批量查找替换超快方法_Excel用REPLACE和FIND函数秒级替换
圆通快递查询实时追踪 圆通物流包裹状态快速查看


2025-12-13
浏览次数:次
返回列表
ps://www.php.cn/link/9e334886ffd1815f6e50841119fb3065