新闻中心

蚂蚁开源业内首个 100B 扩散语言模型 LLaDA2.0

2025-12-13
浏览次数:
返回列表

蚂蚁技术研究院正式发布 llada2.0 系列离散扩散大语言模型(dllm),并同步公开其核心技术报告,称其为“业界首个达到 100b 参数规模的扩散式语言模型”。

蚂蚁开源业内首个 100B 扩散语言模型 LLaDA2.0

LLaDA2.0 包含基于 MoE 架构的两个版本:16B(mini)与 100B(flash),首次将扩散语言模型的参数量级推进至百亿级别。官方表示,该成果不仅颠覆了业界对扩散模型难以规模化扩展的传统认知,更在代码生成、数学推理及智能体任务等关键场景中,展现出优于同参数量级自回归(AR)模型的实际性能。

依托原创的 Warmup-Stable-Decay(WSD)持续预训练范式,LLaDA2.0 可高效复用已有 AR 模型的知识体系,显著降低从零训练带来的资源消耗。进一步融合置信度感知并行训练(CAP)——一种超越常规监督微调(SFT)的方法,以及面向扩散架构优化的 DPO 变体,模型在保障输出质量的前提下,充分发挥扩散模型天然支持并行解码的特性,实现相较典型 AR 模型高达 2.1 倍的推理速度提升。这标志着:在超大规模参数条件下,扩散语言模型不仅具备工程可行性,更兼具更强能力与更高效率。

蚂蚁开源业内首个 100B 扩散语言模型 LLaDA2.0

蚂蚁开源业内首个 100B 扩散语言模型 LLaDA2.0

蚂蚁技术研究院围绕知识理解、数学能力、编程水平、逻辑推理及智能体行为等多个核心维度展开系统性评测。结果表明,LLaDA2.0 在结构化文本生成任务(如代码编写)中优势突出;而在其他通用能力维度上,亦可与当前主流开源 AR 模型保持相当水准。

DeepBrain DeepBrain

AI视频生成工具,ChatGPT +生成式视频AI =你可以制作伟大的视频!

DeepBrain 146 查看详情 DeepBrain

蚂蚁开源业内首个 100B 扩散语言模型 LLaDA2.0蚂蚁开源业内首个 100B 扩散语言模型 LLaDA2.0蚂蚁开源业内首个 100B 扩散语言模型 LLaDA2.0

目前,LLaDA2.0 的完整模型权重(含 16B 与 100B 版本)及配套训练代码均已全面开源:

https://www.php.cn/link/44e99af76e0d3f4e7eb331b3f3ef8e38
https://www.php.cn/link/d52b1dc033ab0c8ac84f3169c5376235

源码下载地址:点击获取

以上就是蚂蚁开源业内首个 100B 扩散语言模型 LLaDA2.0的详细内容,更多请关注其它相关文章!


# github  # 湖北白酒网站推广哪个好  # 网络营销推广给材料  # 甘肃网站建设要素  # 原创度检测工具SEO  # 新乡seo抖音推广公司  # 项目seo优化优势  # 网站国外建设  # 相关文章  # 而在  # 已有  # 下载地址  # 多个  # 首次  # 你可以  # 成长之路  # 首个  # 开源  # ai  # git  # 调研文档模板网站建设  # 宁夏关键词排名加盟  # 旺道网站推广软件 


相关栏目: 【 科技资讯46185 】 【 网络学院92790


相关推荐: mysql密码锁定怎么解锁_mysql密码锁定解锁后修改密码步骤  Windows 11怎么彻底关闭定位_Windows 11服务中禁用Geolocation  Lar*el 递归关系中排除指定分支的教程  J*aScript中在Map循环中检测并处理空数组元素  俄罗斯搜索引擎Yandex指南 附2025年免登录官网入口  J*a应用集成GitHub CLI与API认证指南  b站如何看历史记录_b站观看历史找回方法  J*aScript动态修改指定div内所有a标签样式指南  C++如何检测键盘输入_C++ _kbhit与_getch函数非阻塞输入  age动漫网站入口 age动漫官网直接访问入口  2026年CSGO开箱网站推荐 CSGO开箱平台精选  必由学官方网站入口 必由学学生教师共用登录通道  拼多多赚钱渠道_拼多多收益来源  Python vgamepad库按键模拟:正确使用XUSB_BUTTON常量  J*a里如何使用forEach遍历Map_Map遍历方法说明  Pandas DataFrame 高效批量赋值:告别循环与笛卡尔积误区  UE5.7引擎表现爆炸优化无敌!5090跑4K稳定60FPS  必由学官方平台入口 必由学在线课堂登录地址  处理Kafka消费者会话超时:深入理解消息处理语义与幂等性  QQ网页版官方账号入口 QQ网页版网页版登录指南  AWS EC2实例间SQL Server连接超时:安全组配置与故障排除指南  如何创建独立于主系统的J*a运行环境_隔离式环境搭建策略  QQ邮箱稳定登录入口_QQ邮箱官方网站网页版使用  TikTok国际版官网直达_TikTok国际版官网直达进入在线观看  CSS实现侧边栏导航项全宽圆角悬停背景效果  优化HTML表单样式:解决输入框焦点跳动与元素间距问题  Golang如何使用const iota_Go iota常量计数器讲解  深入理解J*a链表中的IPosition接口与使用  谷歌邮箱注册显示错误Gmail服务器异常与延迟处理  Composer的 archive 命令怎么用_快速打包你的PHP项目及其Composer依赖  Python:递归比较文件夹内容并找出特定类型文件的差异  在J*a中如何开发简易电子商务商品管理系统_商品管理系统项目实战解析  UC浏览器官网入口2025最新 UC浏览器网页版正式地址  Yandex官网搜索引擎免登录_俄罗斯Yandex一键直达入口  BetterDiscord插件中安全更新用户简介的实践指南  海棠电脑版入口_通过电脑访问海棠官网阅读  LINQ to XML为何解析失败? 深入理解C# XDocument的异常处理  漫蛙网页登录入口 漫蛙漫画官方授权网址  Yandex免登录官网入口_俄罗斯Yandex搜索引擎直达链接  cad怎么合并重叠的线段_cad清理重复重叠线条的操作方法  在J*a中如何使用BigDecimal进行高精度计算_BigDecimal类应用指南  Golang如何测试channel通信行为_Golang channel通信测试与分析方法  CSS布局中意外空白:解决padding-top导致的顶部间距问题  微信网页版扫码登录入口 微信网页版二维码登录入口  MAC的“快捷指令”怎么同步到iPhone_MAC利用iCloud同步所有设备的自动化指令  抖音网页版怎么|直播|_抖音网页版开播操作指南  Python Socket多播通信中指定源IP地址的实践指南  163邮箱官方主页登录 直达网易邮箱登录核心页面  vivo手机互传视频怎么操作_vivo手机互传视频详细传输方法  Lar*el如何正确地在控制器和模型之间分配逻辑_Lar*el代码职责分离与架构建议 

搜索