新闻中心

Omni-Infer v0.7.0 已经发布,超大规模 MoE 模型推理加速技术

2025-12-12
浏览次数:
返回列表

omni-infer v0.7.0 已经发布,超大规模 moe 模型推理加速技术

Omni-Infer v0.7.0 正式上线,带来面向超大规模混合专家(MoE)模型的高效推理加速能力。

v0.7.0

核心亮点

  • Omni Cache 新增对 MLA(Multi-Head Latent Attention)与 GQA(Grouped-Query Attention)架构的支持
  • 引入 chunk prefill 混合调度机制,实现更优的计算图融合与内存复用
  • 全面兼容 SGLang 接口协议,提升复杂推理流程的灵活性与易用性

性能提升

  • 在 2P8-1D32@A3 硬件配置下,支持 3.5K+1K 输入长度场景,Deepseek R1 实测 QPM 达 186,首字延迟(TTFT)显著优化
  • 在 2P2-1D4@A3 配置下,openPangu-72B 单卡解码吞吐峰值达 1560 TPS,平均单 Token 延迟(TPOT)表现优异

已验证模型清单

模型 硬件平台 量化精度 部署模式
openPangu-Ultra-MoE-718B A3 INT8 PD分离
openPangu-Ultra-MoE-718B A2 INT8 PD分离
openPangu-72B A3 INT8 PD分离
openPangu-38B A3 INT8 混布
openPangu-38B A2 INT8 混布
openPangu-7B A3 BF16 混布
openPangu-7B A2 BF16 混布
openPangu-7BVL A3 BF16 混布
DeepSeek-R1 A3 INT8 PD分离
DeepSeek-R1 A3 W4A8C16 PD分离
DeepSeek-R1 A3 BF16 PD分离
DeepSeek-R1 A2 INT8 PD分离
DeepSeek-V3.1 A3 INT8 PD分离
DeepSeek-V3.2 A3 INT8 PD分离
DeepSeek-OCR A2 BF16 混布
Qwen2.5-7B A3 INT8 混布(TP>=1 DP=1)
Qwen2.5-7B A2 INT8 混布(TP>=1 DP=1)
QwQ A3 BF16 PD分离
QwQ A2 BF16 PD分离
Qwen3-235B A3 INT8 PD分离
Qwen3-235B A2 BF16 PD分离
Qwen3-32B A3 BF16 PD分离
Qwen3-32B A3 INT8 PD分离
Qwen3-30B A3 BF16 PD分离
Kimi-K2 A3 W4A8C16 PD分离
Kimi-K2 Thinking A3 W4A8C16 PD分离
Longcat-flash A3 BF16 PD分离
Ling-1T A3 BF16 PD分离
GPT-OSS120B A3 INT8 PD分离
GPT-OSS120B A2 INT8 PD分离
GPT-OSS20B A3 INT8 PD分离
GPT-OSS20B A2 INT8 PD分离

安装方式

硬件平台 CPU架构 Docker镜像地址 Tar包名称
A3 arm docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a3-arm:release\_v0.7.0-vllm omni\_infer-a3-arm:v0.7.0\_vllm
A3 x86 docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a3-x86:release\_v0.7.0-vllm omni\_infer-a3-x86:v0.7.0\_vllm
A2 arm docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a2-arm:release\_v0.7.0-vllm omni\_infer-a2-arm:v0.7.0\_vllm
A2 x86 docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a2-x86:release\_v0.7.0-vllm omni\_infer-a2-x86:v0.7.0\_vllm

更多详情请参阅:https://www.php.cn/link/9f78e8aa1530b26c85f555017d89e745

Codeium Codeium

一个免费的AI代码自动完成和搜索工具

Codeium 345 查看详情 Codeium

源码获取:点击下载

以上就是Omni-Infer v0.7.0 已经发布,超大规模 MoE 模型推理加速技术的详细内容,更多请关注其它相关文章!


# 点击下载  # 莱阳网站建设及优化  # 学校网站建设方案小学  # 元氏指定关键词优化排名  # 雅安网站建设价格表  # 广丰社区seo优化  # 专业的纯手工seo  # 官方网站建设技术方案  # 荆州网站优化推广  # 江西互联网营销推广价钱  # 开封奶茶推广招聘网站  # 大家都在  # 查看详情  # 详情请  # git  # 镜像  # 解决问题  # 中文网  # 相关文章  # 成长之路  # 开源  # qwen  # deepseek  # ultra  # gitee  # gpt  # ai  # docker 


相关栏目: 【 科技资讯46185 】 【 网络学院92790


相关推荐: mysql如何设置表访问权限_mysql表访问权限配置  excel如何生成目录 excel一键生成工作表目录超链接  铁路12306官网网页端快速入口 铁路12306官方首页登录教程  uc手机浏览器网页版入口 uc浏览器手机版便捷登录首页  小米14应用无法联网原因分析_小米14网络权限修复  QQ邮箱正确登录入口_QQ邮箱官方网站使用地址  Sublime Text怎么显示空格和制表符_Sublime显示不可见字符设置  今日头条怎么同步内容到抖音_今日头条内容同步到抖音教程  为什么简单的XML文件也会解析失败? 检查隐藏的非打印字符(如BOM)的方法  《铁拳8》黑皮辣妹新实机:元气满满的18岁少女!  实现全屏滚动与导航点:专业教程  Win11怎么开启高性能模式_Windows 11电源计划优化设置  谷歌浏览器怎么给标签页静音_Chrome标签静音快捷操作  漫蛙漫画官方主页入口 漫蛙MANWA网页直达访问链接  win11如何加载ICC颜色配置文件 Win11校色文件安装与显示器色彩管理【指南】  qq音乐在线播放入口_qq音乐电脑版登录链接  192.168.1.1管理中心入口 192.168.1.1路由器网页设置平台  海棠电脑版入口_通过电脑访问海棠官网阅读  荣耀Play7T运行卡顿解决_荣耀Play7T性能优化  PowerPoint如何制作滚动字幕结尾彩蛋_PowerPoint路径动画实现平滑滚动字幕效果  Win10如何开启蓝牙功能_Windows10找不到蓝牙开关解决方法  韩小圈电脑版在线入口_网页版免费登录地址  机器学习中对数变换预测结果的反向还原  2026春节假期时间安排 2026春节假日查询  126邮箱网页版官方入口 126邮箱账号在线登录平台  顺丰国际快递查询 国际件官方查询入口  163邮箱官方主页登录 直达网易邮箱登录核心页面  Lar*el 递归关系中排除指定分支的教程  Angular Material 垂直步进器:实现底部到顶部排序的教程  mc.js官网登录入口 mc.js官方登录入口最新版  C++如何比较两个字符串_C++ string compare函数与操作符对比  sublime如何处理大型CSV文件的列对齐_sublime高级表格编辑插件指南  Yandex搜索引擎官方地址 俄罗斯网络世界的主要入口  c++中为什么推荐使用using替代typedef_c++现代化类型别名  Python实时数据流中的动态最值查找策略  格力空气能E5故障代码是什么情况_格力空气能E5代码解析与应对措施  vivo浏览器怎么扫描二维码 vivo浏览器内置扫一扫功能使用方法  理解J*aScript Promise的微任务队列与执行顺序  如何提高微信支付的安全性_微信支付安全防护与设置建议  C++如何连接MySQL数据库_C++使用Connector/C++操作MySQL数据库教程  漫画星球免费下拉式入口 漫画星球免费漫画在线阅读网站  谷歌浏览器无痕模式怎么开 Chrome开启无痕浏览设置方法【教程】  支付宝如何管理隐私设置_支付宝隐私保护的配置技巧  如何有效阻止外部脚本意外修改内联样式的高度属性  QQ邮箱在线使用入口 QQ邮箱个人账号网页版登录  厨房不锈钢水槽发黑生锈怎么处理_水槽用可乐+锡纸2分钟抛亮如新  KFC早餐时段怎么领特惠代码_KFC早餐订餐优惠代码获取与使用说明  Win11怎么关闭快速启动_Win11彻底关机设置教程  React Router v6 教程:构建认证保护的私有路由与重定向策略  在J*a中如何在J*a中使用异常机制记录错误日志_异常日志实践经验 

搜索