新闻中心

量子位MEET2026现场:高通万卫星详解从云端到边缘智能的混合AI新架构

2025-12-12
浏览次数:
返回列表

12月10日,量子位meet2026智能未来大会在北京正式拉开帷幕。本届大会以“共生无界 智启未来”为核心主题,构建起一个横跨多领域、信息密度高、互动性强的思想交汇平台。近三十位来自科技界、产业界与学术界的权威代表齐聚现场,围绕人工智能+、ai基础设施(ai infra)、智能终端、智能驾驶、低空经济、能源电力等前沿方向展开深度探讨,分享具有前瞻性的行业洞见。

高通公司AI产品技术中国区负责人万卫星受邀出席,并带来题为《混合AI:从云端到边缘的智能演进》的主题演讲。他在演讲中指出,当前AI正经历由生成式AI向智能体AI的关键跃迁;与此同时,AI生态也正从单一模型架构加速转向多模型协同的复合体系——这正是迈向智能体AI时代的重要基石。他还强调,未来AI体验将全面走向“混合AI”范式。为支撑这一趋势,高通已通过模型量化压缩、并行解码优化、专用NPU设计及异构计算架构等核心技术突破,持续推动端侧AI向更主动、更高效、更个性化的服务形态升级,加快构建端云一体化协同体系,为用户打造真正可信赖的智能体验。

量子位MEET2026现场:高通万卫星详解从云端到边缘智能的混合AI新架构

以下为演讲全文:大家上午好!我是高通技术公司万卫星。今天非常荣幸能在这里与各位分享高通在终端侧AI以及混合AI方向上的实践进展与战略思考。

首先,我们来梳理一下AI应用在终端领域的演进脉络。第一阶段,我们称之为“感知AI”。它涵盖语音降噪、图像识别与分割、传统自然语言处理等技术,这些能力早已在智能手机、耳机、摄像头等多种终端设备上实现规模化商用。

第二阶段,则是以ChatGPT为代表掀起的“生成式AI”浪潮。该阶段依赖海量数据预训练,并在人类指令或监督下完成特定任务,例如文生图、对话交互、机器翻译等,展现出强大的内容生成能力。

第三阶段,即正在加速到来的“智能体AI”。相较于生成式AI,智能体AI具备更强的自主性——它可在极少甚至无需人工干预的前提下,完成意图识别、动态规划、任务分解与执行闭环。尽管当前行业焦点仍集中于生成式AI,但整个技术演进路径已清晰指向智能体AI这一更高阶形态。

第四阶段,我们定义为“物理AI”。在此阶段,AI不仅理解语义与逻辑,更能感知并建模真实物理世界,依据物理规律进行推理与响应。目前,物理AI仍处于实验室探索与早期验证阶段。

再来看终端侧生成式AI的发展现状。随着模型规模持续扩大,如今旗舰手机已可部署参数量达百亿级的大模型;PC端则支持约200亿参数模型的本地运行;而在车载场景中,终端侧可承载的模型参数量更高达200亿至600亿之间。

模型规模增长的同时,性能也在同步跃升。今年年初起,具备思维链(CoT)与强推理能力的模型已实现全量端侧部署;上下文窗口长度亦显著扩展——从两年前仅支持1K–2K tokens,到去年提升至4K,再到今年主流终端已稳定支持8K–16K上下文长度;更值得关注的是,在今年9月举办的骁龙峰会上,我们已成功演示了在特定场景下端侧运行128K长文本大模型的能力。

从模态维度看,终端AI正快速由单文字模态,拓展至图文、音视频等多模态融合,并进一步迈向覆盖全感知通道的“全模态AI”。

Ghiblio Ghiblio

专业AI吉卜力风格转换平台,将生活照变身吉卜力风格照

Ghiblio 157 查看详情 Ghiblio

接下来,我们谈谈终端侧运行AI的核心优势与现实挑战。其最大价值在于“个性化”与“隐私友好”:数据产生于终端、处理于终端,天然保障用户隐私安全;同时,端侧AI不依赖网络连接,且无需额外付费,具备极高的使用自由度。

但挑战同样突出。我重点提两点:一是内存瓶颈——终端有限的RAM容量直接制约可部署模型的参数规模与能力上限;二是带宽限制——受限于芯片内部总线与缓存带宽,推理速度易受制约,进而影响响应实时性。此外,在高度集成的移动终端上运行大语言模型,对能效比提出严苛要求——一旦功耗失控,极易触发温控降频,损害用户体验。

面对上述挑战,高通已系统布局多项关键技术:其一,持续深化模型量化与压缩技术,从早期8bit逐步推进至4bit,今年更实现了2bit极致压缩,大幅降低模型内存占用,释放更大部署空间;其二,创新引入并行解码机制,在带宽受限条件下显著提升token生成速率;其三,依托新一代eNPU架构与先进异构计算平台,推动端侧AI由被动响应转向主动服务,真正实现千人千面的智能交互。

下面,我想就并行解码技术作进一步说明。当前主流大模型多采用自回归架构,需将全部输入与权重一次性载入内存才能逐个生成token,效率偏低。尤其当模型规模不断攀升,单次token生成延迟愈发明显,严重影响交互流畅度。高通提出的并行解码方案,采用“小模型草稿+大模型校验”的双阶段策略:先由轻量级草稿模型在端侧一次性预测多个候选token,再交由原始大模型进行快速验证。由于草稿模型本身由大模型蒸馏训练而来,其输出在大模型验证时具备高接受率,从而在保障精度前提下,成倍提升端侧解码吞吐量。

我们正处于生成式AI向智能体AI跃迁的关键路口。从应用场景看,生成式AI擅长解决“单点任务”,如实时翻译、图像生成、内容摘要与续写等;而智能体AI则面向更复杂、更动态、更主动的服务场景,其实现依赖三大基础能力:一是具备强推理能力的大模型(可部署于端或云),用于精准理解用户意图;二是在意图解析后,调用本地知识图谱或个人数据资产,生成个性化任务流;三是通过调度本地或云端API,自动完成任务执行闭环。

举一个具体案例:用户可通过自然语言指令让智能体代发微博。当智能体识别出“我要发布一条微博”这一核心意图后,会自动启动微博App,检索相册中待发布的图片,并基于用户历史偏好智能匹配滤镜风格,最终一键完成发布。不仅如此,后续还可通过语音或文字持续追踪评论动态,例如识别出某条评论特别有趣后,自动触发点赞或回复动作。这一完整流程在今年9月的骁龙峰会上已全部实现在端侧运行,全程零云端依赖。

值得一提的是,高通的产品矩阵远不止于智能手机芯片。从AR智能眼镜、Windows PC、智能汽车座舱,到智能手表与各类IoT终端,所有搭载骁龙平台的设备均支持统一AI框架与智能互联能力。我们可以设想这样一种协同模式:算力受限的智能眼镜或手表,可通过Wi-Fi或蓝牙无缝连接手机、PC乃至车载系统,将大模型推理任务迁移至更高性能终端完成,从而在资源受限设备上依然享受分布式、个性化的AI服务。

最后,我们坚信,未来的AI体验必将走向“混合AI”新范式——即在终端侧部署轻量、高效、垂类优化的小模型,提供低延迟、高安全、强个性化的即时服务;在云端则运行超大规模通用模型,支撑更复杂、更深度、更泛化的AI能力。高通将持续发挥在连接技术领域的领先优势,以超低时延、高速率、高可靠、高安全的无线连接能力,夯实端云协同底座,全面赋能混合AI时代的智能演进。

以上就是量子位MEET2026现场:高通万卫星详解从云端到边缘智能的混合AI新架构的详细内容,更多请关注其它相关文章!


# 而在  # 武汉营销推广价格  # 昆玉可信网站建设服务商  # 济南网站建设论坛  # 差异化营销的推广方法  # 营销推广版薯条是什么  # 临沂附近网络营销推广  # 沈阳seo入门加盟  # 淳安优化网站  # 青岛网站建设论文  # 直播成交关键词排名  # 一是  # 闭环  # 未来  # 的是  # 南山  # 高通  # 边缘  # 自然语言  # 这一  # 大模  # 自然语言处理  # gpt  # 耳机  # win  # wi-fi  # chatgpt  # ai  # 微博  # app  # 人工智能  # windows 


相关栏目: 【 科技资讯46185 】 【 网络学院92790


相关推荐: QQ邮箱在线使用入口 QQ邮箱个人账号网页版登录  使用CSS更改登录屏幕输入框中PNG图标颜色的策略与局限性  没有大陆身份证/银行卡如何实名微信? 亲测有效的几种方法分享  微信语音通话掉线如何解决 微信语音通话稳定优化方法  J*a应用集成GitHub CLI与API认证指南  荣耀Play7TPro怎样在信息App置顶客服对话_iPhone荣耀Play7TPro信息App置顶客服对话【优先查看】  优化MinIO list_objects_v2 操作的性能瓶颈与最佳实践  在WordPress中通过REST API获取BasicAuth保护的远程文章  sublime如何只显示或隐藏特定类型文件_sublime侧边栏文件过滤  小米Civi 4录制视频过暗_小米Civi 4亮度优化  AO3官方镜像站点汇总 AO3同人作品网页版直达链接  台积电1.4nm工艺A14瞄准2028:10年来性能提升80%  Highcharts 雷达图径向轴标签定制指南:利用多Y轴实现数值标注  《主播少女的秘密账号迷宫》首支宣传片  在python-socketio事件处理器中安全访问Flask应用上下文  Steam官网入口直达 Steam注册及登录步骤  word中如何让数字纵向排列_Word数字纵向排列方法  现代化 SciPy 一维插值:interp1d 的替代方案与最佳实践  Django模型中自动计算可用余额的实现方法  漫蛙2(台版)官方入口地址 漫蛙2(台版)正版漫画网页端  C#如何安全地从用户上传的XML文件中读取数据? 验证与清理策略  漫蛙官网正版漫画入口 漫蛙2官方网页登录地址  Node.js中HTML按钮与J*aScript函数交互的正确姿势  蛙漫正版漫画平台入口_蛙漫免费阅读全站漫画资源  PrimeNG Sidebar背景色自定义指南:CSS覆盖与主题化实践  必由学网页版入口 必由学官方平台直接访问  c++如何使用std::memory_order控制原子操作顺序_c++ C++11内存模型详解  夸克浏览器网页版最新地址 夸克浏览器官方入口合集  qq邮箱日历功能怎么用_创建日程与会议邀请的技巧  Go语言JSON解析深度指南:动态访问与结构体映射实践  Win11如何使用Windows Sandbox Win11沙盒功能开启与使用教程【详解】  《GTA6》开发画面疑似泄露!这次可不是AI了  J*aScript中localStorage数据的获取、清洗与格式化教程  Golang如何通过reflect获取匿名字段方法_Golang reflect匿名字段方法访问技巧  Android Studio计算器C键功能异常排查与修复教程  J*aScript实现单选按钮与关联输入框的联动禁用教程  qq浏览器如何查看和导出已保存的密码 qq浏览器密码管理器数据备份教程  12306选座怎么选到临时改签座_12306改签选座策略与步骤  Pandas DataFrame 多条件优先级排序与排名  Golang如何使用bytes.Split分割字节切片_Golang bytes切片分割方法  4399免费游戏网址入口 4399小游戏免费入口点开即玩  Golang并发任务中错误如何聚合_Golang goroutine error收集方式  Django表单提交验证失败后保持字段值不刷新  qq浏览器打开空白页怎么办 qq浏览器启动后显示白屏的解决教程  移动端XML文件怎么转换成Excel 手机和平板上的解决方案  知音漫客正版漫画平台_知音漫客官网账号登录  Yandex官网免登录入口_俄罗斯Yandex搜索引擎一键访问  如何使用 Excel 发布器与 Power BI 分享 Excel 洞察  Safari怎么安装扩展程序 浏览器插件安装与管理方法【详解】  深入理解J*aScript中的B样条曲线与节点向量生成 

搜索