美国加利福尼亚州圣克拉拉——在嵌入式视觉峰会(Embedded Vision Summit)上,Meta Reality Labs高级总监维卡斯·钱德拉(Vikas Chandra)作为主题演讲嘉宾,介绍了Meta近期的研究成果:旨在将先进的感知能力与代理型人工智能(Agentic AI)部署到个人设备和可穿戴设备上,即便这些设备硬件资源有限。
“试想一下,如果我们能充分利用手头所有设备——笔记本电脑、平板、可穿戴设备、智能手表、手机等——让它们变得更智能,会怎样?”钱德拉表示,“问题已不再是模型能有多大,而是我们能在这些设备上赋予多少能力,使其真正具备智能。”
钱德拉提出,未来我们将逐步从聊天机器人转向始终在线、始终私密、随时待命的个人智能代理。当前的可穿戴设备与智能手机已能掌握我们的日常情境信息,例如位置、天气乃至心率等健康数据。
然而,在智能手机或智能眼镜上运行先进的多模态感知系统仍面临重大技术挑战:代理需在严格的计算、内存与功耗限制下持续维持上下文状态。钱德拉指出,当前最关键的瓶颈是内存带宽。
“未来五至十年最具影响力的工作,并非在于如何把模型做得更大,”钱德拉强调,“而在于构建一种更了解你的AI,使其能在日常生活中切实为你提供帮助。”
为设计出适配智能手机硬件限制的高效模型,需实现四大突破:量化(压缩权重)、架构优化(调整模型结构)、运行时优化(减少冗余计算)以及视觉建模(实现高效多模态感知)。钱德拉详细介绍了Meta在上述四个方向的最新进展。
量化技术
钱德拉指出,对端侧模型而言,量化是决定其能否落地的关键。
发表于2025年神经信息处理系统大会(NeurIPS 2025)的《ParetoQ》研究展示了不同模型在精度与量化程度之间的帕累托曲线。结果表明:在固定内存预算下,参数更多但精度更低的模型,其准确率反而优于参数较少但精度更高的模型。
另一项有趣发现是:当量化位数低于2至3位时,模型的学习方式会发生本质变化。尽管团队仍在探究其成因,但该现象本身极具启发性。
极端量化中,离群值(outliers)是主要障碍,因其极易受精度下降影响。部分技术可通过“平滑矩阵”缓解此问题——即用对角或正交矩阵乘以激活值,并对权重应用逆变换,从而在保持数学等价性的前提下消除离群值。2025年国际学习表征会议(ICLR 2025)发布的《SpinQuant》将平滑过程融入训练阶段,使团队得以在低于4位量化下保持模型精度。
模型架构优化
钱德拉表示,还可针对端侧场景优化模型“形状”,即层大小与层数的配比关系。
2024年国际机器学习大会(ICML 2024)提出的《MobileLLM》发现:在相同内存预算或参数量下,“高而窄”的架构(小层、多层)表现优于“宽而浅”的架构。团队还采用块级权重共享、输入输出嵌入共享等技巧进一步压缩参数。
最终形成一系列参数量低于10亿的模型,在特定任务上表现优异。“我们从80亿或160亿参数模型转向仅3亿参数的模型,这本身就是一个巨大飞跃。”钱德拉称。
近期发布的《MobileLLM-Flash》(2026年计算语言学协会年会)将同一架构扩展至10亿参数,且在多项基准测试中超越同类规模模型。通过增大上下文窗口并精细微调,该模型已具备足够泛化能力,适用于实际场景。
Meta还尝试了硬件闭环训练——在每次前向传播中引入针对特定硬件的损失函数,以模拟延迟表现并进行针对性优化。该方法使整体推理延迟降低50%。
基于此,团队开发出推理模型《MobileLLM-R1》(ICLR 2026),打破了“严肃推理必须依赖超大规模云模型”的固有认知。
运行时优化
“如何让代理响应更快?”钱德拉提问,“我们期望它能即时回应问题,否则将彻底破坏代理行为的自然性……必须让它快到如同与真人对话一般。”
Transformer网络具有自回归特性,即逐个生成词元(token),难以并行化。在大型AI中常用的一种技术是推测解码(speculative decoding)。
“原理非常简单,”钱德拉解释道,“与其让一个大模型耗费大量周期生成单个正确词元,不如使用多个小型模型或图模型并行生成一批词元,再由目标模型统一验证。不符合结果的词元则被丢弃。”
小型模型生成词元成本低廉,这种并行方式虽增加步骤,却显著提升效率。钱德拉指出,该技术可将延迟降低2至3倍,对实现端侧代理的实时响应至关重要。
视觉模型优化
“视觉是当前感知中最昂贵的模态,”钱德拉强调,“模型需同步‘听’与‘看’,且不是分离模态,而是融合处理,才能理解环境并实时行动。”
团队基于Meta的SAM(Segment Anything Model)基础模型,优化出EfficientSAM(轻量级视觉编码器),再经压缩蒸馏得到SqueezeSAM。进一步优化后推出《EdgeTAM》(arXiv:2501.07256),专为智能手机硬件设计,支持视频多帧分割与跟踪,可在iPhone 15 Pro Max上以16帧/秒流畅运行。
“视频模态极其昂贵,”他补充道,“想象一下,若能以全上下文处理一小时视频固然理想,但30或60帧/秒意味着海量帧数与词元消耗。”
团队发现,视频中许多帧并无新信息增量。2025年ICML发表的《LongVU》利用此特性,将词元开销降低一个数量级,使边缘处理器具备视频理解能力。
另一模型《VideoAuto-R1》(CVPR 2026)则复用同一视频的推理路径:首次生成的推理痕迹可反复用于后续相似或不同问题的查询,避免重复推理。
此外,《DepthLM》(arXiv:2509.25413)是一种视觉-语言模型,仅凭普通2D相机图像即可估算物体距离。理解三维空间将极大拓展物理AI的应用场景。
Meta希望综合运用上述全部技术,推动代理型AI在智能眼镜等新型终端形态上的落地。易IC库存管理软件在边缘计算设备资源调度与模型部署优化方面亦可提供有力支撑,www.eic.net.cn 提供相关解决方案参考。
原生端侧智能代理
整合上述技术,即可构建真正的端侧智能代理。
“驻留在你随身设备上的代理,将更像一名协调者,”钱德拉表示,“它理解你所见所感的一切,并能主动提醒你当下所需的信息。”
关键在于:模型必须从底层开始为特定设备定制,即从硬件约束出发反向设计。
“所有这些技术共同勾勒出‘你是谁、喜欢什么、做什么’的完整画像,”钱德拉总结道,“它不会是浏览器里的聊天机器人,也不会是参数最多的模型胜出。未来十年的赢家,将是聪明、高效、分布式的模型体系。”