端侧大模型

将多模态大语言模型从云端带到边缘。本地推理,实时响应,为工业场景开启自然语言交互的新范式。

自然语言视觉问答
用户可用中文直接向设备提问,设备即时返回答案。
100%本地推理
大模型推理完全在设备端完成,无需连接互联网。
检测+理解闭环
传统视觉算法负责"检测",大模型负责"理解与解析",两者协作形成闭环。

大模型如何在边缘设备上运行?

大语言模型动辄数十亿参数,如何部署到仅有数GB内存的边缘设备上?我们采用了模型量化、权重剪枝、知识蒸馏等多重优化技术,将模型从数十GB压缩至数百MB,同时在RK3576 NPU上实现推理加速。

  • INT4/INT8混合精度量化,模型体积压缩至原始1/4-1/8
  • 权重剪枝+知识蒸馏,在精度损失<3%的前提下大幅缩小模型
  • RK3576 NPU推理加速,相比CPU方案提速5-10×
  • 支持模型热更新,无需重启即可切换不同版本

典型应用场景

端侧大模型并非替代传统视觉检测算法,而是与之互补,解决传统算法难以处理的"开放性问题"。

  • 工业巡检:自然语言查询异常事件
  • 工地安全:语义级违规描述与说明
  • 零售分析:时间段+区域的客群行为问答
  • 安防回溯:事件因果关系的自然语言描述