为什么选择NPU?
当AI推理需在设备端实时完成,且对功耗成本有严格约束时,专用NPU是最优选择。
混合精度推理
同时支持INT4和INT8精度推理,灵活切换,智能调度。
多模型并行
单台设备可同时运行10+种AI模型。NPU算力智能分配,优先保障高优先级任务。
NPU算子深度优化
我们针对RK3576平台的NPU进行了系统性的算子优化工作,将标准YOLOv8-s模型的推理延迟从约180ms降至约85ms——提升超过50%。
- 自定义NPU算子:卷积、池化、激活函数等核心算子定制实现
- 内存访问优化:减少DDR带宽占用,降低功耗
- 算子融合:Conv+BN+ReLU等组合算子融合为单一计算内核
- 量化校准:逐层精度校准,最小化INT8量化带来的精度损失
模型部署与量化工具链
我们提供完整的模型部署工具链,支持主流框架训练的模型一键转换为NPU可执行格式,从模型文件到边缘可执行包通常30分钟内即可完成。
- 支持框架:TensorFlow / PyTorch / ONNX / Caffe / Keras
- 量化方式:PTQ(后训练量化)/ QAT(训练感知量化)
- 模型分析器:逐层性能分析,识别瓶颈算子
- 模拟器:在PC端模拟NPU行为,快速验证模型精度
- 一键转换:30分钟内完成从模型到边缘设备的全流程