跨设备端侧生成式 AI 多模态基准测试与 Nexa 压缩推理技术

AI 뉴스4个月前发布 Sharenet.ai
639 0
Trae

内容摘要

Nexa 的本地推理框架使生成式 AI 模型在设备端部署变得无缝且高效。该技术支持包括 AMD、高通、英特尔、英伟达及自研芯片在内的多种芯片组,兼容所有主流操作系统。我们提供了生成式 AI 模型在多种常见任务上的基准测试数据,每个任务均在不同类型设备上进行了 TOPS 性能级别的测试。

核心优势:

  1. 多模态能力 - 支持文本、音频、视频和视觉类生成式 AI 任务
  2. 广泛硬件兼容性 - 可在 PC、笔记本电脑、移动设备和嵌入式系统运行 AI 模型
  3. 领先性能 - 通过我们的边缘推理框架 NexaQuant,模型运行速度提升 2.5 倍,存储和内存需求降低 4 倍,同时保持高精度
跨设备端侧生成式 AI 多模态基准测试与 Nexa 压缩推理技术

为何选择端侧 AI?

相比依赖云端 API,直接在设备端部署 AI 模型具有多项优势:

  • 隐私与安全 - 数据保留在设备端确保机密性
  • 降低成本 - 无需支付昂贵的云端推理费用
  • 速度与响应 - 低延迟推理无需依赖网络
  • 离线能力 - 在低连接区域仍可使用 AI 应用

通过 Nexa 边缘推理技术,开发者可以在各类设备上高效运行生成式 AI 模型,同时实现最小资源消耗。

多模态 AI 应用新趋势

Nexa AI 端侧部署支持多模态 AI,使应用能够处理并整合多种数据类型:

  • 文本 AI - 聊天机器人、文档摘要、编程助手
  • 语音到语音 AI - 实时语音翻译、AI 语音助手
  • 视觉 AI - 目标检测、图像描述、文档 OCR 处理

通过采用NexaQuant,我们的多模态模型在保持顶尖性能的同时实现了卓越的压缩与加速效果。

跨设备生成式 AI 任务性能基准

我们提供了生成式 AI 模型在多种常见任务上的基准测试数据,每个任务均在不同类型设备上进行了 TOPS 性能级别的测试。如果您有特定设备和目标用例,可参考相似性能设备来预估处理能力:

涵盖的生成式 AI 任务:

  • 语音到语音
  • 文本到文本
  • 视觉到文本

涵盖设备类型:

  • 现代笔记本芯片 - 为桌面和笔记本本地 AI 处理优化
  • 旗舰移动芯片 - 在智能手机和平板运行的 AI 模型
  • 嵌入式系统 (~4 TOPS) - 面向边缘计算应用的低功耗设备

语音到语音基准测试

评估与语言模型的实时语音交互能力——处理音频输入生成音频输出

设备类型芯片与设备延迟 (TTFT)解码速度平均峰值内存
现代笔记本芯片 (GPU)Apple M3 Pro GPU0.67秒20.46 token/秒~990MB
现代笔记本芯片 (iGPU)AMD Ryzen AI 9 HX 370 iGPU (Radeon 890M)1.01秒19.28 token/秒~990MB
现代笔记本芯片 (CPU)Intel Core Ultra 7 268V1.89秒11.88 token/秒~990MB
旗舰移动芯片 CPU高通骁龙 8 Gen 3 (三星 S24)1.45秒9.13 token/秒~990MB
嵌入式物联网系统 CPU树莓派 4 Model B6.9秒4.5 token/秒~990MB

语音到语音基准测试使用 Moshi 配合 NexaQuant

文本到文本基准测试

评估基于文本输入生成文本的 AI 模型性能

设备类型芯片与设备初始延迟 (TTFT)解码速度平均峰值内存
现代笔记本芯片 (GPU)Apple M3 Pro GPU0.12秒49.01 token/秒~2580MB
现代笔记本芯片 (iGPU)AMD Ryzen AI 9 HX 370 iGPU (Radeon 890M)0.19秒30.54 token/秒~2580MB
现代笔记本芯片 (CPU)Intel Core Ultra 7 268V0.63秒14.35 token/秒~2580MB
旗舰移动芯片 CPU高通骁龙 8 Gen 3 (三星 S24)0.27秒10.89 token/秒~2580MB
嵌入式物联网系统 CPU树莓派 4 Model B1.27秒5.31 token/秒~2580MB

文本到文本基准测试使用 llama-3.2 配合 NexaQuant

视觉到文本基准测试

评估 AI 解析视觉输入、生成响应、提取关键视觉信息及动态引导工具的能力——视觉输入,文本输出

设备类型芯片与设备初始延迟 (TTFT)解码速度平均峰值内存
现代笔记本芯片 (GPU)Apple M3 Pro GPU2.62秒86.77 token/秒~1093MB
现代笔记本芯片 (iGPU)AMD Ryzen AI 9 HX 370 iGPU (Radeon 890M)2.14秒83.41 token/秒~1093MB
现代笔记本芯片 (CPU)Intel Core Ultra 7 268V9.43秒45.65 token/秒~1093MB
旗舰移动芯片 CPU高通骁龙 8 Gen 3 (三星 S24)7.26秒27.66 token/秒~1093MB
嵌入式物联网系统 CPU树莓派 4 Model B22.32秒6.15 token/秒~1093MB

视觉到文本基准测试使用 OmniVLM 配合 NexaQuant

© 저작권 정책
AiPPT

관련 문서

댓글 없음

없음
댓글 없음...