Nexa圧縮推論によるクロスデバイス・エンドサイド生成AIマルチモーダルベンチマーキング

吐司AI

エグゼクティブ・サマリー

ネクサ ネイティブ推論フレームワークは、デバイス側での生成AIモデルの展開をシームレスかつ効率的にする。この技術は、AMD、Qualcomm、Intel、NVIDIA、および国産チップを含む幅広いチップセットをサポートし、すべての主要なオペレーティングシステムと互換性があります。一般的なさまざまなタスクに関する生成AIモデルのベンチマーク・データを提供しており、それぞれ異なるタイプのデバイスでTOPS性能レベルでテストされています。

核となる強み:

  1. マルチモーダル機能 - バッキングテキスト、オーディオ、ビデオ、ビジュアルAI的生成タスク
  2. 幅広いハードウェア互換性 - PC、ノートPC、モバイルデバイス、組み込みシステムでAIモデルを実行
  3. リーディング・パフォーマンス - 当社のエッジ推論フレームワークNexaQuantを使用することで、高い精度を維持しながら、モデルの実行速度が2.5倍速くなり、必要なストレージとメモリが4倍少なくなります。
跨设备端侧生成式 AI 多模态基准测试与 Nexa 压缩推理技术

なぜエンドサイドのAIなのか?

AIモデルをデバイス上に直接展開することには、クラウドAPIに頼るよりもいくつかの利点がある:

  • プライバシーとセキュリティ - 機器側でのデータ保持により機密性を確保
  • コスト削減 - 高価なクラウドベースの推論にお金を払う必要はない
  • スピードとレスポンス - ネットワークに依存しない低遅延推論
  • オフライン機能 - 接続性の低い地域でもAIアプリケーションは利用できる

Nexaのエッジ推論技術により、開発者は幅広いデバイス上で生成AIモデルを最小限のリソース消費で効率的に実行することができます。

マルチモーダルAI活用の新潮流

ネクサAI エンドサイド展開のサポートマルチモーダルAIこれにより、アプリケーションは複数のデータタイプを扱い、統合することができる:

  • テキストAI - チャットボット、文書要約、プログラミングアシスタント
  • 音声対音声AI - リアルタイム音声翻訳、AI音声アシスタント
  • ビジョンAI - ターゲット検出、画像記述、文書OCR処理

これはネクサクォント私たちのマルチモーダルモデルは、最高のパフォーマンスを維持しながら、優れた圧縮と加速を実現しています。

クロスデバイス生成AIタスク性能ベンチマーク

一般的な様々なタスクに関する生成AIモデルのベンチマークデータを提供しており、それぞれ異なるタイプのデバイスでTOPS性能レベルでテストされています。特定のデバイスとターゲットとするユースケースがある場合、処理能力を見積もるために同様の性能を持つデバイスを参照することができます:

生成AIのタスク

  • 声から声へ
  • テキストからテキストへ
  • ビジュアルからテキストへ

機器の種類をカバーする:

  • 最新のノートブック用チップ - デスクトップとラップトップのネイティブAI処理に最適化
  • フラッグシップ・モバイル・チップ - スマートフォンやタブレットで動作するAIモデル
  • 組み込みシステム (~4 TOPS) - エッジコンピューティング・アプリケーション向け低消費電力デバイス

音声合成ベンチマーク

言語モデルによるリアルタイム音声対話能力の評価 - 処理音声入力が音声出力を生成

設備タイプチップ&デバイスディレイ(TTFT)デコード速度平均ピーク・メモリー
最新のノートブック用チップ(GPU)アップルM3プロGPU0.67秒20.46トークン/秒~990MB
最新のノートブック用チップ(iGPU)AMD Ryzen AI 9 HX 370 iGPU(Radeon 890M)1.01秒19.28トークン/秒~990MB
最新のノートブック用チップ(CPU)インテル・コア・ウルトラ7 268V1.89秒11.88トークン/秒~990MB
フラッグシップ・モバイル・チップCPUクアルコムSnapdragon 8 Gen 3(サムスンS24)1.45秒9.13トークン/秒~990MB
組み込みIoTシステムCPUラズベリーパイ4モデルB6.9秒4.5トークン/秒~990MB

MoshiとNexaQuantを使った音声合成ベンチマーク

テキスト・トゥ・テキスト・ベンチマーク

評価テキスト入力に基づいてテキストを生成するAIモデルのパフォーマンス

設備タイプチップ&デバイスイニシャルディレイ(TTFT)デコード速度平均ピーク・メモリー
最新のノートブック用チップ(GPU)アップルM3プロGPU0.12秒49.01トークン/秒~2580MB
最新のノートブック用チップ(iGPU)AMD Ryzen AI 9 HX 370 iGPU(Radeon 890M)0.19秒30.54トークン/秒~2580MB
最新のノートブック用チップ(CPU)インテル・コア・ウルトラ7 268V0.63秒14.35トークン/秒~2580MB
フラッグシップ・モバイル・チップCPUクアルコムSnapdragon 8 Gen 3(サムスンS24)0.27秒10.89トークン/秒~2580MB
組み込みIoTシステムCPUラズベリーパイ4モデルB1.27秒5.31トークン/秒~2580MB

llama-3.2とNexaQuantを使ったText-to-textベンチマーク

ビジュアル・テキスト・ベンチマーク

AIの評価 ビジュアル入力を分析する回答を生成し、重要な視覚的情報を抽出し、ツールを動的にガイドする能力。ビジュアル入力、テキスト出力

設備タイプチップ&デバイスイニシャルディレイ(TTFT)デコード速度平均ピーク・メモリー
最新のノートブック用チップ(GPU)アップルM3プロGPU2.62秒86.77トークン/秒~1093MB
最新のノートブック用チップ(iGPU)AMD Ryzen AI 9 HX 370 iGPU(Radeon 890M)2.14秒83.41トークン/秒~1093MB
最新のノートブック用チップ(CPU)インテル・コア・ウルトラ7 268V9.43秒45.65トークン/秒~1093MB
フラッグシップ・モバイル・チップCPUクアルコムSnapdragon 8 Gen 3(サムスンS24)7.26秒27.66トークン/秒~1093MB
組み込みIoTシステムCPUラズベリーパイ4モデルB22秒326.15トークン/秒~1093MB

OmniVLMとNexaQuantを使用したVisual-to-textベンチマーキング

© 著作権表示
AiPPT

関連記事

コメントなし

なし
コメントはありません