
最近、AIインテリジェント・ボディ・メモリーの分野での発表があり、業界に大きな関心を呼んでいる。Mem0 Companyが調査レポートを発行,宣称其产品在 AI 智能体记忆技术方面达到了行业领先(SOTA)水平,并在特定基准测试中超越了包括 ゼップ 在内的竞争对手。然而,这一说法迅速遭到了 Zep 团队的质疑。Zep 指出,在正确实施的情况下,其产品在 Mem0 选用的 LoCoMo 基准测试中,性能实际上要高出 Mem0 大约 24%。这一显著差异,促使人们对基准测试的公正性、实验设计的严谨性以及最终结论的可靠性进行更深入的探究。
競争の激しい人工知能の分野では、SOTA(State-of-the-Art)の称号を得ることは、どの企業にとっても大きな意味を持つ。それは技術的なリーダーシップを意味するだけでなく、投資、人材、市場の注目を集める。従って、SOTAに関する記述、特にベンチマーキングによって得られた結論は精査されるべきである。
ゼップの主張:正しい実装でLoCoMoのテスト結果が覆る
ゼップ・チームはその回答の中で、LoCoMo実験を自社製品のベスト・プラクティスに従って構成した場合、結果はMem0のレポートとは大きく異なると指摘した。

ここで取り上げている「ゼップ(正解)」を除き、スコアはすべてMem0のレポートによるものである。
ゼップが公表している評価によると、その製品のJスコアは以下の通りである。 84.61%Mem0最適構成(Mem0グラフ)の約68.4%と比較すると、約8.5TP3Tを達成している。 23.6% の相対的な性能向上が見られた。これは、Mem0論文で報告されたZepのスコア65.99%とは対照的であり、Zepは後述するように実装ミスの直接的な結果である可能性が高いと示唆している。
検索待ち時間(p95検索待ち時間)**に関して、ゼップは、彼のシステムが同時検索用に適切に設定されている場合、p95検索待ち時間は次のようになると述べている。 0.632秒.これは、Mem0のレポートにあるZepの0.778秒(Zepはシーケンシャルサーチの実装によって膨張していると推測している)よりも優れており、Mem0のグラフ検索の待ち時間(0.657秒)よりもわずかに速い。

ここで取り上げている「ゼップ(正解)」を除き、スコアはすべてMem0のレポートによるものである。
Mem0の基本構成(Mem0 Base)がより低い検索レイテンシ(0.200秒)を示していることは注目に値する。しかし、Mem0 Baseは、グラフデータベースのリレーショナル機能を持たない、より単純なベクトルストア/キャッシュを使用しており、また、Mem0の亜種の中で最も低い精度スコアを持っているため、これは完全に等価な比較ではない。Zepの効率的な同時検索は、より複雑なメモリ構造を必要とし、応答性を求めるプロダクショングレードのAIインテリジェンスにとって強力なパフォーマンスを示しており、Zepは、そのレイテンシデータは、AWSのus-west-2環境で、送信用にNATを設定して測定されたと説明している。
LoCoMoベンチマークの限界に疑問の声
Mem0がLoCoMoを研究のベンチマークとして選択したこと自体、Zepによって精査され、設計と実行の両レベルでベンチマークの根本的な欠陥が数多く指摘された。包括的で公平なベンチマークの設計と実行は、それ自体が困難な作業であり、深い専門知識、十分なリソース、テスト対象システムの内部メカニズムの徹底的な理解を必要とする。
ゼップ・チームが指摘したLoCoMoの主な問題点は以下の通り:
- 対話の長さと複雑さが不十分:LoCoMo 中的对话平均长度在 16,000 到 26,000 トークン 之间。虽然这看起来很长,但对于现代 LLM 而言,这通常在其上下文窗口能力范围之内。这种长度未能真正对长期记忆检索能力构成压力。一个有力的证据是,Mem0 自己的结果显示,其系统的表现甚至不如一个简单的“全上下文基线”(即将整个对话内容直接输入 LLM)。全上下文基线的 J 分数约为 73%,而 Mem0 的最佳分数约为 68%。如果简单提供所有文本就能获得比专业记忆系统更好的结果,那么该基准测试就未能充分考察真实世界 AI 智能体交互中对记忆能力的严苛要求。
- 重要な記憶機能のテストに失敗このベンチマークには、テストするために設計された「知識の更新」問題が欠けています。時間の経過に伴う情報の変化(例えば、ユーザーが仕事を変えたときなど)に応じて記憶を更新することは、AIの記憶にとって重要な機能である。
- データ品質の問題データセット自体にはいくつかの欠陥がある:
- 利用できないカテゴリーカテゴリー5は、標準的な回答がないため使用できず、メム0とゼップはこのカテゴリーを評価から除外せざるを得なかった。
- マルチモーダルエラー一部の設問では画像について尋ねているが、データセット作成過程でBLIPモデルが生成した画像説明文には必要な情報が含まれていない。
- スピーカーの誤植いくつかの問題では、間違った発言者の行動や発言を取り上げています。
- 問題の定義が明確でない曖昧な質問もあり、正しい答えが複数ある可能性もあります(例えば、7月と8月の両方にキャンプに行ったことがある人に、いつキャンプに行くかを聞くなど)。
こうしたエラーや矛盾を考えると、AI知能の記憶性能の権威ある指標としてのLoCoMoの信頼性には疑問が残る。残念ながら、LoCoMoは孤立したケースではない。HotPotQAなどの他のベンチマークは、LLM学習データ(ウィキペディアなど)の使用、質問の単純化しすぎ、事実誤認などで批判されている。これは、AIにおいてロバストなベンチマークを実施することの継続的な課題を浮き彫りにしている。
Mem0 ゼップの評価方法に対する批判
LoCoMoベンチマークそのものをめぐる論争に加え、Mem0論文のZepの比較は、Zepによれば欠陥のある実装に基づいており、Zepの真の能力を正確に反映していない:
- 誤ったユーザーモデルMem0は、ユーザーとヘルパーの対話のために設計されたユーザー・グラフ構造を使用するが、ユーザーの役割を対話の双方参加者の皆さん。これはZepの内部ロジックを混乱させ、ダイアログを1人のユーザーが常にメッセージ間でIDを切り替えているとみなす可能性が高い。
- 不適切なタイムスタンプの取り扱いタイムスタンプは、Zep固有のcreated_atフィールドを使用するのではなく、メッ セージの末尾に付加して渡される。この非標準的なアプローチはZepのタイミング推論機能を妨害する。
- 逐次検索と並列検索検索操作は並列ではなく逐次的に実行されるため、Mem0によって報告されるZepの検索待ち時間が人為的に長くなる。
ゼップは、このような実装ミスがゼップがどのように運用されるように設計されているかを根本的に誤解させ、必然的にメム0の論文で報告された成績不振を招いたと主張している。
業界はより良いベンチマーキングを求めている:ゼップがLongMemEvalを支持する理由
LoCoMoが引き起こした論争により、業界はより強固で適切なベンチマークの必要性を強く感じており、ゼップ・チームは以下のようなベンチマークを好むと表明している。 LongMemEval このような評価基準は、LoCoMoの欠点をいくつかの点で補っているからだ:
- 長さと課題には、コンテキストの限界を試すような、かなり長いダイアログ(平均115kトークン)が含まれています。
- 時間的推論と状態変化時間に対する理解と、情報の変化に対応する能力(知識の更新)を明示的に試す。
- 質量高い品質を確保することを目的に、手作業で企画・設計。
- 企業との関連性実際のエンタープライズ・アプリケーションの複雑さと要件をよりよく表している。

ZepはLongMemEvalで強力な性能を発揮し、特にマルチセッション合成や時間推論のような複雑なタスクで、ベースラインと比較して精度と待ち時間の両方で大幅な改善を達成したと報告されている。
ベンチマーキングは複雑な作業であり、競合製品の評価には、比較が公正かつ正確であることを保証するために、より一層の勤勉さと専門知識が必要である。Zep社が提示した詳細な反論から、Mem0社が主張するSOTA性能は、欠陥のあるベンチマーク(LoCoMo社)と競合他社のシステムの欠陥のある実装(Zep社)に基づいているようだ。
同じベンチマークで正しく評価した場合、ZepはMem0を精度の点で大きく上回り、特にグラフベースの実装を比較した場合、検索待ち時間の点で高い競争力を示した。この違いは、信頼できる結論を導き出すためには、厳密な実験デザインと評価対象のシステムを深く理解することが極めて重要であることを強調している。
今後、AIの分野では、より優れた、より代表的なベンチマークが切実に必要とされる。業界オブザーバーはまた、AI知能の長期記憶能力をより有意義に横並びで比較するために、Zepがすでに結果を公表しているLongMemEvalのような、より挑戦的で関連性の高いベンチマークで製品を評価するようMem0チームに奨励している。個々の製品の評価だけでなく、業界全体の技術進歩の正しい方向性にも関わることなのだ。
© 著作権表示
この記事は著作権で保護されており、許可なく複製することは禁じられている。
関連記事
コメントはありません