voyage-3 和 voyage-3-lite:新一代小而强大的通用嵌入模型

Trae

摘要 – 我们很高兴宣布推出 voyage-3 répondre en chantant voyage-3-lite 嵌入模型,这些模型在检索质量、延迟和成本方面达到了新的高度。voyage-3 在所有评估领域(包括代码、法律、金融、多语言和长上下文)中,平均性能比 OpenAI v3 large 提高 7.55%,同时成本降低 2.2 倍,嵌入维度减少 3 倍,从而将 vectorDB 成本降低 3 倍。voyage-3-lite 在检索准确性上比 OpenAI v3 large 提高 3.82%,成本减少 6 倍,嵌入维度也减少 6 倍。两个模型均支持 32K-token 的上下文长度,比 OpenAI 高 4 倍。

 

在过去九个月中,我们发布了 Voyage 2 系列嵌入模型套件,其中包括诸如 voyage-large-2 这样的最先进的通用模型,以及一些面向特定领域的模型,如 voyage-code-2,voyage-law-2,voyage-finance-2 répondre en chantant voyage-multilingual-2,这些模型均在各自领域的数据上进行了充分的训练。例如,voyage-multilingual-2 在法语、德语、日语、西班牙语和韩语中表现出色,同时在英语中也具备一流的性能。我们还为特定企业的特定用例和数据进行了模型微调,例如 Harvey.ai 的法律嵌入模型。

 

现在,我们非常高兴地推出 Voyage 3 系列嵌入模型,包括 voyage-3 répondre en chantant voyage-3-lite,并将在几周后推出 voyage-3-large。这些模型在检索质量上超越了竞争对手,同时显著降低了 vectorDB 的价格和后续成本。具体来说,voyage-3 具有以下特点:

  • 在所有八个评估领域(技术、代码、网络、法律、金融、多语言、保护和长上下文)中,性能平均比 OpenAI v3 large 高 7.55%。
  • 成本比 OpenAI v3 large 低 2.2 倍,比 Cohere English v3 低 1.6 倍,每 100 万 tokens 成本为 $0.06。
  • 嵌入维度比 OpenAI (3072) 和 E5 Mistral (4096) 小 3-4 倍 (1024),从而将 vectorDB 成本降低 3-4 倍。
  • 支持 32K-token 的上下文长度,而 OpenAI 为 8K,Cohere 为 512。
voyage-3 和 voyage-3-lite:新一代小而强大的通用嵌入模型

 

voyage-3-lite 是一个针对延迟和低成本优化的轻量化模型,其特点包括:

  • 在各领域的平均性能比 OpenAI v3 large 高 3.82%。
  • 成本比 OpenAI v3 large 低 6.5 倍,每 100 万 tokens 成本为 $0.02。
  • 在相同价格下,其性能比 OpenAI v3 small 高 7.58%。
  • 嵌入维度比 OpenAI (3072) 和 E5 Mistral (4096) 小 6-8 倍 (512),从而将 vectorDB 成本降低 6-8 倍。
  • 支持 32K-token 的上下文长度,而 OpenAI 为 8K,Cohere 为 512。

以下表格总结了这些模型及其一些竞争对手的重要方面,并附有一个关于检索质量与成本关系的图表 2。

模型维度上下文 长度成本 (每百万 Token)检索 质量 (NDCG@10)
voyage-3102432K$0.0676.72
voyage-3-lite51232K$0.0272.98
OpenAI v3 large30728K$0.1369.17
OpenAI v3 small15368K$0.0267.08
Cohere English v31024512$0.1059.33
E5 Mistral40964K$0.1070.13
BGE M310248K$0.01666.61

 

voyage-3 和 voyage-3-lite:新一代小而强大的通用嵌入模型

 

voyage-3 répondre en chantant voyage-3-lite 是多项研究创新的成果,包括改进的架构、从更大模型的蒸馏、超过 2 万亿高质量 Jeton 的预训练,以及通过人类反馈对检索结果的对齐。

推荐。任何通用嵌入用户可以升级为 voyage-3 以低成本获得更高的检索质量,或选择 voyage-3-lite 进一步节省成本。如果您特别关注代码、法律、金融和多语言检索,Voyage 2 系列的领域专用模型(voyage-code-2,voyage-law-2,voyage-finance-2 répondre en chantant voyage-multilingual-2)仍然是各自领域的最佳选择,即使 voyage-3 的性能也非常具有竞争力(见下文部分)。如果您已经使用 Voyage 嵌入,只需在 Voyage API 调用中将 model 参数指定为 "voyage-3" peut-être "voyage-3-lite",即可用于语料库和查询。

 

评估细节

数据集。我们在 40 个领域专用检索数据集上进行了评估,覆盖了八个领域,包括技术文档、代码、法律、金融、网络评论、多语言、长文档和对话。每个数据集包含一个待检索的语料库和一组查询。语料库通常包括某个特定领域的文档,例如 StackExchange 的答案、法院意见、技术文档等;查询可以是问题、长文档的摘要,或是单个文档。下表列出了除多语言外的八个类别中的数据集。多语言领域覆盖了 26 种语言的 62 个数据集,包括法语、德语、日语、西班牙语、韩语、孟加拉语、葡萄牙语和俄语。其中前 5 种语言有多个数据集,其余语言每种语言包含一个数据集,并在下方的多语言雷达图中归入 OTHER 类别。

类别描述数据集
技术技术文档Cohere, 5G, OneSignal, LangChain, PyTorch
代码代码片段、文档字符串LeetCodeCpp, LeetCodeJava, LeetCodePython, HumanEval, MBPP, DS1000-referenceonly, DS1000, apps_5doc
法律案例、法院意见、法典、专利LeCaRDv2LegalQuADLegalSummarizationAILA casedocsAILA statutes
金融SEC 文件、金融 QARAG benchmark (Apple-10K-2022), FinanceBench, TAT-QA, Finance Alpaca, FiQA Personal Finance, Stock News Sentiment, ConvFinQA, FinQA, HC3 Finance
网络评论、论坛帖子、政策页面Huffpostsports, Huffpostscience, Doordash, Health4CA
长上下文政府报告、学术论文及对话等长文档NarrativeQANeedlePasskeyQMSumSummScreenFDWikimQA
对话会议记录、对话Dialog Sum, QA Conv, HQA

所有评估数据集的列表可在 此电子表格 中查看。

模型。我们评估了 voyage-3 répondre en chantant voyage-3-lite,以及一些替代模型,包括:OpenAI v3 small(text-embedding-3-small)和 large(text-embedding-3-large)、E5 Mistral(intfloat/e5-mistral-7b-instruct)、BGE M3(BAAI/bge-m3)、Cohere English v3(embed-english-v3.0)以及 voyage-large-2-instruct。对于领域专用和多语言数据集,我们还评估了 voyage-law-2,voyage-finance-2,voyage-multilingual-2、Multilingual E5(infloat/multilingual-e5-large)以及 Cohere multilingual v3(embed-multilingual-v3.0).

指标。针对查询,我们根据余弦相似度检索前 10 个文档,并报告归一化折扣累积增益(NDCG@10),这是检索质量的标准指标,也是召回率的一种变体。

 

结果

跨领域检索。如前所述,并在本文的第一个雷达图中显示,voyage-3 在多个领域的表现平均比 OpenAI v3 large 高 7.55%。此外,正如下面柱状图所示,voyage-3 的表现仅略低于 Voyage 的领域特定模型。

voyage-3 和 voyage-3-lite:新一代小而强大的通用嵌入模型

多语言检索。如下面的雷达图所示,voyage-3 的多语言检索质量仅稍逊于 voyage-multilingual-2,但具有更低的延迟和一半的成本。voyage-3-lite 优于所有非 Voyage 模型,分别比 OpenAI v3 large、Cohere multilingual v3 和 Multilingual E5 高出 4.55%、3.13% 和 3.89%。

voyage-3 和 voyage-3-lite:新一代小而强大的通用嵌入模型

所有评估结果均可在 此电子表格 中查看。

 

试用 Voyage 3 系列!

立即试用 voyage-3 répondre en chantant voyage-3-lite!前 200M Tokens 免费。前往我们的 文档 了解更多信息。如果您对微调嵌入感兴趣,我们也非常愿意听到您的意见——请通过 contact@voyageai.com 联系我们。关注我们的 X (Twitter) répondre en chantant LinkedIn,并加入我们的 Discord 以获取更多更新。

  1. Cohere English v3 在 LAW 和 LONG-CONTEXT 数据集上的平均 NDCG@10 分别为 33.32% 和 42.48%。在雷达图可视化中,我们将这些值四舍五入为 45%。
  2. E5 Mistral 和 BGE M3 是开源模型。我们使用 $0.10 作为 E5 Mistral 的成本,这符合业界对 7B 参数模型的标准;BGE M3 的成本为 $0.016,这是基于 Fireworks.ai 对 350M 参数模型的 价格 估算的。
© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

aucun
Pas de commentaires...