voyage-3 e voyage-3-lite: uma nova geração de modelos de incorporação de uso geral pequenos, mas eficientes

Notícias sobre IAPublicado há 6 meses Sharenet.ai
1.1K 0
吐司AI

resumos - Temos o prazer de anunciar o lançamento do voyage-3 responder cantando voyage-3-lite modelos incorporados que alcançaram novos patamares em termos de qualidade de recuperação, latência e custo.voyage-3 Melhoria média de desempenho de 7,55% em relação ao OpenAI v3 large em todos os domínios de avaliação, incluindo código, jurídico, financeiro, multilíngue e contextos longos, juntamente com uma redução de custo de 2,2x e uma redução de 3x nas dimensões de incorporação, resultando em uma redução de 3x no custo do vectorDB.voyage-3-lite Ele melhora a precisão da recuperação em 3,82% em relação ao OpenAI v3 large, reduz o custo em um fator de 6 e reduz a dimensionalidade da incorporação em um fator de 6. Ambos os modelos suportam o comprimento de contexto de 32K tokens, que é 4 vezes maior que o OpenAI.

 

Nos últimos nove meses, lançamos a série Voyage 2 de kits de modelos incorporados, que incluem recursos como voyage-large-2 Esses modelos de uso geral de última geração, bem como vários modelos específicos de domínio, como voyage-code-2evoyage-law-2evoyage-finance-2 responder cantando voyage-multilingual-2Todos esses modelos são adequadamente treinados em dados de seus respectivos domínios. Por exemplo.voyage-multilingual-2 Excelente desempenho em francês, alemão, japonês, espanhol e coreano, além do melhor desempenho da categoria em inglês. Também ajustamos o modelo para casos de uso específicos e dados de organizações específicas, como Harvey.ai do modelo de incorporação legal.

 

Agora temos o prazer de apresentar a linha Voyage 3 de modelos incorporados, incluindo voyage-3 responder cantando voyage-3-litee estará disponível em algumas semanas voyage-3-large. Esses modelos superam a concorrência em termos de qualidade de recuperação e, ao mesmo tempo, reduzem significativamente o preço e o custo subsequente do vectorDB. Especificamente.voyage-3 Com as seguintes características:

  • O desempenho foi, em média, 7,55% superior ao do OpenAI v3 large em todos os oito domínios de avaliação (técnico, código, web, jurídico, financeiro, multilíngue, proteção e contexto longo).
  • Custa 2,2x menos que o OpenAI v3 large, 2,2x menos que o Coesão A English v3 é 1,6 vezes menor por 1 milhão. tokens O custo é $0.06.
  • dimensão de incorporação do que o OpenAI (3072) e o E5 Mistral (4096) é de 3 a 4 vezes menor (1024), reduzindo o custo do vectorDB por um fator de 3 a 4.
  • Oferece suporte a comprimentos de contexto de 32K token, em comparação com 8K para OpenAI e 512 para Cohere.
voyage-3 和 voyage-3-lite:新一代小而强大的通用嵌入模型

 

voyage-3-lite é um modelo leve otimizado para latência e baixo custo, com recursos que incluem:

  • O desempenho médio em todos os domínios é 3,82% superior ao do OpenAI v3 large.
  • O custo é 6,5 vezes menor do que o do OpenAI v3 grande, de $0,02 por 1 milhão de tokens.
  • Ele supera o OpenAI v3 small em 7,58% pelo mesmo preço.
  • A dimensão de incorporação é 6 a 8 vezes menor (512) do que a do OpenAI (3072) e do E5 Mistral (4096), o que reduz o custo do vectorDB em 6 a 8 vezes.
  • Oferece suporte a comprimentos de contexto de 32K token, em comparação com 8K para OpenAI e 512 para Cohere.

A tabela a seguir resume aspectos importantes desses modelos e de alguns de seus concorrentes, e é acompanhada por uma representação gráfica da relação entre a qualidade da recuperação e o custo2 .

modelagemdimensão (matemática)Comprimento do contextoCusto (por milhão de tokens)Qualidade da recuperação (NDCG@10)
viagem-3102432K$0.0676.72
voyage-3-lite51232K$0.0272.98
OpenAI v3 grande30728K$0.1369.17
OpenAI v3 pequeno15368K$0.0267.08
Cohere English v31024512$0.1059.33
E5 Mistral40964K$0.1070.13
BGE M310248K$0.01666.61

 

voyage-3 和 voyage-3-lite:新一代小而强大的通用嵌入模型

 

voyage-3 responder cantando voyage-3-lite é o resultado de várias inovações de pesquisa, incluindo arquiteturas aprimoradas, destilação de modelos maiores, mais de 2 trilhões de produtos de alta qualidade e mais de 1 trilhão de produtos de alta qualidade. Token de pré-treinamento e o alinhamento dos resultados de recuperação por meio de feedback humano.

depoimentos. Qualquer usuário incorporado genérico pode atualizar para voyage-3 maior qualidade de pesquisa a um custo menor, ou optar por voyage-3-lite Mais economia de custos. Se você estiver particularmente preocupado com pesquisas de códigos, jurídicas, financeiras e multilíngues, os modelos específicos de domínio do Voyage 2 Series (voyage-code-2evoyage-law-2evoyage-finance-2 responder cantando voyage-multilingual-2) continuam sendo a melhor opção em seus respectivos campos, embora o voyage-3 O desempenho também é muito competitivo (consulte a seção abaixo). Se já estiver usando o Voyage Embedding, basta adicionar uma nova seção à seção API do Voyage A chamada será model O parâmetro é especificado como "voyage-3" talvez "voyage-3-lite"que pode ser usado para corpus e consultas.

 

Detalhes da avaliação

conjunto de dados. Avaliamos 40 conjuntos de dados de recuperação de domínio específico que abrangem oito domínios, incluindo documentos técnicos, códigos, leis, finanças, análises da Web, documentos multilíngues, longos e diálogos. Cada conjunto de dados contém um corpus a ser recuperado e um conjunto de consultas. O corpus geralmente consiste em documentos em um domínio específico, como respostas do StackExchange, opiniões de tribunais, documentos técnicos etc.; as consultas podem ser perguntas, resumos de documentos longos ou documentos individuais. A tabela abaixo lista os conjuntos de dados em oito categorias, além de multilíngue. O domínio Multilíngue abrange 62 conjuntos de dados em 26 idiomas, incluindo francês, alemão, japonês, espanhol, coreano, bengali, português e russo. Os primeiros cinco desses idiomas têm vários conjuntos de dados, enquanto os idiomas restantes contêm um conjunto de dados por idioma e estão agrupados na categoria OUTROS no gráfico de radar multilíngue abaixo.

formuláriodescriçõesconjunto de dados
habilidadedocumento técnicoCohere, 5G, OneSignal, LangChain, PyTorch
codificaçãoTrechos de código, cadeias de documentosLeetCodeCpp, LeetCodeJava, LeetCodePython, HumanEval, MBPP, DS1000-apenas para referência, DS1000, apps_5doc
legislaçãoCasos, pareceres de tribunais, códigos, patentesLeCaRDv2LegalQuADLegalSummarisationCasedocs da AILAEstatutos da AILA
financeiroRegistros na SEC, controle de qualidade financeiroRAG benchmark (Apple-10K-2022), FinanceBench, TAT-QA, Finance Alpaca, FiQA Personal Finance, Stock News Sentiment, ConvFinQA, FinQA, HC3 Finance
reticulaçãoComentários, postagens em fóruns, páginas de políticasHuffpostsports, Huffpostscience, Doordash, Health4CA
contexto longoLongos arquivos de relatórios governamentais, trabalhos acadêmicos, diálogos, etc.NarrativaQAAgulhaChave de acessoQMSumSummScreenFDWikimQA
diálogosAnais, diálogoSoma de diálogos, QA Conv, HQA

Uma lista de todos os conjuntos de dados de avaliação pode ser encontrada na seção Essa planilha Veja em.

modelagem. Avaliamos o voyage-3 responder cantando voyage-3-litebem como uma série de modelos alternativos, incluindo: OpenAI v3 small (text-embedding-3-small) e grande (text-embedding-3-large), E5 Mistral (intfloat/e5-mistral-7b-instruct), BGE M3 (BAAI/bge-m3Cohere English v3.embed-english-v3.0) e voyage-large-2-instruct. Para conjuntos de dados multilíngues e de domínio específico, também avaliamos voyage-law-2evoyage-finance-2evoyage-multilingual-2Multilíngue E5.infloat/multilingual-e5-large) e Cohere multilingual v3 (embed-multilingual-v3.0).

norma. Para a consulta, recuperamos os 10 principais documentos com base na similaridade de cosseno e relatamosGanho acumulado descontado normalizado(NDCG@10), que é um indicador padrão da qualidade da recuperação e uma variante da recuperação.

 

no final

Pesquisa entre domínios. Como mencionado anteriormente, e mostrado no primeiro gráfico de radar deste documento, ovoyage-3 tem um desempenho em média 7,55% melhor do que o OpenAI v3 large em vários domínios. Além disso, conforme mostrado no gráfico de barras abaixo.voyage-3 é apenas ligeiramente inferior ao modelo específico de domínio do Voyage.

voyage-3 和 voyage-3-lite:新一代小而强大的通用嵌入模型

pesquisa multilíngue. Conforme mostrado no gráfico de radar abaixo.voyage-3 A qualidade da pesquisa multilíngue é apenas ligeiramente inferior à da voyage-multilingual-2mas com menor latência e metade do custo.voyage-3-lite Supera todos os modelos que não são do Voyage em 4,55%, 3,13% e 3,89% em relação ao OpenAI v3 large, Cohere multilingual v3 e Multilingual E5, respectivamente.

voyage-3 和 voyage-3-lite:新一代小而强大的通用嵌入模型

Todos os resultados da avaliação estão disponíveis em Essa planilha Veja em.

 

Experimente o Voyage Série 3!

Experimente agora voyage-3 responder cantando voyage-3-lite! Os primeiros 200 milhões de tokens são gratuitos. Acesse nosso Arquivo (de computador) Saiba mais. Se estiver interessado em ajustar a incorporação, gostaríamos de ouvi-lo também - entre em contato conosco em contact@voyageai.com Entre em contato conosco. Siga-nos em X (Twitter) responder cantando LinkedIne participe de nossa Discórdia para obter mais atualizações.

  1. O NDCG@10 médio do Cohere English v3 nos conjuntos de dados LAW e LONG-CONTEXT é de 33,32% e 42,48%, respectivamente. Na visualização do radargrama, arredondamos esses valores para 45%.
  2. O E5 Mistral e o BGE M3 são modelos de código aberto. Usamos $0.10 como custo do E5 Mistral, que está de acordo com o padrão do setor para modelos paramétricos 7B, e $0.016 para o BGE M3, que se baseia no custo do Fireworks.ai para modelos paramétricos 350M. preços Estimado.
© declaração de direitos autorais
AiPPT

Related posts

Sem comentários

nenhum
Nenhum comentário...