Ming-lite-omni - Macromodelos multimodais unificados de código aberto pela equipe do Ant 100

吐司AI

O que é Ming-lite-omni?

O Ming-Lite-Omni é um big model multimodal unificado e de código aberto da equipe Bailing Big Model do Ant Group, desenvolvido com base na arquitetura altamente eficiente Mixture of Experts (MoE). O Ming-Lite-Omni é compatível com o processamento de dados multimodais, como texto, imagem, áudio e vídeo, e possui recursos avançados de compreensão e geração. O Ming-Lite-Omni é otimizado para eficiência computacional, suporta processamento de dados em larga escala e interação em tempo real, além de ser altamente dimensionável. O Ming-Lite-Omni é altamente dimensionável e tem uma ampla gama de cenários de aplicação, oferecendo aos usuários uma solução inteligente integrada com uma ampla perspectiva de aplicação.

Ming-lite-omni - 蚂蚁百灵团队开源的统一多模态大模型

Principais recursos do Ming-lite-omni

  • interação multimodalSuporte a várias entradas e saídas, como texto, imagem, áudio, vídeo, etc., para uma experiência de interação natural e suave. Suporte ao diálogo em várias rodadas para proporcionar uma interação coerente.
  • Compreensão e geraçãoRecursos avançados de compreensão para reconhecer e entender com precisão os dados em várias modalidades. Recursos eficientes de geração, com suporte à geração de conteúdo de texto, imagem, áudio e vídeo de alta qualidade.
  • Processamento eficienteArquitetura MoE: Com base na arquitetura MoE, otimiza a eficiência computacional e oferece suporte ao processamento de dados em grande escala e à interação em tempo real.

Endereço do site oficial da Ming-lite-omni

Como usar o Ming-lite-omni

  • Preparação ambiental::
    • Instalação do PythonPython 3.8 ou superior é recomendado. Faça o download e instale-o no site do Python.
    • Instalação de bibliotecas dependentesInstale as bibliotecas de dependência necessárias executando o seguinte comando em um terminal ou na linha de comando.
pip install -r requirements.txt
pip install data/matcha_tts-0.0.5.1-cp38-cp38-linux_x86_64.whl
pip install diffusers==0.33.0
pip install nvidia-cublas-cu12==12.4.5.8  # 如果使用NVIDIA GPU
  • Modelos para downloadFaça o download do modelo Ming-Lite-Omni do Hugging Face.
git clone https://huggingface.co/inclusionAI/Ming-Lite-Omni
cd Ming-Lite-Omni
  • Modelos de carregamentoUse o código a seguir para carregar o modelo e o processador:
import os
import torch
from transformers import AutoProcessor, GenerationConfig
from modeling_bailingmm import BailingMMNativeForConditionalGeneration

# 设置模型路径
model_path = "Ming-Lite-Omni-Preview"

# 加载模型
model = BailingMMNativeForConditionalGeneration.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True
).to("cuda")

# 加载处理器
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
  • Preparação para inserir dadosMing-Lite-Omni é compatível com uma variedade de entradas modais, como, por exemplo, entradas de texto e imagem.
    • entrada de texto::
messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "text", "text": "请详细介绍鹦鹉的生活习性。"}
        ],
    },
]
    • entrada de imagem::
messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "image", "image": os.path.join("assets", "flowers.jpg")},
            {"type": "text", "text": "What kind of flower is this?"}
        ],
    },
]
  • Pré-processamento de dadosPré-processamento de dados de entrada usando um processador:
text = processor.apply_chat_template(messages, add_generation_prompt=True)
image_inputs, video_inputs, audio_inputs = processor.process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    audios=audio_inputs,
    return_tensors="pt",
)
inputs = inputs.to(model.device)
for k in inputs.keys():
    if k == "pixel_values" or k == "pixel_values_videos" or k == "audio_feats":
        inputs[k] = inputs[k].to(dtype=torch.bfloat16)
  • raciocínio modeladoInvocar o modelo para realizar a inferência e gerar o resultado:
generation_config = GenerationConfig.from_dict({'no_repeat_ngram_size': 10})
generated_ids = model.generate(
    **inputs,
    max_new_tokens=512,
    use_cache=True,
    eos_token_id=processor.gen_terminator,
    generation_config=generation_config,
)
generated_ids_trimmed = [
    out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
print(output_text)
  • resultado de saídaO modelo gera os outputs apropriados para processar ou apresentar os resultados conforme necessário.

Principais benefícios do Ming-Lite-Omni

  • fusão multimodalSuporte a entradas e saídas de texto, imagem, áudio e vídeo para interação multimodal completa.
  • Arquitetura eficienteRoteamento dinâmico: Com base na arquitetura Mixture of Experts (MoE), o roteamento dinâmico otimiza a eficiência computacional e reduz o desperdício de recursos.
  • Harmonização do entendimento e da geraçãoA arquitetura do codificador-decodificador oferece suporte à compreensão e à geração integradas, proporcionando uma experiência interativa coerente.
  • Raciocínio otimizadoO mecanismo de atenção linear híbrida reduz a complexidade computacional, oferece suporte à interação em tempo real e é adequado para cenários de resposta rápida.
  • amplamente utilizadoAplicável a uma variedade de campos, como atendimento inteligente ao cliente, criação de conteúdo, educação, saúde e escritório inteligente.
  • Código aberto e suporte da comunidadeModelo de código aberto com uma comunidade que fornece uma grande quantidade de recursos para que os desenvolvedores possam começar a trabalhar e inovar rapidamente.

Pessoas para as quais o Ming-Lite-Omni é adequado

  • usuário corporativoEmpresas de tecnologia e negócios de criação de conteúdo que precisam de soluções multimodais eficientes.
  • Educadores e alunosProfessores e alunos que desejam usar a IA para auxiliar seu ensino e aprendizado.
  • profissional de saúdeProfissionais da área de saúde que precisam de assistência com análise de registros médicos e interpretação de imagens médicas.
  • Usuários inteligentes do OfficeFuncionários e gerentes de organizações que precisam processar documentos e melhorar a eficiência do escritório.
  • consumidor médioUsuários individuais que usam dispositivos inteligentes e precisam gerar conteúdo criativo.
© declaração de direitos autorais
AiPPT

Artigos relacionados

Sem comentários

nenhum
Nenhum comentário...