Instituto de Engenharia de IA: 3Fine-tuning (ajuste fino de grandes modelos de linguagem)
Estrutura do banco de dados
Modelos/Catálogo | Descrição e conteúdo |
---|---|
Axolote | Uma estrutura para ajuste fino de modelos de linguagem |
Gemma | A mais recente implementação do Google do Big Language Model |
- finetune-gemma.ipynb - gemma-sft.py - Gemma_finetuning_notebook.ipynb | Ajuste fino de notebooks e scripts |
LLama2 | Modelo de linguagem grande de código aberto da Meta |
- generate_response_stream.py - Llama2_finetuning_notebook.ipynb - Llama_2_Fine_Tuning_using_QLora.ipynb | Diretrizes de implementação e ajuste fino |
Llama3 | Próximos experimentos com modelagem de linguagem metagrande |
- Llama3_finetuning_notebook.ipynb | Experimentos iniciais de ajuste fino |
LlamaFactory | Uma estrutura para treinamento e implementação de grandes modelos de linguagem |
LLMArchitecture/ParameterCount | Detalhes técnicos da arquitetura do modelo |
Mistral-7b | IA Mistral O modelo de 7 bilhões de parâmetros |
- LLM_evaluation_harness_for_Arc_Easy_and_SST.ipynb - Mistral_Colab_Finetune_ipynb_Colab_Final.ipynb - notebooks_chatml_inference.ipynb - notebooks_DPO_fine_tuning.ipynb - notebooks_SFTTrainer TRL.ipynb - SFT.py | Caderno integrado para avaliação, ajuste fino e raciocínio |
Mixtral | Modelo de mistura de especialistas da Mixtral |
- Mixtral_fine_tuning.ipynb | Realização de ajustes finos |
VLM | modelo de linguagem visual |
- Florence2_finetuning_notebook.ipynb - PaliGemma_finetuning_notebook.ipynb | Implementação do modelo de linguagem visual |
Visão geral do módulo
1. arquitetura do LLM
- Explore as seguintes implementações de modelos:
- Llama2 (modelo de código aberto do Meta)
- Mistral-7b (modelo eficiente de 7 bilhões de parâmetros)
- Mixtral (arquitetura de mistura especializada)
- Gemma (a mais recente contribuição do Google)
- Llama3 (próximo experimento)
2. 🛠️ tecnologia de ajuste fino
- estratégia de implementação
- Metodologia LoRA (Low Rank Adaptation)
- Métodos avançados de otimização
3. 🏗️ análise da arquitetura do modelo
- Um estudo aprofundado da estrutura do modelo
- Método de cálculo do parâmetro
- Considerações sobre escalabilidade
4. 🔧 Realização profissional
- Code Llama para tarefas de programação
- Modelagem de linguagem visual:
- Florença2
- PaliGemma
5. 💻 Aplicações práticas
- Notebook Jupyter integrado
- Pipeline de geração de respostas
- Guia de implementação de raciocínio
6. 🚀 Temas avançados
- DPO (otimização de preferência direta)
- SFT (ajuste fino supervisionado)
- Metodologia de avaliação
© declaração de direitos autorais
O artigo é protegido por direitos autorais e não deve ser reproduzido sem permissão.
Artigos relacionados
Nenhum comentário...