Lançamento do Hybrid-T1: habilitado para Mamba, redefinindo a velocidade de inferência
Recentemente, o campo da modelagem de linguagem em grande escala tem recebido cada vez mais atenção do setor para novos paradigmas de aprendizagem por reforço nos estágios finais do treinamento. Após a introdução de modelos da série O, como o GPT-4o da OpenAI e o lançamento do DeepSeek-R1, o excelente desempenho dos modelos prova que a aprendizagem por reforço no processo de otimização...