Petals:分布式共享GPU运行和微调大语言模型,像BitTorrent网络一样共享GPU资源

Petals : exécution distribuée et partagée de modèles linguistiques de grande taille sur GPU, partageant les ressources GPU comme un réseau BitTorrent.

Introduction générale Petals est un projet open source développé par le BigScience Workshop pour exécuter de grands modèles de langage (LLM) par le biais d'une approche informatique distribuée. Les utilisateurs peuvent exécuter les LLM chez eux en utilisant des GPU grand public ou Google Co...
Il y a 7 mois
01.2K
Aphrodite Engine:高效的LLM推理引擎,支持多种量化格式和分布式推理。

Moteur Aphrodite : un moteur d'inférence LLM efficace qui supporte plusieurs formats de quantification et l'inférence distribuée.

Introduction générale Le moteur Aphrodite est le moteur dorsal officiel de PygmalionAI, conçu pour fournir un point final d'inférence pour les sites PygmalionAI et pour soutenir le déploiement rapide de modèles compatibles avec Hugging Face. Le moteur utilise le p...
Il y a 7 mois
01.1K
llama.cpp:高效推理工具,支持多种硬件,轻松实现LLM推理

llama.cpp : outil d'inférence efficace, supporte plusieurs matériels, facile à implémenter l'inférence LLM

Introduction générale llama.cpp est une bibliothèque implémentée en C/C++ pur, conçue pour simplifier le processus d'inférence pour les grands modèles de langage (LLM). Elle prend en charge un large éventail de plates-formes matérielles, y compris Apple Silicon, les GPU NVIDIA et les GPU AMD, et fournit une variété de quant...
Il y a 4 mois
01.6K