Zuversichtliche KI: ein Rahmen für die automatische Bewertung großer Sprachmodelle, der die Qualität der Ausgabe verschiedener großer Modellstichwörter vergleicht
Umfassende Einführung DeepEval ist ein einfach zu bedienendes Open-Source-LLM-Evaluierungs-Framework zur Evaluierung und zum Testen großer Sprachmodellierungssysteme. Es ist ähnlich wie Pytest, konzentriert sich aber auf Unit-Tests von LLM-Ausgaben. DeepEval kombiniert die neuesten Forschungsergebnisse durch G-Eval, Phantom- und...