LongBench v2:评估长文本+o1?

LongBench v2: Auswertung von Langtext +o1?

评估大模型在真实世界、长文本、多任务中的「深度理解与推理」能力 近年来,长文本大语言模型的研究取得了显著进展,模型的上下文窗口长度已经从最初的 8k 扩展到 128k 甚至 1M 个 tokens。然...
vor 6 Monaten
09540