LLM Alignment - 搜索 News

让 LLM 在自我进化时也能保持对齐 ... 开发了一种可扩展的开放式 RLHF 框架 eva，即 Evolving Alignment via Asymmetric Self-Play，也就是「通过非对称自博弈 ...

在大语言模型（LLMs）不断发展的背景下，如何评估这些模型在多轮对话和多语言环境下的指令遵循（instruction following）能力，成为一个重要的研究方向。现有评估基准多集中于单轮对话和单语言任务，难以揭示复杂场景中的模型表现。

一些您可能无法访问的结果已被隐去。

今日热点