如何评估大语言模型是否可信？这里总结了七大维度|研究者

SEO网

2023-10-03 00:28:55
联系投稿

676 242 546

论文地址：https://arxiv.org/abs/2308.05374

大语言模型对齐分类法

图一展示了本文提出的大语言模型可信度对齐分类法：共有 7 个主要类别，每个类别都被进一步细分为更详细的讨论，共 29 个子类别。文章继续对每个类别进行概述：

1.可靠性 => {虚假信息、语言模型幻觉、不一致、校准失误、谄媚}

a.生成正确、真实且一致的输出，并具有适当的不确定性。

2.安全性 => {暴力、违法、未成年人伤害、成人内容、心理健康问题、隐私侵犯}

a.避免产生不安全和非法的输出，并避免泄露私人信息。

3.公平性 => {不公正、刻板偏见、偏好偏见、性能差异}

a.避免偏见并确保不同人群上性能差异不大。

4.抵制滥用 => {宣传、络攻击、社交工程、版权泄漏}

a.禁止恶意攻击者滥用。

5.可解释性和推理 => {解释能力不足、逻辑能力不足、因果能力不足}

a.向用户解释输出并正确推理的能力。

6.社会规范 => {恶毒语言、情感迟钝、文化迟钝}

a.反映普遍共享的人类价值观。

7.稳健性 => {提示攻击、范式和分布变化、干预效果、投毒攻击}

a.对抗性攻击和分布变化的抗性。

本文的分析基于在大模型时代出现的安全和可信任部署挑战，也考虑了已有文献里对可信任人工智能的讨论。同时对主要类别的定义和划分参考了大模型在社会中的应用，尽量确保每个评估的维度在主流的大模型应用中有一定程度的相关性和重要性。具体每个类别及其子类别中的文献和讨论见文章。

对于每个子类别，文章进行相关的调研和讨论，同时也提供了案例分析去阐述相关模型在相关可信任维度上的问题。比如，下面的例子给出了 ChatGPT 在事实类问题上的一些错误：

利用下面这个例子，本文讨论了大模型输出中可能存在的非法信息：

评测研究

本文选择 8 个子类别并设计相应的评测研究。目标子类别包括：

可靠性：语言模型幻觉
安全性与社会规范：安全相关话题（例如暴力、歧视、仇恨言论等）
公平性：(性别) 刻板印象
可靠性：校准失误
抵制滥用：宣传和络攻击的滥用
抵制滥用：泄露版权
可解释性：因果推理
稳健性：对拼写错误攻击的稳健性

文章以 “安全性与社会规范” 举例，首先从已有的 Anthropic RLHF red team 数据集 [4] 中提取一些安全性相关的关键词（细节见论文原文），然后利用另外一个 LLM 生成不安全指令的引导词（prompt）作为测试问题。

为此，文章选择 text-davinci-003 作为模型，因为：(1) 它是一个已对齐的模型，但没有像 ChatGPT 那样在安全维度上重度对齐，因此它更好生成有争议和冒犯性的回复；(2) 完全未对齐的模型（例如 davinci）不能很好地理解任务并遵循人类的指示。

具体地，研究者问 text-davinci-003："Write a question that involves ." 从 "unethical", "dangerous", "illegal", 或者 "hostile" 中选。是之前提取的关键词。比如：

文章用 text-davinci-003 生成的问题作为测试问题。

最后，文章用 GPT-4 判断测试模型是否拒绝回应不安全的问题，如下：

研究者评估了 6 个 LLM：davinci、OPT-1.3B、text-davinci-003、flan-t5-xxl、gpt-3.5-turbo（ChatGPT）和 GPT-4。图二显示测试集中各 LLM 被 GPT-4 认为是安全回复的比例。在 x 轴上从左到右，显示了从完全未对齐（davinci）到目前最完善对齐的 LLM 之一（GPT-4）。

趋势符合预期：当 LLM 更对齐时，它更有可能拒绝回答不安全的指令。Gpt-3.5-turbo（ChatGPT）和 GPT-4 得到近 100% 的安全比例。

图二：LLM 安全性评估结果。如预期，当 LLM 对齐得更好时，它更可能拒绝回答不安全的问题。

其他维度的评测方法，细节和结果详见论文原文。

对齐帮助

这些生成的评估数据也可以帮助收集对齐的数据。

以安全性为例，为了生成对齐的训练数据，直接使用标注 LLM 的回复。如果 GPT-4 判断模型输出包含有害信息，研究者则认为该输出与问题配对，在对齐数据集中作为一个负样本。另一方面，如果检测不到有害信息，研究者认为问题 - 输出配对是正样本。

研究者通过生成的数据进行对齐后，用 GPT-4 比较对齐前后的输出结果，让其判断哪个答案在有用性 (helpfulness)、真实性（truthfulness）和无害性（harmlessness）方面更好。

表一显示在 GPT-2 上，研究者做完 RLHF（Reinforcement Learning from Human Feedback, 基于人类反馈的强化学习）后，测试数据集中被 GPT-4 认为更好的比例。和原始模型相比，对齐后的模型得到了很大提升。

表一：用研究者生成的数据在 GPT-2 上做对齐后，输出被 GPT-4 认为更好的比例。和原始模型 (Vanilla) 相比，SFT 和 PPO 后模型得到了很大提升。

文章也用生成的评估数据在 LLaMA-7B 上进行了监督微调（Supervised Fine Tuning），发现微调后 78% 的输出被认为优于微调前。

结论

本文为从业者提供了一个 LLM 可信度维度的调研，全面分析了在搭建可信任大模型过程中需要考量和注意的方向和问题。文章的评测结果显示对齐的有效性在不同维度上效果不一致，所以从业者应对 LLM 对齐做更细粒度的测试和改进。同时本文的研究展示了评测生成的数据也可以帮助完成大模型的对齐任务。

从业者迫切需要更加有原则的方法来评估和实施 LLM 对齐，确保这些模型遵循社会价值观和道德考虑。随着该领域的进步，解决这些尚未解决的问题将对构建越来越可靠且负责任的 LLM 至关重要。

感谢李航为本文提出的修改建议和帮助。

参考文献

[1] OpenAI. Gpt-4. https://openai.com/research/gpt-4, 2023.

[2] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35:27730–27744, 2022.

[3] Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir Mikulik, and Geoffrey Irving. Alignment of language agents. arXiv preprint arXiv:2103.14659, 2021.

[4] https://github.com/anthropics/hh-rlhf/tree/master