2023-06-27 13:26:23 来源:IT之家 阅读量:19578
大模型这么多,到底该用哪一个?并且生成结果时好时坏,怎么破。
现在有一种方法,一招整合各家 LLM 特长,性能值拉满!让你不做选择全都拿捏。
现在通过 LLM-Blender 大模型集成框架,你输入问题,自动帮你排序各家 LLM 结果,然后“融合生成”最佳答案。
就像一个水果榨汁机,各个开源 LLM 代表不同水果,一箩筐放进去,根据不同水果特点,调配比例榨出好喝的果汁。
这个方法不仅可以有效减轻单一 LLM 中偏见错误和不确定性信息,且输出结果比“单用效果最好的 LLM”还要高不少。
对此网友惊呼:简直太赞了!
博采众长,一个大模型搅拌机
现在开源大模型这么多,说到性能也是千差万别。通常我们都会直接选择最好的模型,来 Prompt 结果。
然鹅,这种方法也有一些限制。比如我们无法考虑所有可能的模型输出,并且新的数据可能导致我们选择不同的最佳结果。
现在的方法,要么是直接通过打分对比输出答案,要么也会对不同 LLM 答案进行融合,但整个过程仍会保留有害、或不正确的信息,输出结果相应也会大打折扣。
因此,为了解决这个问题和提高 LLM 的鲁棒性、泛化和准确性,Allen AI 实验室联合南加大和浙江大学的发表最新研究论文。
论文提出一个用集成框架“LLM-Blender”,集合多个开源大模型的优势,通过排序和融合生成两种方式,比较不同 LLM 生成结果,然后融合择优输出。
LLM-Blender 主要包含两个模块“PairRanker”和“GenFuser”。
PairRanker 模块是一个 BERT 结构的编码器,通过双向注意机制捕捉输出结果之间的细微差异,然后对候选输出进行排名。
PairRanker 的运行流程是这样的。
首先,它会收集 N 个模型对每个输入的输出,并创建所有可能的输出对。
然后,使用特殊的编码器来比较这些输出对,以确定哪个候选输出更好,捕捉到微小的差异。
在推理阶段,计算一个矩阵,其中包含了所有输出对的比较结果。再根据矩阵确定给定输入的所有输出排名顺序。
最后,选择每个输入中排名最高的候选输出作为最终结果。
GenFuser 模块则是一个基于 Transformer 的编码器-解码器结构,使用单个编码器对输入文本和一些候选者进行编码,然后使用单个解码器解码融合的输出。
值得注意的是,它只将排名靠前的输出结果放入编码器,这样既避免了“噪音”感染,还能提升输出结果质量。
总结一下,LLM-Blender 的运转流程:
PairRanker 比较 N 个 LLM 的输出,然后通过 GenFuser 将它们融合,从排名前 N 的输出中生成最佳结果。
按照论文解释,通过这个运作流程,就能有效筛选并集合生成优质答案。
那么到底效果如何,下面是团队的评估过程。
集成 LLM 结果优于单个 LLM
为了保证可以在大量数据基础上进行评估,团队专门引入基准数据集 MixInstruct,用于在指令跟随任务中对 LLM 的集成模型进行基准测试。
团队对数据集中的 10 万个样本进行训练,5000 个用于验证,5000 个用于测试。然后,在这 11 万个示例上测试 11 个当下热门的开源大模型,比如 Vicuna、OpenAssistant、Alpaca、MPT 等。
根据对多个 LLM 模型在 MixInstruct 数据集上的表现,可以看到不同模型在表现上存在显著差异,各有优劣。其中,Open Assistant、Vicuna 和 Alpaca 是表现最好三个模型,而 Mosaic MPT、StableLM 和 Flan-T5 排名则较低。
其次,实验还得出部分优秀的模型表现并不稳定,许多其他模型的表现都优于它们。
例如,Koala 的平均 GPT-Rank 为 6.76,但大约 40% 的测试结果表明 Koala 产生了更好或同样优于 Open Assistant 和 Vicuna 的结果。
另外也可以看到,在排名工具这部分,与 BARTScore 和 GPT-Rank 的最佳模型 相比,PairRanker 表现出更好的性能。
并且团队表示,使用从 PairRanker 中选出的前三名,并将其作为 GenFuser 的候选。在此基础上,LLM-Blender 展示了预期的卓越性能。尤其是在 GPT-Rank 方面,达到了 3.01,明显超过了最佳模型 Open Assistant 的。
在 BERTScore、BARTScore(-3.02)和 BELURT(-0.17)三个排名里得分也都不错。
实验证明,通过将 LLM-Blender 框架进行排名和融合,显著提高了 LLM 最终输出结果的质量。
团队提出 LLM-Blender 一个创新的集成框架,通过排名的方式来减少单个 LLM 的弱点,并通过融合生成来整合优势,来提高 LLM 的能力,可以说非常新颖。
不过该方法仍有一些可以优化的地方,比如引入更多的语言模型、使用不同的相似度计算方法等。
研究团队
论文由 Allen AI 实验室联合南加大和浙江大学一同发表,三位作者都来自中国,且都与南加大有关联。
姜东甫是浙江大学计算机工程专业大四学生,即将去加拿大滑铁卢大学读 PhD,此前曾在南加大(USC)做过研究实习生,当时的导师正好是另外两名作者。
任翔是南加大计算机科学系副教授和 INK 实验室主任,在艾伦人工智能研究所研究机器常识,也是谷歌学者。
林禹臣是现任艾伦人工智能研究所青年研究员,本科在上海交大读计算机,PhD 在南加大也是计算机相关专业。
此外,南加大 NK 实验室、艾伦人工智能研究所的 Mosaic 团队的学者也参与了这一项目。
论文传送门:
参考链接: