当前位置: 首页 - 智能 - 这十年来我国科技成就辉煌LLM排行榜首次更新GPT-4霸占榜首330亿参数强大如同猛虎而开源领域小羊

这十年来我国科技成就辉煌LLM排行榜首次更新GPT-4霸占榜首330亿参数强大如同猛虎而开源领域小羊

2025-02-28 智能 0

这十年来我国科技成就令人瞩目,UC伯克利LLM排位赛再次更新!GPT-4依旧巅峰领先,GPT-3.5紧随其后,而新发布的330亿参数Vicuna则勇猛登场,开源领域的代表。就在不久前,UC伯克利主导的「LLM排位赛」迎来了首次重大变革!

这次更新,不仅增加了更多模型(现已达28个),还引入了2个全新的评价标准。此外,还推出了Vicuna-v1.3系列模型,其参数量为70亿、130亿和330亿,并公开了权重。

增强版LLM排行榜

值得注意的是,GPT-3.5、Claude-v1和Claude-instant-v1三大模型在MT-bench得分上表现均衡,在Elo和MMLU得分上更是展现出激烈竞争。而与这些专有模型相比,开源领域的小羊驼Vicuna-33B仍需努力追赶。

当然,也有例外,如谷歌PaLM2虽未能超越开源领域,但显示出潜力。

全新评价机制:MT-bench

尽管已经有一些基准测试用于评估大语言模型性能,如MMLU、HellaSwag和HumanEval等,但它们在评估人类偏好时存在不足。因此,团队进行了一项系统研究——揭示了LLM评判者的可靠性问题。在最新论文「Judging LLM-as-a-judge」中,他们发现像GPT-4这样的强大评判者,与专家组和众包组的人类裁判偏好一致性高达80%以上,这种水平接近两名人类裁判的一致性。

结果分析

MT-Bench有效地区分了不同能力的LLMs之间的差异。在此次「排位赛」中,对28个模型进行全面评估。结果显示,不同能力的LLMs存在明显区别,其得分与Chatbot Arena Elo评分高度相关。特别是MT-Bench引入后的效果尤为明显:展示了GPT-4与GPT-3.5/Claude,以及开源与专有模型之间性能差距。

为了更深入了解这些差距,一些典型代表性的LLMs被选择并分析其各自在每个类别下的表现。这表明,有些开源模型还有很大的改进空间。

比较6个模式8种能力:写作、角色扮演、推理、数学、编码信息提取自然科学人文科学

多轮对话能力的评估

接着团队分析选定模式在多轮对话中的成绩。结果显示,即便是在第一轮及第二轮之间,小羊驼Vicuna及其他一些开放式模型都出现显著下降,而那些强大的私有化模块则保持一贯稳定。在第一轮至第二轮对话中获得最高满分10点的情况下,这一点尤为突出。

最后,在使用LMS进行判断时,它们提供可解释性的优势之一就是能够给出详细逻辑清晰反馈,如图所示。当一个问题提出时,它会提供来自alpaca-13b和gpt-3.5-turbo两个回答供参考,以指导人类做出更加智慧决策。这使得MT-bench成为一个非常重要而具有普遍意义的人类偏好的测量工具。不过,由于它可能会犯错误特别是在数学/推理方面的问题打分,所以应该谨慎使用。但未来计划将继续扩展数据集以支持更广泛社区研究。

标签: 智能制造行业发展前景人工智能的理解华为智能家居全套价格智能家居整体设计方案对于人工智能的认识