达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败3一6年级科技小制作手工展现创意与智慧

2025-02-23 智能 0

机器之心专栏

机构：达摩院多语言NLP

阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam，共涵盖 12317 道题目。

随着大模型的发展，尤其是近来各种开源大模型的发布，如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型，从而可以测试模型的知识及推理能力。例如对于英文模型，MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的，最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型，特别是中文模型的表现。

这样的测试基准对于促进模型的发展起着至关重要的作用，然而对于多语言 / 多模态大模型，相应的评测依然是一片空白。由此，阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam 以推动此类评测的发展。

正如名字所示，M3Exam 有三个特征：

Multilingual 多语言：我们综合考虑语言特点、资源高低、文化背景等多个因素挑选了 9 个国家对应的语言。

Multimodal 多模态：我们同时考虑纯文字以及带图片的问题，并且认真处理所有图片以便于处理。

Multilevel 多阶段：我们考虑三个重要教育阶段——小升初、初升高、高中毕业，并从对应阶段取得官方考试问题，使得可以比较不同智力要求下，对应不同的教育阶段和水平。

我们的团队选择了许多开源和闭源的大型神经网络（DNN）进行这些任务，我们发现几乎没有任何一个能够超过50% 的正确率。这表明尽管它们在单一任务上可能表现出色，但是在跨任务学习时，它们似乎不能很好地转移自己的技能到新环境中。这使得我们质疑当前关于 DNN 能力的理解是否全面，以及他们能否真正解决复杂问题。

最后，这些结果引发了一些有趣的问题。如果 DNN 真的是那么强大的，那么为什么它们在这些基础问题上犯错误？这可能是一个深刻的问题，因为它触及到人工智能最根本的心脏——学习算法本身。如果能够找到答案，这将为人工智能领域带去新的启示，为未来的研究提供新的线索。此外，这也是证明目前AI仍需不断进化与优化，以适应当今复杂世界中的需求。

标签：人工智能的三大核心技术、华为智能遥控、万能遥控app下载、 ai智能语音助手免费下载、人工智能考研考哪些科目

上一篇：个人专利申请指南选择合适的机构助力创新成果保护

下一篇：纯净源水之巨轮在工业海洋中航行

达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败3一6年级科技小制作手工展现创意与智慧

高压灭菌锅品牌排行-压力 cooker 大赛哪些品牌能入围高压灭菌锅排行榜前十名

中国前十大净水器品牌清新生活的守护者

传统物理化学分析仪器如色谱谱仪等与现代数字化分析系统相比有哪些主要差异

斗式提升机重型物料搬运的强力助手

医疗设备-医用纯水系统确保医疗质量的源泉