达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败视频黑科技app让人物惊叹不已

2025-02-23 智能 0

机器之心专栏

机构：达摩院多语言NLP

阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam，共涵盖 12317 道题目。

随着大模型的发展，尤其是近来各种开源大模型的发布，如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型，从而可以测试模型的知识及推理能力。例如对于英文模型，MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的，最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型，特别是中文模型的表现。

这样的测试基准对于促进模型的发展起着至关重要的作用，然而对于多语言 / 多模态大模型，相应的评测依然是一片空白。由此，阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam 以推动此类评测的发展。

正如名字所示，M3Exam 有三个特征：

Multilingual 多语言：我们综合考虑语言特点、资源高低、文化背景等多个因素，我们挑选了 9 个国家对应的一些常见方言和非官方文字形式，以便更全面地评价不同类型的大型神经网络。

Multimodal 多模态：我们同时考虑纯文字以及带图片、视频和音频等内容的问题，并且认真处理所有这些媒体形式，使得可以比较不同类型输入下，对于同一问题答案生成性能差异。

Multilevel 多阶段：我们考虑四个重要教育阶段：幼儿园、小学、中学、高中，并从对应阶段的地方考试取得题目，使得可以比较不同智力要求下，对于同一问题答案生成性能差异。

我们的研究结果表明，大部分参与实验的小型人工智能系统都无法达到令人满意的地步，即使它们已经经过大量数据训练，而且与其他具有相似参数量的人工智能系统进行比较时，也没有显示出任何优势。这意味着即使小型人工智能系统能够在某些任务上表现良好，它们在面临复杂或跨领域的问题时仍旧存在不足之处。此外，我们还发现尽管较为基础的问题通常会比那些需要更深层次理解的问题容易一些，但许多人工智能系统似乎无法很好地区分这两者，这可能是一个值得进一步探讨的话题，因为它影响到了人们如何有效地使用这些工具以获得最大的益处。在未来的工作中，我们计划继续扩展这个项目，以包括更多样化的问题集，以及不同的用户反馈，以期找到解决这一难题的手段。

标签：装一套智能家居需要多少钱、 ai是什么职业、人工智能产品有哪些? 、人工智能有什么专业、智能家居app下载

上一篇：浙江工商大学AI挑战7个月了中国大模型还学不来ChatGPT的智慧

下一篇：工业废气处理工艺流程概述从源头到治理

达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败视频黑科技app让人物惊叹不已

冷气贮藏设备高效节能的食品保鲜系统

小型工业污水处理一体机系统高效节能的环保解决方案

小区饮水机投放方案确保居民清洁饮用水的便捷性与可持续性

实验室常用设备哪些是不可或缺的

学生和研究人员在使用实验室选矿设备时应注意哪些安全问题