(通讯员 许美佳)9月18日,天津市软件体验与人机交互重点实验室(依托南开大学软件学院的市级科研平台)推出EqualEval公能中文大模型排行榜。EqualEval评测榜单以全面性、科学性、实用性和公平性为特点,旨在深度剖析并全面评估当前市场上已发布的中文大语言模型解决问题的能力,通过自主构建的评测体系,为用户提供专业的参考意见。
当前,预训练生成式大语言模型的发展正在重塑人工智能领域的技术与应用格局,国内已注册的中文大模型已接近200个,这类模型的能力和体验参差不齐,用户在选择大模型时常常感到困惑,很难分辨哪些大模型符合他们的需求。科学、客观地评估这些模型的能力,尤其是实用性,已成为大模型落地的关键和行业关注的焦点。在此背景下,构建注重实用性的多维度评测体系,可以促进人工智能大模型尽快成为新质生产力的一部分。
天津市软件体验与人机交互重点实验室推出的EqualEval评测体系,设计了科学、全面的评测维度,涵盖模型的基础能力、智能体能力两大核心领域,并进一步细化为语言理解与生成、知识能力、推理能力、代码能力、任务执行能力、可靠性、安全性等90余个子维度,确保评测结果的全面性、准确性和实用性。
本次评测选取了50个国内外模型,涵盖GPT-4o、Doubao、Qwen-max等21个闭源模型与GLM-4-9B-Chat、Qwen2-7B-Instruct、Yi-1.5-9B-Chat等29个开源模型。评测结果显示,在基础能力评测榜中,字节跳动的Doubao-pro-32k、OpenAI的GPT-4o和阿里云的qwen-max-0428表现出色;在智能体能力评测榜中,位列前三的是OpenAI的GPT-4o、阿里云的qwen-max-0428和百度的ERNIE-4.0-8K。本次评测还特别关注了适合部署在手机端侧的6B及以下模型,在基础能力评测榜中,vivo的BlueLM-3B、零一万物的Yi-1.5-6B-Chat和微软的Phi-3.5-mini-instruct获得了前三名;在智能体能力评测榜中,零一万物的Yi-1.5-6B-Chat、vivo的BlueLM-3B和智谱AI的ChatGLM3-6B表现出色。端侧模型的能力对手机的智能性体验尤为重要,受到手机厂商的重点关注。
排行榜发布后,受到了广泛关注,阅读量已超过2000次。天津市软件体验与人机交互重点实验室将继续致力于更新评测数据集、拓展评测维度,并定期发布新的评测结果,以推动中文大模型技术和应用的持续发展。
EqualEval公能中文大模型排行榜:http://equaleval.com