快科技5月9日消息,中文通用大模型综合性评测基准SuperCLUE正式发布。
中文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准,它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。
(资料图片)
它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?
根据首个榜单显示,国内大模型中,近期发布的星火认知大模型最好,总分53.58分,与GPT-4相比有23个百分点的差距,与gpt-3.5-turbo在总分上有13个百分点的差距。
值得一提的是,讯飞星火认知大模型在对话、百科知识、角色模拟、计算能力、语义理解、逻辑推理方面,已经达到GPT 3.5平齐的水准。
在语义理解方面,讯飞星火认知大模型甚至得到100分的满分,超过GPT-4。
而百度文心一言在总榜单中排名最后一名,得分32.61分。
据了解,SuperCLUE评测榜单由三部分组成:总榜单、基础能力榜单、中文特性榜单,排行榜会定期更新,可点此访问.
基础能力:包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。
专业能力:包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。
中文特性能力:针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。
总榜单
基础能力榜单
中文特性榜单
责任编辑:
标签:
上一篇 : 霍格沃茨魔法学校分院测试_霍格沃茨魔法学校-环球报道
下一篇 : 最后一页
3月16日,盛和资源(600392)副总经理毛韶春、黄厚兵,财务总监夏兰田,董秘郭晓雷,通过上交所集中竞价交...
2022年3月15日,这是继1983年以来的第40个国际消费者权益日。中消协组织围绕共促消费公平消费维权年主题...
首批金控牌照的归属出炉,两家公司拿到许可证。3月17日,央行发布公告称,已批准中国中信金融控股有限公...
时隔半月之久,西宁市城北区逐步推动复工复产,往日的生机活力被渐渐寻回,牛肉面红油飘香、包子铺炊烟...
音乐是我生活的一部分,是我的梦想,也是我的事业。英国音乐人亚当(Adam)告诉记者,在中国的十几年里,...
Copyright © 2015-2023 今日舞蹈网版权所有 备案号:沪ICP备2023005074号-40 联系邮箱:5 85 59 73 @qq.com