首页 > 综合 > 正文

环球今热点：中文通用大模型评测基准SuperCLUE发布：讯飞星火大模型国内第一文心一言垫底环球精选

2023-05-09 19:30:18 来源：快科技

快科技5月9日消息，中文通用大模型综合性评测基准SuperCLUE正式发布。

中文通用大模型基准（SuperCLUE），是针对中文可用的通用大模型的一个测评基准，它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。

(资料图片)

它主要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。包括但不限于：这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、这些模型与人类的效果对比如何？

根据首个榜单显示，国内大模型中，近期发布的星火认知大模型最好，总分53.58分，与GPT-4相比有23个百分点的差距，与gpt-3.5-turbo在总分上有13个百分点的差距。

值得一提的是，讯飞星火认知大模型在对话、百科知识、角色模拟、计算能力、语义理解、逻辑推理方面，已经达到GPT 3.5平齐的水准。

在语义理解方面，讯飞星火认知大模型甚至得到100分的满分，超过GPT-4。

而百度文心一言在总榜单中排名最后一名，得分32.61分。

据了解，SuperCLUE评测榜单由三部分组成：总榜单、基础能力榜单、中文特性榜单，排行榜会定期更新，可点此访问.

基础能力：包括了常见的有代表性的模型能力，如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。

专业能力：包括了中学、大学与专业考试，涵盖了从数学、物理、地理到社会科学等50多项能力。

中文特性能力：针对有中文特点的任务，包括了中文成语、诗歌、文学、字形等10项多种能力。

总榜单

基础能力榜单

中文特性榜单

责任编辑：

标签：

上一篇 : 霍格沃茨魔法学校分院测试_霍格沃茨魔法学校-环球报道

下一篇 : 最后一页

X 广告

国际舞讯舞圈热闻

大港股份累亏3亿融资33亿仅分红1亿前三季净利降逾70%

“万物皆可联名”的时代联名款究竟是“噱头”还是“新零售”？

电子身份证概念走红多只概念股接连涨停

2022“清朗”行动全面出击网络暴力成治理重点

河南调拨4.09万件（套）救灾物资确保受灾群众温暖过冬: 　　中新网郑州11月24日电 (王登峰)24日，记者从河南省应急管理厅获悉，为保障受灾困难群众温暖过冬，...

全球资讯：沃森生物(300142.SZ)：玉溪泽润拟向昆明红十字会捐赠150剂双价HPV疫苗用于特定人群接种

合力泰：兴泰公司已追回大部分款项，尚有300多万未支付，已申请财产保全

民生商品储备充足安徽疫情发生地物价基本稳定

石家庄探索见义勇为新举措加大表彰活动落实优抚措施

“土坑”酸菜遭曝光后续：酸菜类产品大受影响大型超市难觅酸菜踪影

职业资源基础知识行业公告舞蹈交流

X 广告

舞蹈联盟

稀土产业呈良性健康发展盛和资源股价“一字”涨停板

3月16日，盛和资源(600392)副总经理毛韶春、黄厚兵，财务总监夏兰田，董秘郭晓雷，通过上交所集中竞价交...

赠品导致受伤害依法理应获赔偿南京市消协发布消费维权案例

2022年3月15日，这是继1983年以来的第40个国际消费者权益日。中消协组织围绕共促消费公平消费维权年主题...

首批金控牌照落地北京金控等两家公司拿到“许可证”

首批金控牌照的归属出炉，两家公司拿到许可证。3月17日，央行发布公告称，已批准中国中信金融控股有限公...

青海西宁：“人间烟火”下的市场监管人身影

时隔半月之久，西宁市城北区逐步推动复工复产，往日的生机活力被渐渐寻回，牛肉面红油飘香、包子铺炊烟...

英国音乐人西安“逐梦”：融入中国生活，成就音乐事业

音乐是我生活的一部分，是我的梦想，也是我的事业。英国音乐人亚当(Adam)告诉记者，在中国的十几年里，...

环球今热点：中文通用大模型评测基准SuperCLUE发布：讯飞星火大模型国内第一 文心一言垫底 环球精选

舞蹈联盟

环球今热点：中文通用大模型评测基准SuperCLUE发布：讯飞星火大模型国内第一文心一言垫底环球精选