8月12日,新华社研究院中国企业发展研究中心发布《人工智能大模型体验报告2.0》,对当前国内风生水起的主流大模型进行了客观评测,结果显示,科大讯飞星火总分第一。
相对于6月首次发布的《人工智能大模型体验报告》,本次测评在题目设计、对标Benchmark(人类)、打分权重、专家测评团队四大维度进行了全面升级。
其中,在题目设计方面,测评题目由300道扩展至500道,并进一步完善了题目分类:
在对标Benchmark方面,本次测评将接受过高等教育的人类作为对照,来考评大模型真实能力;
在打分标准上,本次测评根据对产业、生活的实际价值,对基础能力、智商能力、情商能力和工具提效四大测评维度进行了权重设计;
在测评团队方面,本次测评特邀北京大学文化与传播研究所及其他产界、学界专家全程参与。
本次研究设置了用户体验项目,抓取了7月31日—8月4日数据,通过人机互动提问等形式,对国内主流大模型进行使用体验评测,旨在为科技企业调整努力方向提供参考。
报告显示,与2023年6月相比,当前中国大模型产品进步显著。但与接受过高等教育的人类相比,大模型在智商、情商等方面还存在一定程度差距。
综合基础能力、智商能力、情商能力和工具提效四大能力综合得分情况来看,科大讯飞星火大模型得分1013,仅比人类答案少1分,在各主流大模型中业内知名。其它排在第二、第三的分别为百度文心一言和商汤商量。
据了解,科大讯飞星火大模型发布于5月6日,并于6月9日完成首次升级。相对于初始版本,讯飞星火讯飞新版本无论是知识问答能力、推理能力、数学能力、语言理解、代码能力还是文本生成能力均有较大提升。
科大讯飞星火之所以有如此表现,此前科大讯飞董事长刘庆峰表示,主要是因为公司员工努力和技术积累所致。
刘庆峰表示,在过去24年的创业历程中,为了让机器实现像人一样能听会说、能理解会思考,用人工智能建设美好世界的梦想,科大讯飞人没有一天停止过,也没有一天不再奋斗。
在过去的创业历程中,科大讯飞不仅彻底扭转了中文语音产业的竞争格局,而且在英文等多语种领域获得了全球先进的地位。
在全球首次让机器语音转写超过专业书记员;首次让机器翻译通过国家翻译师资格考试;首次让机器通过了国家执业医师资格考试。同时也是中国精品一家承担认知智能国家重点实验室建设的公司。
除技术积累外,科大讯飞还拥有成建制的团队,且每一个关键模块都是完全自主研发的,有完整的创新体系,这是科大讯飞在人工智能领域得以踏实前行的关键。
科大讯飞星火大模型当前的版本为1.5,据悉,8月15日,科大讯飞将正式发布讯飞星火2.0版,在文本生成、语言理解、逻辑推理等各项能力持续提升的同时,代码能力和多模态能力将登上全新高度。