新华社研究院发布《人工智能大模型体验报告2.0》，AI国家队讯飞星火夺魁

　　伴随着AIGC技术的兴起，国内科技企业纷纷入局，掀起了不亚于当年团购行业“百团大战”的“百模大战”。根据天眼查数据显示，2023年上半年与大模型直接相关的融资事件超20起，国内已发布的各类大模型数量超过100个，呈现出百花齐放的行业现象。

　　8月12日，新华社研究院中国企业发展研究中心重磅发布了《人工智能大模型体验报告2.0》，其中参测的8款大模型均为科技巨头或背靠权威院所的“正牌军”，比如星火认知大模型出自素有“AI国家队”之称的科大讯飞，智谱AI-ChatGLM由清华大学计算机系技术成果转化而来的公司打造。最终讯飞星火以总分1013分勇夺大模型横评第一，与Benchmark（人类）仅有一分之差。

　　相比6月新华社研究院发布的“报告1.0”，值得关注的是，此次“报告2.0”加入了Benchmark（人类）这个新维度。这是因为AI算法模型的开发受到人类编程思维的影响，充分利用了人类的智慧与知识。根据报告显示，在语言、跨模态和多轮对话等基础能力方面，人类与AI的差距并不显著，包括讯飞星火在内的五款大模型都能准确理解和高效处理信息，并在多个对话回合中保持连续性和逻辑性。

　　在智商和情商方面，大模型同样表现优异。尤其是讯飞星火表现出了“双商在线”的能力，通过对大量人类常识与知识的学习，能够更好地理解人类语言和行为，并展现出缜密的思维推理和强大分析决策力。同时讯飞星火在医疗等专业知识领域有深厚沉淀，这也是对比其他大模型所具有的优势。

　　大模型既有搜索引擎的知识检索能力，又有信息归纳、整合和提炼等能力，被视为更高效的新一代生产力工具。此前讯飞星火V.15推出的星火助手中心，就依托语言理解能力实现高效指令开发。用户可以直接调用周报小助理、述职小能手、PPT大纲助手等功能，大幅提高自己的工作效率。在本次报告的工作效率提升评估中，课题组重点在工具提效和生成创新方面进行考量，结果讯飞星火以350分的“压倒性”优势胜出，大幅领先第二名15分，领先最末名42分。

　　讯飞星火在生产力效能方面的领先，不只停留在分数层面，而是早已深入到实际场景。在真实的职场中，很多人利用星火助手“四两拨千斤”，将一些商业文案、活动策划以及广告创意类的工作放心地交给了星火助手帮忙，减少了许多不必要的加班。此前“娱乐资本论”对讯飞星火等大模型的万字横评中，就模拟小红书带货文案、淘宝文案、知乎问答等“接地气”的工作情景，对讯飞星火在工作中的实用性给出了极高评价。

　　本月初，以严谨客观著称的老牌科技网站IT之家也组织了一次《国产大模型十大维度横向评测》，结果讯飞星火以终端支持、语言理解能力、代码编写能力、多轮对话能力以及AI助手功能五大能力满分、综合能力第一的好成绩，大幅领先同类竞品。尤其是终端支持能力，讯飞作为“五端全覆盖”的大模型，深入触达了更广阔的用户人群。

　　千里之行, 始于足下；百尺竿头，更进一步！据悉，8月15日，科大讯飞将召开星火认知大模型2.0升级发布会，在持续提升通用能力的基础上，重磅发布代码没能力、多模态能力以及多款相关软硬件产品。届时讯飞星火将进一步巩固自身领跑地位，在大模型这条赛道行稳致远。

　　（来源：News快报）

责任编辑：孙青扬