伴随着AIGC技术的兴起,国内科技企业纷纷入局,掀起了不亚于当年团购行业“百团大战”的“百模大战”。根据天眼查数据显示,2023年上半年与大模型直接相关的融资事件超20起,国内已发布的各类大模型数量超过100个,呈现出百花齐放的行业现象。
8月12日,新华社研究院中国企业发展研究中心重磅发布了《人工智能大模型体验报告2.0》,其中参测的8款大模型均为科技巨头或背靠权威院所的“正牌军”,比如星火认知大模型出自素有“AI国家队”之称的科大讯飞,智谱AI-ChatGLM由清华大学计算机系技术成果转化而来的公司打造。最终讯飞星火以总分1013分勇夺大模型横评第一,与Benchmark(人类)仅有一分之差。
相比6月新华社研究院发布的“报告1.0”,值得关注的是,此次“报告2.0”加入了Benchmark(人类)这个新维度。这是因为AI算法模型的开发受到人类编程思维的影响,充分利用了人类的智慧与知识。根据报告显示,在语言、跨模态和多轮对话等基础能力方面,人类与AI的差距并不显著,包括讯飞星火在内的五款大模型都能准确理解和高效处理信息,并在多个对话回合中保持连续性和逻辑性。
在智商和情商方面,大模型同样表现优异。尤其是讯飞星火表现出了“双商在线”的能力,通过对大量人类常识与知识的学习,能够更好地理解人类语言和行为,并展现出缜密的思维推理和强大分析决策力。同时讯飞星火在医疗等专业知识领域有深厚沉淀,这也是对比其他大模型所具有的优势。
大模型既有搜索引擎的知识检索能力,又有信息归纳、整合和提炼等能力,被视为更高效的新一代生产力工具。此前讯飞星火V.15推出的星火助手中心,就依托语言理解能力实现高效指令开发。用户可以直接调用周报小助理、述职小能手、PPT大纲助手等功能,大幅提高自己的工作效率。在本次报告的工作效率提升评估中,课题组重点在工具提效和生成创新方面进行考量,结果讯飞星火以350分的“压倒性”优势胜出,大幅领先第二名15分,领先最末名42分。
讯飞星火在生产力效能方面的领先,不只停留在分数层面,而是早已深入到实际场景。在真实的职场中,很多人利用星火助手“四两拨千斤”,将一些商业文案、活动策划以及广告创意类的工作放心地交给了星火助手帮忙,减少了许多不必要的加班。此前“娱乐资本论”对讯飞星火等大模型的万字横评中,就模拟小红书带货文案、淘宝文案、知乎问答等“接地气”的工作情景,对讯飞星火在工作中的实用性给出了极高评价。
本月初,以严谨客观著称的老牌科技网站IT之家也组织了一次《国产大模型十大维度横向评测》,结果讯飞星火以终端支持、语言理解能力、代码编写能力、多轮对话能力以及AI助手功能五大能力满分、综合能力第一的好成绩,大幅领先同类竞品。尤其是终端支持能力,讯飞作为“五端全覆盖”的大模型,深入触达了更广阔的用户人群。
千里之行, 始于足下;百尺竿头,更进一步!据悉,8月15日,科大讯飞将召开星火认知大模型2.0升级发布会,在持续提升通用能力的基础上,重磅发布代码没能力、多模态能力以及多款相关软硬件产品。届时讯飞星火将进一步巩固自身领跑地位,在大模型这条赛道行稳致远。
(来源:News快报)