4月17日,昆仑万维正式发布千亿级大语言模型「天工」,同时宣布即日起启动邀请测试,在国产大模型的赛道上,昆仑万维何以能够突出重围?
据悉, 「天工」由昆仑万维与国内领先的AI团队奇点智源联合研发,是国内首个对标ChatGPT的双千亿级大语言模型,也是昆仑万维继AI绘画产品「天工巧绘」后的又一款生成式AI产品。「天工」通过自然语言与用户进行问答式交互,AI生成能力可满足文案创作、知识问答、代码编程、逻辑推演、数理推算等多元化需求。
17日,昆仑万维CEO方汉在量子位直播上对「天工」进行了公开的直播演示,在语义理解、逻辑推演等方面,「天工」表现优秀,尤其在文本写作方面已经⾮常接近ChatGPT的水平,在中文语境下甚至表现得更好。
「天工」拥有多项核心优势。首先,天工拥有超强的记忆力,目前最多可以支持1万字以上文本对话,实现20轮以上问答交互;
其次,天工的语义理解和文本写作能力是一个亮点,比如,测试发现,用天工来回答某知识社区上的问题,也能获得KOL级的赞同和回应;
第三,推理的时候,天工采用了蒙特卡洛搜索树算法进行优化,这进一步提高了解码过程中的准确性和安全性,让天工在复杂任务和场景中能够快速且准确地响应指令,输出高质量回答;
第四,天工采用了双千亿参数的超大规模结构,包括千亿基座模型和千亿排序模型,这让它具有了更高级的自主学习和智能涌现能力,从而能帮用户解答跨领域的问题和比较复杂的问题;
第五,天工在大规模预训练基础上,还做了场景化微调,让它在各种场景下都能与用户展开流畅且智能的对话,提供高效且个性化的帮助。
此前,关于中外大模型的差距对比中,中文语料不足被广为讨论,如GPT-3.5训练1750参数所用的3000多亿单词训练语料有60%来自于C4数据集,C4数据集含有上万亿的经过清洗的、分类规整的英文单词,而目前国内已知的最大中文语料库TUCNews只有7亿左右的中文词汇,中外研发大模型差距不小。
作为国产大预言模型,「天工」团队投入大量资源攻克了中文语料库的质量瓶颈,从数十万亿的数据中清洗、筛选出了3万亿单词数据用于训练大模型。优质的中文语料库让「天工」作为国产AI,在“更懂中文”这件事上具备天然的优势。与其他模型相比,「天工」能更好地理解中文语境、词汇和语法特点,更准确地理解中文用户意图,从而更符合本土用户的使用偏好。
方汉认为,公共的大型中文语料数据库的缺失是客观存在的差距,短时间内大模型的涌现不会让中文语料数据库的改观特别大,“还有一个值得重视的现象,由于大模型本身的能力能够进行语言间的知识迁移,这就导致能够生成海量的中文语料,未来如何看待以及管理AI生成的中文语料库是重要问题。”
此外,方汉表示,国产大模型的差距不在算力或数据,在于工程经验,“以训练数据为例,其实业界最难的不是找数据,而是如何丢数据。什么样的数据不用?筛选数据的标准是什么?如何做数据的剪枝、清洗等。通过筛选数据调整参数、改进模型设计才是最核心的机密,这也是OpenAI没有在论文中公开的核心技术。”
昆仑万维曾在2022年12月发布AIGC全系列算法与模型,覆盖了图像、音乐、文本、编程等多模态的AI内容生成能力。「天工」大语言模型的推出,标志着昆仑万维的AI版图进一步扩大,也再一次证明了其在人工智能领域的技术积累和坚定投入。
未来昆仑万维「天工」大模型在数理、逻辑推理等方面也将不断迭代优化,随着产品技术成熟,将根据监管和合规要求逐步启动开源,「天工」4和「天工」5也在推进计划中。
(来源:看头条网)