新浪新闻探索大会|王晓阳：数字经济赋能实体经济发展

　　12月20日，由中国互联网协会、微博、新浪新闻主办的“数字力量，探索无穹”2023探索大会在北京拉开帷幕。复旦大学特聘教授、CCF/CAAI Fellow王晓阳分享了题为《“用数据说话”-大数据与大模型》的演讲。

复旦大学特聘教授、CCF/CAAI Fellow王晓阳-主题演讲

　　以下是王晓阳演讲实录，内容经编辑略有删减：

　　感谢！非常感谢组织方，把我安排在大会场做一下报告。其实数字经济的发展，有一个很重要的方面，就是数字。我本人是做学术，做技术方面的研究。我做了大半辈子数据处理，在这个数字经济环境下面，我们到底怎么样一个情况？

　　我今天讲比较小的一点，就是数据分析，数据分析是数字化转型一个重武器。可以把很多的数据进行大量的处理，快速的处理，找出我们所需要的insight，这个东西很难。

　　我们在说数字经济为实体经济赋能这方面，其实花了大量时间、大量的人力、大量的资源来进行这件事情。当然这个事情是不是值得？显然很值得。随着数据不断增长，数字经济不断增长、不断进步，很多不同的硬件、软件出来，这个时候我们对数据分析进行洞察的获取，决策的支持，以及我们从中获取竞争优势关键的工具，变的越来越难用。

　　今天给大家分享一个小的体会，或者我们正在研究的一件事情：怎么样用现在流行的或者现在刚兴起的大模型技术，人工智能技术，能够把这件事情做好。

　　我起的名字叫做用数字说话。传统数据分析怎么来？传统数据分析这个模式很清楚，如果做过技术方面工作，就是你提出问题——提出问题之后干嘛？就要制定策略——然后收取数据，抽取数据，数据建模等等，各种各样的一系列的工作。我把“传统”打上引号，其实不是传统，现在就是这样干的。这样一个方式，其实它的优点很明显，非常真实、严谨、可控。劣势在于很多数据跨部门，周期长、相对固化。

　　我们确实能够做到用数字经济来转变实体经济，但成本非常高。能不能在这个数字经济这个层面，加上一些手段，让它也快一点。数据的处理能够快的话，反过头来让实体经济快，等于有一个旋转的功能。大模型出现，新的人工智能出现，能不能把这个东西加快？省去了整个环，让我们用人工智能手段把这个环能够做出来，这个是我们希望能够做到的。

　　比如用大模型来做，希望能够数据分析，就像对话一样。数据分析本身应该是一个对话，就像领导跟下属谈话时候，说自媒体账号粉丝情况如何？我们做过大的分析之后，有一个固定的模式，把数据取出来，怎么样做各种算法。希望随时拿出来这样一个问题，系统能够直接的去做，比如一个公司营业情况从5月份有一个坏消息：5月份粉丝数量明显下降，为什么？他们这些数据都在背后，需要把数据抓出来，用数据来表达这样一个现象。

　　比如说这批次产品质量有问题，售后服务不满意，我们可以提取出不满意等等的字眼，我们能不能把这个我们所谓的数据分析，变成从数据里面取出来，把它组织成我的对话一样的形式来进行。

　　这个工作其实我们认为在大模型情况下完全可以自动化，至少能够在大模型的加持下做得很灵活、很快。这里是另一个例子，比如在微博上，我今年过的开心不开心？开心不开心是怎么来定义？以及我这个开心不开心怎么样从我的整个历史里面数据能够取出来，来分析真的是开心或者哪天更开心等等，我们都可以用数据分析方法来进行。

　　数据分析方法我们希望能够做到用大模型直接生成上面这样的东西。就是说我用这两个例子表明，我们希望大数据分析方式，这个范式能够有所改变，不要说我有很多数据，没错，我要把这些数据整理清楚，归结出你想要的东西，然后归结出来。目前我们的领导和数据之间还有一个数据科学家，把领导意图翻译成代码等等，这一整套的东西是不是能够把它加快？能不能用人工智能方式来代替？使得我们这个数据洞察更快转起来，使得反过头来数据洞察转得快，我们实体经济也可以转得更快。

　　从这个角度来讲，现在是不是有了大模型，直接提问题好了，得到答案，如果这样能够做到，就是很直观、很快速、很个性化、很低成本。但是我们现在现有的大模型，做不到这个东西，比如说数据缺失，产生很多幻觉，有时候你不开心，他讲你开心，不可控，洞察比较少。我们试了一下，我们用了这是ChatGPT，直接用ChatGPT，问我们这个公司的自媒体账号运营情况怎么样？当然它不知道，但是它可以告诉你，这里面其实很有意思，提出了很多的方法。就是说大模型在某个层面上面，其实告诉了我们应该怎么分析这个数据。具体情况当然回答不了，但其中其实是有有益信息的。

　　从这个角度说大模型本身没有关于你想要的知识那些数据，这个很明显，大家都知道。怎么办？目前有很多不同的方法，比如说有微调，是不是我们把这个大模型在我们数据上面进行一个所谓的微调或者重新训练一个？专门训练一个我们微博一个大模型，来回答你所有微博里面，所有人的今年过的怎么样一个情况。这个可能是可以的，但是反过头也有很多的问题，训练开销、时间问题，数据规模太大，数据更新不够快等等，这些问题都是我们可能会面临的一个问题。

　　所以，这个角度来讲，我们用大模型的微调来做好像不太行，当然也可以试，很多人在试这个事。也就是说我有一个数据库进行回答问题，我就直接训练一个模型出来，这个也可以进行。但是这个缺点很明显。

　　OpenAI想了一个办法，他们想了一个服务，最近在他们在发布会上面提出这样一个所谓的高级数据分析服务，这个服务有点意思。就是说我大模型在一边，你把数据给我，我然后在这个数据上面给你进行数据分析，当然这个事情我觉得发展前景很好。因为提供一个服务，但这个服务有受限于服务的方式问题，所以作业的流程很简单，数据的量不够大。你想我们有这么多微博用户，所有的账号都要在里面，他不可能一下子给他，而且我们也不愿意给他。

　　从这个角度来讲，OpenAI是一个很好的方向，怎么样能够利用这个方向，或者说我们想如果用大模型进行数据分析，到底我们需要什么样的一个东西。这个是我们目前团队在研究所谓新的数据分析范式，我们叫它“用数据说话”。

　　首先从我们这里有很多的步骤，用数据说话，用这个大模型来做数据分析，一个新的技术出来以后，对我们整个技术栈的颠覆，在这其实对我们的这个数据分析的技术栈进行了某种颠覆。

　　以前的方法说过了，分析、编码等等，都是传统方法。新的方法我们需要做的是在大模型的加持下面，在我们新系统加持下面，我们说要做需求理解、分析理解、数据抽取，进行计划的执行，数据的拓展，内容生成，内容的校验，最后把报告写出来。这里面有很多工作可以用大模型进行，比如说需求理解方面：我今年这个账号运营如何？它其实已经告诉你怎么样来判断这个账号运营情况，从根据哪几个方面来考虑。这个大模型特别擅长，你可以问他任何一个问题。

　　比如我锻炼身体应该怎么进行？它给你列出一堆建议，这个方面对我们需求理解，需求的拓展有很大一个好处。这样我们就在这个分析上面，我们可以做这样的事。今年我这一年过得怎么样？大模型回答，这一年如果问这个情况，它其实应该从这几个方面来考虑，他是不是过得好？这个里面我们分析出来，为了回答这个问题，我们需要得出这样的数据，这些数据我们就可以到我们数据库里面抽取，抽取之后然后执行出来抽取出来的结果，把它放出来。还有一个好处，在你把数据抽取来之后，还可以进行一定的拓展，比如说哪天特别开心，他参与了某个对话，特别的开心。我们把这个对话也拿出来分析一下，说这个对话是做什么？为什么它会在这个参与里面开心等等。我们再进行归纳总结，再面向C（consumer）的时候，大模型有一个校验问题，校验之后再形成这样一个报告。这样套路应该是全新数据分析套路，使得整个数据分析后面全部做成这样一个自动化。

　　也有别人，不光是我们课题组在研究这件事情，有别人在做Data-Copilot分析数据方式，做的还不错，但是比较受限，因为把API固定死等于说能做的事情由API来限定。这个其实有某中层面上面可以做，但是不够灵活。GPT-4是不是好的一个分析模型，这个是一些作家研究者探索，用GPT直接做行不行？结论感觉是有前途，用大模型确实是可以达到我刚才说的很多的一些功能。

　　我们课题组特别专注这个方向，因为我一直做数据库，怎么样识别用户的意图，然后在数据里面抽取数据，这个是我们做的过程，这里就太技术不讲了。

　　总结一下，新的一个大模型出现，新的人工智能手段出现，使得我们在这个数字经济、数字这一块能够有很大发展，不光说数字赋能实体，其实数字能赋能实体这件事情，在数据本身有很多的工作可以做。在数据这个层面上，也可以用人工智能方式来进行，用数据说话。我们以前都是用大数据分析，用数据说话，我们这个数据比较大。有了大模型以后，说话很会说话，但是没有数据。所以我们希望能够把这两个融合在一起，用数据说话。同时有数据，同时会说话，同时能够帮我们做到这个事，我们能够得到一个在我们的系统中分析出转得更快、更好的数据。

　　谢谢大家！

点击进入专题：

新浪新闻·2023探索大会新浪新闻·2024探索大会

责任编辑：张迪