未来媒体访谈×袁晓如：大数据可视化——从用数据说话到让数据说话

　　在万物互联的5G时代，媒体智能化已经成为不可阻挡的趋势和发展方向。人工智能技术与媒体如何融合？智能化会带来哪些媒体伦理问题？进入智能时代，媒体如何做好社会的“瞭望者”？新浪新闻、封面新闻联合推出《未来媒体访谈》节目智能媒体专题，探讨与智能媒体相关的问题。

　　本期嘉宾：袁晓如，北京大学智能学院研究员、长聘副教授，博士生导师；大数据分析与应用技术国家工程实验室常务副主任；机器感知与智能教育部重点实验室副主任。

　　以下为访谈实录：

　　主持人：Hello大家好，这里是由新浪新闻、封面新闻共同推出的未来媒体访谈节目，我们今天非常荣幸的邀请到北京大学智能学院研究员，博士生导师袁晓如教授。接下来我们有请袁教授来和我们聊一聊到底什么是数据可视化。

　　袁晓如：在爱丁堡有个苏格兰博物馆，博物馆前面有一个威廉·普莱费尔的塑像，他做的一个很重要的贡献是什么呢？就是他最早发明了现在我们经常用到的一些可视化图表，比如曲线图，饼图等。今天可视化简而言之，就是我们把数据用一个图形的方式来表示。比如说农业的每亩的收成，或者说一些家庭的财产，或者说人口的多少。对于这些量，我们可以用数字来去描述，但是也可以用可视化来去表述，帮助我们快速地去了解大量的数据里面有没有一些特殊的地方，或者理解它整体的趋势。可视化的高效是建立在一些人的感知生理机制上的。首先通过图形，我们可以通过视觉来并行处理我们所有看到的内容。

　　第二个大家注意到刚才这个例子里面，我们马上能够注意到哪一些方块是明亮的红色，哪一些方块有巨大的变化，这是人进化出来的一个叫做前注意机制的功能，让我们能够对某一些类型信号，能够引起特别的快速注意，提供更高感知效率。

　　主持人：追溯到早些年一直到现在，可视化经历了怎么样的一个发展历程？

　　袁晓如：在计算机发明之前，我们看到人们已经发明了很多像地图或者一些类型的统计图表。但是没有计算机的情况下，人们只能够手工绘制出来静态的图表。而在最近的几十年有了计算机后，我们可以用电脑来去驱动图表背后的计算。我们不光是可以看到静态图表，还可以让它动起来。

　　主持人：对于一个新鲜事物，我们通常都会有几个这样共性的问题，第一点它是什么？您刚刚已经帮我们解释过了，接下来我们会问它应用在哪里，就其实换句话来说，研究它对于我们来说有什么作用？

　　袁晓如：实际上可视化的应用之处非常之广。例如比较早期一点，对于全球的气候，我们可以通过卫星来去获得各地气候的信息，就需要通过可视化来去理解中间的变化，这类工作我们叫做科学可视化； 90年代以后，除了科学数据，人们发现还有更多类型数据对可视化的大量需求。举个简单的例子来讲，一位同学一个学期有多少门考试，最后考试这些分数，每一门考试成绩都是一个维度，这样类型的数据，人们要来去理解它，除了我们把它们列在表格上之外，我们还需要一个更好的方式，由此逐渐产生出另外一个分支，叫做信息可视化。从应用方面来说，这几年有一个很重要的词-数据新闻。数据新闻里面可视化必不可少，是用可视化来去表现数据新闻里面的数据。相当多的媒体用可视化来去报道疫情。

　　再往后可视化的进一步发展，学术界起名叫作可视分析。让人和机器结合起来，去做一些关键的决策，机器去做背后一些计算，通过可视化作为界面，然后再传递给人，再进一步去扩展分析更多的信息。

　　主持人：通过您的描述，我能不能这么理解，就是信息可视化是可以把一切的资料做成饼状图、柱状图，各种地图或者色块呢？

　　袁晓如：简单可以来讲是这样。如果说对这一些数据有分析的需要，我们根据这些需要，来去设计一些相应的形式。但这个形式不一定是我们经常见到的那些图表。

　　　　主持人：那也就是说不光像这些，您刚才提到这些有形的东西，比如说气象交通这些东西也可以用可视化来表达吗？

　　袁晓如：实际上我们从数据的观点来讲，这些数据和其他的我们看到一些有形的物品，并没有本质的区别，我们把它叫做高维数据，很多商业上的报表都是属于这一类。

　　还有一类我们关心的是人与机器之间的关系，现在我们看到人花越来越多的时间在网络世界、虚拟世界里。比方说我们花很多的时间来去看微信，我们在微信上可能跟很多人来接触。这些数据我们同样地可以进行可视化，能够让你看到这些无形的东西。

　　主持人：您这么一说我就懂了，我想问问这种无形的，比如说网络上的这种人的情绪也是可以被可视化的吗？

　　袁晓如：实际上都可以，这里面有一个挺合适的例子。因为您这边也是来自于新浪新闻，在差不多10年前，我们就开始来去对微博上面的一些信息来进行相应的可视化。

　　其中最早的一些可视化，我们去看微博上面大家如何去做各种各样的转发，我们把他们转化成这样的地图。

　　还有在微博上，大家在不同的地方签到。也可以把大家签到的这些信息，投影在地图空间里，就可以看到大家的活动。在这些不同地图里面，我们可视化微博数据的不同侧面。这个可以用来做什么呢？比如说像有一些厂商要在微博上面投放投放一些相应的广告或者一些活动，我们可以通过这样的可视化去了解他的信息怎样被转发的。

　　再有另外一个例子。2012年在北京有一次暴雨，当时北京很多地方都有积水。我们把微博上面提到积水的微博取出来，然后把它们的位置定位在地图上。

　　而且后面也有做历史地理研究的人看了我们的地图后提到：如果回过去看，几百年前和现在的城市建设很多不一样，但是今天积水的地方都是那时候的一些湿地。所以我们可以看到他们之间是有相互印证，所以通过这样的可视化，我们就能够更容易地去看到事物的全局。

　　主持人：那么既然提到了社交媒体的可视化，它除了可以展示用户的一个特点和特长喜好等等，还有您刚刚提到的可以整合信息，帮助大家了解事物的起因，它还有什么其他的作用吗？

　　袁晓如：这个方面就很多了。我们最近做了一个比较有趣的事情，去可视化一些视频上面大家发的弹幕。通过可视化能够看到很多信息。比如说我这个视频拍的，是不是有改进的这个地方？我们可以看到在这上面一些大家共同的有趣的想法，或者说反映出来的大家讨论的一些热议的话题等等之类。这些都是可以来进一步进行探索。

　　主持人：我们刚刚聊的都是一些社交有关的话题，那么我相信大家还有其他更关注的问题，比如说衣食住行、医疗、养老这种很基础的民生的问题，那么可视化的应用又和我们的生活有什么样的关联呢？

　　袁晓如：这个方面关联很多。比如说像交通。在2013年左右，我们做了一个工作去把出租车的信息聚合起来后从中间提出信息，可以可视化一个交通路口的拥堵怎么样开始，又怎么样演化，怎么样逐步的扩散的过程。

　　再像空中这些飞机飞行的轨迹，我们可以把它聚合起来可视化，帮助空管人员更好地去了解管理运行效率，然后提出相应的管制措施。

　　在医院里面，我们看到每个病人的病例，有的病例病史可能很复杂，医生要花很长的时间做相应的调查，可以通过可视化方式让医生更快地去理解相应的信息。

　　还有一个我们正在开展的研究方向是叙事医疗可视化，我们希望通过可视化把相应的一些信息更好地去传递给病人。

　　主持人：智能交互和可视化的一个协同发展，是这样的吗？

　　袁晓如：可视化是逐步地越来越走向智能。比如说我们做的一个比较有趣的可视化的形式就是打开一张这样的一个表格，我们可以对它直接进行提问。在提问的时候，背后计算机就可以通过一些智能的计算来理解你的问题是什么。但这个时候它不是只直接告诉你一个数字的答案，而是能够通过一个可视化来去表达最后的结果。而且甚至可以根据用户的需求，动态改变这些可视化形式。这些都是新的智能交互方式。

　　主持人：我们都知道任何事物的研发都会有它的两面性，新技术的产生会改变世界，但是同时又会有很多不同的问题发生，那么您觉得可视化带给我们的负面影响有哪些？

　　袁晓如：我们认为可视化本身是一个中性的，结果当然就要看你怎么来使用它。如果我们使用的好，它可以大大地加速我们的信息沟通的过程，降低相应沟通的成本。

　　可视化是一个非常有力的传递信息的工具，所以可能它也有一些被误用的地方，如果我们使用不适当，可能会造成观察者的误解。

　　就像我们使用颜色，有的颜色就像绿色红色，用哪个表示上升，哪个表示下降，实际上在不同的国度里面（例如表示股票价格），有一些约定俗成的东西，所以这是一个非常复杂的问题。

　　主持人：年底的时候很多APP都推出了可视化，一年回顾很多，比如说你这一年听了什么歌，您这一年的消费统计甚至是这一年的行程记录，那么在大数据的时代如何来保障用户的个人隐私数据？

　　袁晓如：可视化本身作为一个表达展示信息手段，在推送给最终的用户的时候，可以把相应的一些细节隐藏掉，是一个帮助保障用户个人隐私合适的方法。

　　另外隐私是相对的。比如说大家很熟悉的时候，可能年龄生日这些就不是什么隐私；但是说对一个陌生人，我可能不一定愿意告诉他这些信息。这个时候也是要针对不同的用户，有相应的这些授权。我们需要有一个更好保护我们每一个终端用户的过程。

　　主持人：可视化在技术上有没有什么面临的一些挑战问题？

　　袁晓如：实际上可视化还在不断进化和发展。可视化不是简单的算法。它更多跟人的认知相关联。从研究上来说，我们需要去理解这方面关系。

　　另外虽然现在已经有很多可视化的方法，但是对于一些复杂可视化的方法，的有效性，我们还没有对它们有足够全面深入的理解，这是第二个挑战。

　　现在面临着海量复杂的数据，针对这样一个多变的场景，我们如何设计相应的可视化也是面临很多机会和挑战。

　　主持人：我们刚才聊到的是这些可视化的发展历程，我不知道现在是一个AI高速发展的时代，基于这个前提，可是技术将会如何的进行下一步的变化。

　　袁晓如：现在人们使用可视化，面临一个非常巨大的成本问题。在整个社会里面可能大家都需要用到可视化，但是能够去实现制作这样可视化的人其实并不多。所以如何能够高效实现可视化，怎么样能够真正地降低成本是一个挑战。我们最近发展了一些新的方法，没有经过编程训练的人，可以写几段简单的表述形式来实现可视化。这样对于初学者，可能学了半个小时，也能够写一些有效的可视化的方法。还有一些便捷的可视化方法。比如说我们做了一个静态的可视化，可以不用编程，直接通过插件，让它能够互动起来。像这样的研究将会越来越多地去满足我们日益增长的对可视化的需要。

　　主持人：现在可视化数据分析正在成为一个主流，您帮我们设想一下下一代的数据分析将会如何发展？

　　袁晓如：下一代技术来讲，它应该能更好理解我们人类的需求。

　　再有一个发展是怎么样把可视化跟我们现实世界更好地去融合，应用在更广泛的场景里面。

　　我们也关心可视化历史和文化。就像我们最近做的一个中国古代迁居地图，把古代一些名人的籍贯和去哪里做官做事联系起来。把人们迁移的过程交互式地呈现在一个地图里。这样我们可以去看宋朝、明朝和清朝，中国各个省份人才的流动变化。

　　我们也可以去看我们的文学，比如说可视化三国演义、红楼梦等名著。还有我们也可以去可视化我们自己每天的生活。其实我们可以通过可视化在这里面更好记住我们的过去，然后更好地去展望我们的未来。

　　栏目制片人：智惠群

　　本期嘉宾：北京大学智能学院研究员博士生导师袁晓如

责任编辑：田甜雨

我要反馈