蚂蚁邦2015年三月汇实录:让你的数据会讲故事

2015年03月29日21:38  新浪传媒 收藏本文

  主题:让你的数据会讲故事

  时间:2015年3月27日(下午)

  地点:言几又咖啡厅

  嘉宾:

  黄志敏 财新传媒CTO

  祖明 百度复合搜索部前端团队经理

  卢旭宁 新浪新闻主编

  刘叶 新华网数据新闻部首席前端工程师

  乔宇:各位新朋友、老朋友,今天有很多熟悉的面孔在这里,欢迎来到蚂蚁邦三月汇的传媒沙龙,我是乔宇。老朋友我就不多介绍了,新朋友我说一下,我现在是新浪市场与战略合作部的总监,很多朋友在私下里戏称我为乔帮主我不知道为什么,有可能跟大侠有关系?我身为一帮之主深感压力,我觉得应该做点事以感谢大家的支持。

  现在国际国内都是大势所趋,相信在座的所有亲们都跟我或者我的小伙伴们一样,面临着转型的压力。我就想,我们能不能和所有朋友们一起,集合大家的力量、顺势而为、不断的尝试和不断的改变,聚小而形大,一起向着风口前进,一起去争当那只猪吧。

  基于这个想法和大家的努力,我们的蚂蚁邦终于在2015年的春天诞生了,这是一个专注于传媒创新和传媒人创业的一个平台。从今天起我们将在蚂蚁邦这个平台和大伙分享各种前瞻性的、有价值的行业知识和信息,互通最有利的行业资源,针对传媒业的创新项目和传媒人,我相信在座的小伙伴们一定有的这种创业项目,我们逐步会提供展示平台和指导服务。

  我们线下的沙龙,至少每月有一次;每天我们有微信群里的内容分享和互动讨论;每年我们还有至少一场的大型媒体峰会。现在我就想朋友们一起来做一件事,看看你手中的邀请函或者是台上的这个大屏幕,动动手指微信扫码加入我们这个群,叫“蚂蚁邦-媒体创新训练营”,入群后创新创业方面您有任何需求、想法和建议,欢迎在这个群里面发言,我们的美女管理员曹兢和小花将为大家提供服务。这就是我们群的两个管理员。当然作为帮主我最最希望看到的情况是,帮内的朋友们可以互为知己,亲密的像一家人一样,蚂蚁邦就是大伙的家,在这个家里您可以尽情的发言、拍砖、秀实力,让我们有品的任性吧。今天的沙龙就是让各位亲们,让最愉悦的心情体验最有价值的分享。

  今天的沙龙主题是“如何让你的数据会讲故事”,那些看似高冷的数据新闻到底怎么玩,再过一会儿几位潜伏已久的业界大牛就会浮出水面,和亲们分享解读数据运营和传播思路,看看如何让数据自己会说话、自己讲故事。

  下面进入本期沙龙的第一个环节“真知灼见”,首先登场的这位大牛他有着17年的互联网和移动互联网的工作经验,17年,一会儿可以问问多大岁数了,他带领的10个人组成的财新数据可视化实验室团队,至今已发表作品50多件。像“参与北京摇号小游戏”这样的产品,仅仅用半天时间就制作完成,在朋友圈一星期内获得150万次访问。目前他正致力于用大数据和可视化推动新闻业的发展。接下来有请财新传媒CTO、数据新闻与可视化实验室创始人黄志敏。

  黄志敏:大家好!这星期不知道为什么分享比较多,这是我这星期分享第六场,今天早上还有另外一场,不知道为什么。我就把我这边的一些经验之类的跟大家分享一下,有经验、有教训、有收获,跟大家分享一下,希望对大家有帮助。

  我们先介绍一下财新传媒,我来自财新传媒。财新传媒是一个媒体公司,包括了财新网还有4本杂志,我们现在说财新网,当然除了PC上的网站以外还有手机上的网站、还有APP、还有公号、还有微信账号等等,这些我们会通过不同的渠道去发布东西。之后我们是有4本杂志,《财新周刊》、《中国改革》、《比较》,还有一本英文刊。有些人对我们稍微了解一点,又不太了解的话,会以为我们这时一个传统媒体公司,但实际上是这样的,最早这个团队确实是做传统媒体的,实际上我们已经在新媒体的路上走了很久了,现在我们每天80%都是原创内容,可以说我们网站上所有的内容都是原创的,其中80%的内容都是发表在网站上面,只有20%的内容是发布在平媒上面。

  基本上像我们这两年做的比较多的是反腐题材,基本上是这么做的,可能一有一个公布出来,晚上6点纪委说抓谁了,基本上几分钟之内我们就会发一个快讯发到微博上,说谁谁被逮了,10分钟之内我们会有一篇新闻出来,这篇新闻除了快讯里头的简单内容以外,我们会补上被抓的这个人的简历。我们会补上去,并且如果说我们对这个人被抓的原因有一些可能的推测的话,那么我们在这个新闻里面基本上会跟着一个大概1千字以内的网稿。可能再过几个小时,在当天之内我们会有一篇详细的稿件发出来,来讲清楚他的一些相关的事情和可能牵扯到这里头的一些背景资料,可能会有几千字的稿件。之后如果说这个人还得再深挖的话,我们会有一个大几千字、上万件的调查稿件,后续会发出来,那个时候有可能发在网站上,也有可能是发在杂志上,或者说都发,我们基本上是这么一个流程。所以我们现在基本上就是,其实完全是一个新媒体的做法,并且我们追求说,手机上比电脑上还要再快一些,这都是我们现在做的。当然之所以说我们能够按照这样的速度去做事情,也在于说我们平时的积累,平时像这些官员的数据库、人物数据库其实我们都是准备的很齐备的,所以很多这么去做。所以这是我们财新传媒现在大概的一个情况。

  我们看到这有5个APP,这5个APP都是我们自己开发的,我们现在有30多个人的研发团队,分为几个部门,一个移动部,一个网站部,一个创意部,创意部主要做设计,还有一个叫数据可视化实验室,这个实验室是一伙今天我要重点分享的内容,这些APP也都是我们自己开发的。

  接下来我们要讲数据新闻这一块。数据新闻它有一个大概的基本概念我希望跟大家分享。第一个,可视化,可以分为三块,第一块,科学可视化;第二块,信息可视化;第三块,可视化分析。实际上这些东西我们都特别常见,虽然说这个名词和陌生,但是我跟你们一讲就知道了,什么是科学可视化像这个地图就是科学可视化,到医院拍CT也是科学可视化,他在地理领域、医疗领域应用是比较多的。什么是信息可视化呢?信息可视化背后这个地方有块牌子,亮的牌子写着安全出口,一看都知道了,这就叫信息可视化。厕所门口那块牌子也叫信息可视化,包括太多了,数不完了,这都是信息可视化,所以这个信息可视化也是非常常见的东西。

  第三个,叫可视化分析。什么算可视化分析呢?还是大家很熟的,K线图,把每天的股票交易数据变成一根曲线,体现它的最高价、最低价、成交量等等,这是一个K线图,一个有经验的股民一看就能猜出来明天会涨还是会跌,这就是可视化分析。所以数据可视化这种东西听起来好像没有什么听过,实际上我们每天都接触无处不在。如果我们把可视化和新闻结合在一起就成了数据新闻。数据新闻我们又有两种表现形式,一种是信息图,信息图其实这个我们看了很多了,我们经常在网上看到说一张图告诉你什么什么,这种东西最典型的信息图了,信息图至少有100多年的历史,包括以前的报刊杂志上大量有信息图,包括我们小时候上学,这个教科书里头也有大量的信息图。另外一块是我今天重点要讲的,就是这个互动图表,互动图表是用代码在网页上呈现数据新闻或者各种数据可视化的内容,这个我们成为互动图表。

  互动图表跟信息图最大的区别是什么呢?信息图有两种人就可以完成,一个文案、一个设计就可以完成,但是如果是互动图表的话,它还缺一种人,写代码的人,程序员,这个是最大的区别,他需要去完成。互动图表它的发展其实是最近这四五年的事情,09年大概这个点开始,为什么呢?为什么这些年才能这样发展呢?几个原因,一个,因为这个万亿它得借助于网络,所以以前比如说网速不够快,什么都不太好办,这是第一个。第二个,因为它里头需要用到很多绘图什么之类的功能,这个必须是要HTML5才会支持的比较好,有的HTML4就可以。原来计算机运算能力也比较差,所以很多东西画不出来,这几年技术比较成熟,网速也快了,这个东西就可以画出来了,所以这也就是为什么这个互动图表这几年会发展比较快的原因,也引起了很多的关注,这是互动图表,所以这是一个基本的概念。

  在国外他们还有这么一种说法,因为这种东西没有一个绝对的定义,国外他们有的,例如说英国卫报。为什么我订英国卫报呢?就是说数据新闻这块国外谁最领先,纽约时报、英国卫报还有美国的公共广播电台MPR,等等这些是比较领先的。例如说卫报,他们认为说这个只要是从数据里头挖掘出来的新闻,就算写成文字报道那也叫数据新闻,它有这样一个定义。如果按这种定义的话,以前像那种说,我看财报,然后挖人要做假账,这种事你也可以说是数据新闻,这是他们的定义,而我的定义是这样的,我认为这个必须用可视化的手段展示出来才叫数据新闻。

  我们来举一个例子,我们每个人都在用手机,我们手机上有多少东西是可视化的呢?假设我现在打开一个APP,我们看一下,手机信号这是可视化的,WIFI的信号是可视化的,这个电量是可视化的,这个导航图本身也都是可视化的。例如说我们在生活中不会觉得说一条路,如果畅通就都是绿色,堵塞就都是红色,不是这种感觉,但是我们看导航地图看多了以后我们自然而然就获得了这个概念,说我要前面走这条路是绿的,那就说明它的很通畅的。实际上这里头还有很多别的,例如说它的运营商的标志灯等,这些其实都是信息可视化。所以我们还是这么说,就是说可视化这种东西无处不在的。

  可视化还有很多其他的应用,例如说什么呢?给大家举个例子,这个东西是去年12月31日晚上上海的外滩。我们都知道,那天晚上的上海外滩发生了一个惨剧,有很多人不幸遇难。这个图展示的是什么?这个图展示的是那天晚上这个地方的人口密度,这个称为什么?这个称为密度图,前面这张是另外一个时间点的人口密度,我们看这个东西就可以很容易的理解说,都不用解释,就能本能的感觉到黑的地方人不多,越亮的地方人越多,黄的、红的表示人口密度更高,如果说里头还有一块红的发黑的,那表示人口最密集的地方。这个地方是“陈毅广场”,你看这个地方人口密度是不是最高?践踏事故最后就发生在这个地方。这个数据从哪儿来的?这个数据是从运营商来的,我们每个人我们每天带的手机,运营商知道你这部手机在任何一个位置,误差不超过几米。所以其实运营商有最详细的数据,知道所有人分布在哪里。

  但是移动公司只有移动手机的分布,电信只有电信手机的分布,而联通也只有联通手机的分布。如果说我们的政府部门,由政府部门来出面,从那三个运营商的手里把这些数据都归拢到手里,实时监控的话,其实它能够起到非常大的作用,就是说它可以知道随时什么地方人最多,如果早知道的话这个惨剧是可以避免的,就不会发生了。所以这个是一个可视化的案例,同时这也是个大数据的案例。为什么呢?这里头这张看起来不复杂的图,它其实里头包含了几万个人的位置坐标,那么我们也都知道,如果我把几万个人的位置坐标,我们把它打成一张表格打印出来,其实我们什么都看不懂,我不知道任何规律,但是我把它变成这么一个热力图的方式以后,是个人都能看懂说哪里的人多、哪里的人少,所以这个数据可视化是大数据分析里头的一个很重要的手段,这也是为什么今天大数据跟数据可视化会被混在一起的原因,大数据跟数据可视化根本不是一回事,不要把它混在一起讲。大数据讲的是我们怎么用大量的巨量的数据怎么去搜集利用和分析它,而可视化是其中的一个分析方式,和数据挖掘方式是怎么去展现这些数据,所以它是两回事,这个我们可以分清楚。

  我用数据可视化可以展示大数据,我也可以展示小数据,我后面给大家分析的这些案例基本上都属于小数据,不是大数据。

  这是一个人员组成的情况。我们是2013年的6月份开始介入这个领域,然后我们开始学习请人来讲课等等,然后到10月份的时候,我们成立了我们的数据可视化实验室。这个实验室分布在不同的部门,它有三种人组成,记者、编辑,还有设计师,还有程序员,由这三种人组成,这三种人分布在不同的部门,我们这个实验室是一个虚拟的实验室。大家跨部门工作,然后根据不同的需要把他组合在一起。记者、编辑负责这个文字的处理和数据的搜集,设计师来设计这个内容,程序员来写代码。实际上这里头还有一个角色,我们要把它标出来,是由这些人轮流担当的,就是它还必须有一个类似产品经理的角色,去决定说这个产品最后会做成什么样子。

  它的三种人怎么去合作呢?过去在媒体里头,设计师跟程序员都处于新闻生产下游,稿子做成什么样是由编辑、记者决定的,记者写一遍,编辑把它编出来,已经成为稿件了,再由美编设计师配图,再由技术人员发布出去,这是一个上下游的关系。所以在新闻稿件的生产里头,其实这个设计师也好、这个程序员也好,其实他的参与感非常低,或者说最后这个新闻就算引起了很大的轰动、甚至获奖,都会觉得这个事其实跟他没有太大的关系,是这种状况的。但是自从我们做了数据新闻,这个情况就变了,因为数据新闻本身的特点决定什么,需要这三种一开始大家就一起做深度的合作。

  我们大概的流程是这样的。首先我们会定一个选题,大家一起商量一个选题,说值得不值得做,有没有新闻价值。之后我们会看说,如果这个选题值得做还有一点,看它有没有足够的数据来做,没有数据没得可做。如果选题定了,数据没有问题,我们就大家坐在一块商量说,我们用什么形式去表现这个新闻比较好。这个商量的事情商量得差不多了,这个设计师就会去画出一个图形、一个造型之类的来展示这个,这个时候他画完以后就得问这个程序员说,这个能不能做,或者说这个开发成本有多高。

  理论上来讲,基本上这种东西很少不能做,但是更容易出现的情况是什么,开发成本太高,可能时间上来不及或者不划算等等。这种情况底下怎么办呢?这种情况底下咱们改设计呗,调的怎么样更好做一些,就是一个互动的过程。等到这个方案确定了,反过来有可能就是说回去得去要求这个记者说你去补充更多的数据和资料,他有可能是得这么做,所以本身是一个互动的互推的过程。这三个合作以后,他最后出来一个数据可视化的一个作品,接下来给大家做一个具体案例的介绍。

  这个互动图表其实还有一个展示的途径,一个在电脑上展示,一个手机上展示,我先给大家演示说我们怎么在电脑上展示这个东西。

  我想现场做个小调查,咱们现场多少人见过这个作品? 大概有一小半见过这个小作品,简单说这个作品叫“周永康的人与财”,主要揭示周永康在这个案子里里头涉及到的很多的人和很多公司的这些关系。在这里头我们可以看到就是说,我分为三部分,我为什么要做这个东西呢,因为当时是7月29日那天周永康受贿调查,这是晚上6点的事情,半小时以后6点半的时候我们就发布了一个6万字的调查报告,叫“周永康的红与黑”,半个小时以后访问量涨了10倍,整个带宽就全部挤满了。那天晚上大概11点多的时候,我们发布了“周永康的人与财”这样的新闻,引起了非常大的关注。

  这个我们是不是一个晚上做出来呢?显然不是,这个我们做了大概三个月的时间,为什么做这个东西,为什么做成这个样子?我给大家解释一下。因为我当时就在想就是说,一个6万字的调查报道,一个是,很少有人耐心的看完。从我们的统计数据就可以看得出来说,越往后的章节看的人越少,这很正常,我们希望有更好的形式去展示。第二个,这个报道里头有大量的关于人物之间的关系,还有公司之间的股权关系,还有人跟公司之间的持股关系,等等很多很复杂的关系。这种东西说白了对我们来讲,就包含了大量的数据。

  这边我所讲的数据,数据不仅仅是只有数字才是数据,地理信息、文字、音频、视频等等,这些都是数据。所以我们就把这些数据抽出来,抽出来以后我们做成了这么一个作品,它怎么看呢?第一部分是人,展示人跟人之间的关系,第二部分,第二排跟第三排是公司,展示公司之间的关系,第一跟第二排之间展示的是人跟公司之间的关系,我们用这样的方式把这种东西讲清楚。

  我们先看第一排,这几十个人我把它分成几组,刘汉不好分组,放在外面,这是周永康的两个儿子,包括周永康的妻子等等,周家。第二个是石油气被调查的官员。第三个这部分是俞刚和谈红,还有周永康的秘书。还有四川调查了很多人,还有一部分。我把它分开了,用红色的线条表示之间的关系,这里有红色的线条,红色的线条表示说他们之间是直系亲属,我把直系亲属连起来。紫色的线条表示什么呢?谁是谁的下属。白点出发的方向,白点往那个方向走,就说明他是他的下属。第三个情况是秘书,六根橙色的线表示周永的秘书,我用点跟线就把他们之间的关系表现出来了。

  从这儿到这儿,谁持有哪家公司的股份,我用线把它连起来,一看一目了然。这边有一根蓝色的线,还有白点,表示这个是他的子公司。这边这么一连,底下是上面的子公司,关系就全部划清楚了。这里面有一个黄色的线条,黄色的有两种情况,这个是别人的项目他从这里头挣钱,另外一个,这里边是他的公司卖掉了,我都用黄色来表示,说明他只有利益的归属,而没有占有的关系、没有所有权的关系。你看这两排,这100多家公司里头,所有的这些蓝色的都是周家直接或者间接持有的公司和获利的项目,蓝色的全部都是,而白色的是什么呢?白色的是在这里头有一些相关交易的。

  所以这样的话,我就把整个大面给它体现出来了。但是还会有人说,但是你这样不行,这样眼睛很花,根本看不清楚,我该怎么办呢?我们这里头就要涉及到互动了。涉及到互动的操作,你看第一个,我把鼠标放在任何一个人的名字上面,你们看右上角,就会出现他的照片、名字,还有他的文字报道等等,会出现在右上角。第二个,我关心谁,我就点一下他的名字,那么我就只把跟他有关的事情突出出来,而其他的东西我可以暂时就忽略掉。

  举个例子,比如我现在点周滨这个位置,周滨是他的小儿子,周涵是他的大儿子,黄婉是周滨的妻子。这边4个有紫色线连过去代表什么呢?这4个人都是代表他出面捣腾生意的人,我们称为白手套。周滨名下其实他直接能看出关系的只有两个,一个叫兴鼎电力,一个是中旭阳光能源,中旭阳光光能下面有两个,一个是子公司,还有一个是中国石油加油站的项目,这是黄色的线,说明这个项目不是他的,他从这里头挣钱。这个项目是谁的呢?我们点一下这边看一下,我们可以看一下,这个项目是中石油的,中石油当时蒋洁敏是董事长,他从这个项目里面挣钱。这家公司的股东还包括黄渝生、还有周敏利。

  我们还看到说周滨往这边还有一点线,我们看一下兴鼎电力,兴鼎电力是周滨卖出来的卖给汉龙集团,汉龙集团是刘汉的。汉龙集团底下有一个叫做四川阿坝州九鼎山的旅游项目,这个旅游项目是什么情况呢?它是一家叫四川超越的公司卖给它的,这个四川超越公司是谁的?是黄婉的,周滨妻子的,通过这个我们就反反复复的把细节梳理清楚。

  所以这个项目里面看这么一个页面,这里头包含了大概3万字的信息量,非常丰富的信息量都包含在这么一个页面里头。我们做这个项目的时候,还有一点就是说,我们做这个项目,如果我只放在财新网上面,我财新网的访问量没那么高,所以我做这个没有那么多人会看到,这种情况怎么办呢?我拿来跟门户网站合作,就包括说像跟新浪合作,包括跟网易合作,把这个项目拿来跟大家合作。合作的话怎么办,因为原来这个文字稿件合作就不太好办,我把稿子授权给你,大家就不来我们这儿看了,我给你高价你又不愿意给,这个不好谈。这个比较好谈的是什么?我把这个代码给到门户网站上,用户看这个东西的时候他是在门户网站上看的,所以他在上面消耗了大量的时间,后来我看了数据,用户在门户网站上平均每个人在这个项目上消耗半个小时看这个东西。但是我也先说清楚,这上面是有我的推广资源的,这有我的LOGO,文字介绍前面也有我网站的名字,还有我的域名,这个是我的回报。

  这底下的文字报道,最后全部都是移到,还是在连回我财新网上面,这样我也获得了回报。后来我测算了一下,这部分的点击率,就是他的大概能达到1/5。我觉得挺好,这个回报还是蛮高的,所以基本上是,我们是用这样一个方式达到了双赢,就是很多人也看到了这个项目,然后门户网站也获得了好处,我们也获得了好处,当然我们自己的网站也有自己的访问量。所以这样的网站我们统计下来,大概一周多的时间有400万的访问量,并且获得了很大的一个关注。当时微博上面有人转发这个,结果微博被转发了5万次,被评论了4千多条,而且评论非常好。

  这种做有什么好处呢?他还有一个,其实好多人真的也没有那么多的耐心去把整个都看完,但是当他看到这么一个图的时候很惊讶,原来这个案子是这样的,其实就已经达到非常好的效果。

  这个项目是去年我们做的一个比较成功的项目,最后这个项目也拿了不少奖,我们拿到美国去参奖,SND,摄影师协会我们在那儿拿到了优秀奖,在腾讯那边拿了一个年度数据新闻,在网易那边拿了一个年度多媒体报道,其他的一些奖项其实现在还没公布。这个是我们去年做的一个比较满意的作品,是关于周永康的这个。

  这是2013年的一个作品,也就是说我们的实验室成立后不久就做了这个作品,大概介绍一下背景,2013年的10月23日、22日,那天早上10点多,在青岛那边发生了一次管道爆炸,它的起因是什么呢?它的起因是这样的,就是说这个输油管道从居民区的底下穿过,发生漏油了,漏油以后这个油漏到了污水管道里面,变成了油气混合物,遇到了明火,爆炸了,导致了62人死亡。

  我们的记者当天赶到了现场,并且拍回来大量的现场照片,我们就把这些照片放到了Google地图上,做到了这则新闻报道。前面我会把这个新闻从大到下,让大家了解山东在中国的哪个位置,青岛又在哪个位置,最后爆炸点又在青岛市的哪个位置。我们可以切到卫星图,我们可以看到说,这个红色地方大致就是爆炸的中心点,底下这一片都是居民区,而这块密密麻麻白色的东西都是油罐子。所以我们直接就能看出来就是说,你想当地有多不安全,那些人就生活在火药桶边上,这根蓝色的就是输油管道。这个地方其实1989年的时候就已经发生过一次大火。黄色的就是被掀开的污水管道。我们现在能看到一些红色的小球,上面标了一些数字,就表示我们在这个地方拍了一些新闻照片,并且拍了多少张。

  现在我们看一下现场照片,看事故现场照片其实这个事情不新奇,但关键在于说你用这种方式去看的时候,你对现场有一个很直观的认识和了解,例如说我们看到这个楼被炸的破破烂烂底下都成这样了,本来是什么样子呢?就是这个楼,本来挺好的一个楼,现在被炸成这个样子,所以这个我们就可以有非常非常直观的感受。

  我们可以看一下这张照片,这张照片是唯一一张不是我们拍的照片,是在事故发生前3个小时拍的一个照片,他们就在这里修补,拍照片的人拍完照片以后他们离开这个工地,其他的还继续工作,后来照片里的人差不多全部都遇难了,所以这是他们最后一张照片。

  这里头唯一一个,后面有一个过路人,应该没有事情。现场工作人员里头唯一一个幸存的可能是这个挖掘机里头的驾驶员,因为后来据记者采访他说,他就说,他当时的感觉,是感觉突然间轰的一声,感觉自己像坐在井底一样。为什么像坐在井底呢?觉得四周围都是黑的,只也上面有一块是光亮的,就是坐在井底的感觉,因为都是黑烟嘛,他突然间摔下来,觉得自己还没有死,赶紧撒腿就跑,躲过一劫。但是听说这个人后来也被关起来了,因为他们要追查事故责任,所以这个事情貌似到现在也没有一个最后的处理结果。

  这个是当天晚上我们的记者潜入到现场拍下来的照片,可以看到包括说半圆形的楼是哪个呢?就是这个楼,都可以对照着看。

  当时做这个报道的时候,我们是有一个30多人的报道组在做这个事情,这30多人的报道组,有3个在青岛,大部分人在北京,还有人在上海、有在广州,我们怎么协作呢?就靠微信群,大家就在微信群里头协作,微信群是一个非常好的效率工具,我们做到什么样呢?除了做正常信息沟通以外,我们做到说,我们的记者在前面赶路,他用语音把他要写的事情说了传回来,我们后方的人赶紧就把他敲成文字,再编辑审查以后上网,这样我们基本上报这个事情在10分钟之内就能报出来了,就能报出现场的情况。包括像我们的记者在前面赶路,跟我们说你到了哪里,我说你不用说,你扔一个位置给我们就可以,然后我们就可以给他指路。这个不仅是新闻展示用的,还是一个工具,非常好用的工具。

  现在我其实还没有去过青岛,但是我对这个地形实际上熟的非常要命,非常清楚什么情况,闭着眼睛都会走,这个是我们当时做的新闻报道这种情况。做这个新闻我们花了多长时间呢?我们花了大概一天的时间,里头有半天在写代码,又有半天时间上传数据、上传图片,还有做一些数据的修正之类的,用一天时间把它发布出去了。

  做这个项目给我们带来了几个非常好的收获?第一个,这个报道,连同其他相关的报道,帮助我们网站当天是创下了财新网访问量的高点跟历史纪录。第二个好处,这个报道我们在去年获得了亚洲新闻奖,就是这个作品。并且我们的程序员因此获得了新闻奖,这个在中国新闻史上我认为是第一次,因为以前拿新闻奖都是记者的事,最多就是摄影师的事,从来没有程序员拿过新闻奖,我们这是第一次,第一次有程序员可以拿新闻奖,是一个没有受过任何新闻教育和培训的程序员拿到的。

  除了这个以外,他还促进了我们的新闻工作流程的变化,我们后来改了一个规矩,就是说你做重大报道的时候,这个报道组里头必须有程序员参加,程序员在里头起两个作用,第一个,他会跟你一起去制作数据新闻,第二个,特可以给你提供一些技术上的指导,能帮助你提升效率,这些都是我们做这个报道所获得的收获,这是大概一年半以前的事,之后我们不断的在这里头获得各种好处。

  我们再看下一个作品,做数据新闻其实有些时候不一定是一个需要讲故事的东西,我们看一下这个作品叫“三公消费”,三公消费是我们经常在提的事情,但是三公到底是哪三公,三公消费金额到底多大,其实我们很多人不是很了解,包括现在控制的到底好还是不好。

  大家看到了,按照2014年的预算,中央92个部门它的整个三公消费的金额是多少呢?大概61个亿,这个数字非常非常准确,因为所有的数字我们都是从政府网站上抄下来的,并且所有数据的精度是跟官方一模一样的,这个是数据库。我想关心哪块呢?我把鼠标挪上去都可以看得出来,哪个部门花了多少钱,可以每一年的去看,他是属于哪一类的,底下我们分了好多类的部门,都有很大的分类。一直以来,国家税务总局都是非常大的部门,因为他是负责挣钱的部门。

  除了这个我们可以看费用榜,我是把这几十个,把这90多个部门的所有数据全部给你排出来,再拿一个图形让你去看,这样你看起来会很方便,否则它就是非常枯燥的数据,然后我再按分类走,按照用车、出国、接待等等,然后可以看每一年,这样的话你可以非常方便的查询。这个依然是一个数据库,只不过说我是用可视化的方式来呈现这个数据。

  大家看比例,哪个部门,你看我把最多几个部门突出出来,什么部门在用车比例最高,例如国家事物管理局,利用率最高,因为主要负责领导用车的。出国哪个部门最高呢,商务部、国家体育总局。接待,哪个部门比例最高,宋庆龄基金会、对外友好协会,如果你在这里上班的话可能每天就得忙着请客吃饭,我认为这个其实也是工作范围嘛,你从名字看就是干这个的。但是你如果不做平均的话,你光看总量不见得准确,我们再看平均,每辆车花了多少喊,还是国家机关事务管理局,花的钱最高,这个可以理解。还有看人均的情况,人均出国的费用最高的居然是国家信访局,我也很了解,我就去了解,他们说把2012年有些钱漏了就挪到了2013年去了,造成2013年特别高,比别人高几倍,这也算一个原因,万事都有因。当我们做这些事情的时候我们不会预设一个结论,他应该是什么样的,我们会看事实,然后我们才知道到底是什么,而且不同的人能够从这些数据里面看到不同的东西。

  三公消费控制的到底好还是不好,我们从这些数据就可以看出来,这5年下来三公消费压缩还是不少的,至少中央这一级,用车这块、招待这块基本上压到了1/3,出国涨了一点点,我们应该看到,这里头工作其实还是做了很多,也是有效果的。这是一个“三公消费龙虎榜”这么一个项目。

  下一个项目,这个项目叫做“星空彩绘诺贝尔”,这个项目是我们把这100年来的诺贝尔获奖者的数据变成一个彩色的图形,一个很漂亮的图案,让大家看的比较舒服。我们怎么来设计这个东西呢?我们先看最外面这圈是年份,再往里头,从东往西是这些获奖的国家。国家的名称旁边有一道杠杠,这条杠杠就是国家获奖人的总数。再往里头这一圈,标的是人的分布,获奖人的分布,年龄,每个年龄段从里到外是分了几个年龄段,颜色代表他获奖的种类,这有图例,这个也代表获奖种类。这个圆圈大小代表获奖人数的多少,这是一个统计图。然后他还可以自动播放,我们点一下自动播放,我们就可以看到他一年一年的往前走,展示每一年的获奖者名单,我们可以看到很详细的获奖者名单,包括是男、是女,分布在什么国家,是什么奖项等等。其实我们可以看到就是说,在一战以前基本上获奖的人都集中在欧洲的,尤其是英、法、德这几个国家,我们可以看的非常明白。

  我们快速的跳到一战以后,到30年代以后,因为随着欧洲那边的局势变得紧张,越来越多的获奖者出现在美国,我们可以看到美国的这根线变得突出了,这是一个非常非常明显的迹象在这里。1939年二战爆发,我们可以看到1940年到1942年这三年是没有做评选的。到二战以后我们发现一个新的现象,整个科技的中心从欧洲挪到了美国,非常明显,二战以后美国的获奖者非常非常多,同时也有一些第三世界国家的,包括亚洲、南美等等一些国家,都开始有人获奖。所以从这个我们就可以看到整个获奖者分布的情况,这其实也是一种数据挖掘,就找出这里头的获奖者的规律。

  这个项目,做数据新闻有一个特点,跟原来的新闻不一样,它是开放的,每年都可以往里补数据,一年一年往里补就完了,三公消费也是类似的情况,随时可以往里补,一直都有用。这个项目我们是参加了英国的叫做“信息之美——信息可视化设计大赛”,是入围了,没有拿到奖,但是我们入围了,我们去参加这种国际比赛的目的是说,要去跟世界最强的团体去比赛、去竞争,然后来逼着我们去提升自己。

  我刚才给大家演示了4个PC上的作品,接下来我们来给大家介绍其他的。接下来我要讲在手机上呈现数据新闻,它跟在PC上的数据新闻是有一些区别的,就是说,第一,我们要看理由,为什么我们要在手机上去做数据新闻?因为第一,它受众广。这个很好理解,现在大家都把钱花在手机上了。第二个,是易传播。因为在电脑上做这个东西传播很麻烦,你必须把它分享出去,你只能通过邮件、微信之类的方式,但是你如果在手机朋友圈一分享就出去了,所以传播起来就很方便,这个非常非常重要。

  他们有什么区别?第一,显示面积不一样。决定有些项目没法在手机上做,例如周永康这个项目在手机上做不上去。还有,操作方式不一样。咱们在电脑上我可以用鼠标做非常精准的操作,但是如果是在手机上只能是用手指头这么去点,所以没办法点的特别精细,但是它也有不一样的就是说,它除了单击,可能还可以双击,然后可以放大、缩小,可以滑动,甚至可以摇动,操作方式就有很大不一样,所以产品设计时就要求必须不一样了。另外,它接口也不一样,在手机上我们除了这个操作接口以外我们还可以调动什么?我可以记录你的位置,用GPS记录你的位置,我可以录你的声音,我可以拍照片、拍视频等等,很多开放接口不太一样,所以能做的事情也不一样,这都决定了我们产品的设计需要完全不同。

  所以我们现在一个原则叫移动优先,就是说当项目我尽可能的话是电脑也做一个、手机上也做一个,但是如果我顾不过来的话怎么办,我电脑宁可不做了,手机是一定要做的,这是我们所谓叫移动优先的原则。

  接下来有一个作品,给大家举一个例子,关于摇车号的作品,我们这个作品是去年6月份做的,当时6月份摇车号的命中率是1/137,你把它作为新闻报道其实没有什么可说的,一句话就说完了,这个事怎么办呢?我们就要把这个展示给大家。说到1/137大家就这么一点,如果我再形象一点,1/137,就意味着麻将你把麻将扔掉三张花牌,然后你摸吧,把其他的花牌看谁摸掉。还有,把这个代码放进去,让你试一下哪年哪月能摇到,大家就试了一下,1/137一年摇6遍,意味着你得摇22年,在座的各位22年摇到车号就算好运了,这才是真相。得让大家去体验啊,大家就去体验吧,真的去摇吧,有人很开心摇完了,我明年就中了,虽然说瞎过瘾,很高兴,他会往外分享。有的人一摇,50年都摇不中,非常的沮丧,也很高兴,也要往外分享,所以这个事就分享出去了。

  我们做这个项目一共就做了半天的时间,一共就那么两三个人分享出去,也没怎么做推广,第一天有3千的访问量,第二天有5千的访问量,第三天突然就变成了30万的访问量,第四天就变成50万的访问量,就爆炸了,这一个星期下来总的访问量是150万,所以我就觉得这个非常有意思。这个是我们6月份做的,后来也有更多的人就发现了这个规律,所以后来各种朋友圈游戏你就发现很多了,像神经猫,就各种刷屏。也有人就尝试说,用游戏的方式去推一些东西。

  当然我为什么这边一直强调说数据新闻呢?大家现在有些时候会把H5的东西跟数据新闻混在一起,说实话做H5,H5是HTML5的简称,不难,很简单,现在会做的人少,大家觉得挺稀奇的,物以稀为贵,但是过几年就没有什么稀奇了,满街都是了,这个时候就得比创意、比设计,跟网页设计其实没有什么区别。我们只要把住数据可视化这一块,我知道怎么用最准确的形式去表现这个数据,怎么能帮助你迅速的理解数据,和你怎么帮助你把枯燥的数据传递出去,这是我们把握这件事情的核心,所以我们也是这么做的。

  我们可以看一下下一个案例,下一个案例其实这个不是一个新闻,这是一个商业作品,是我们帮阿里那边做的一个可视化传播作品,简单来讲,它当时去年“双十一”业绩非常不错,他们提前就知道很不错了,所以就提前找我们说,你们到时候帮我们做一个,把这些数据传播出去,我说好啊,我们就帮你们做吧。所以我们就帮他做了一个,我把它录成了视频可以给大家看一下。

  (播放短片)

  这个作品在两天之内获得了20万的访问量,大家也都知道,其实这是一个商业作品,你如果说作为广告你要想获得20万的点击的话,差不多按一个点击10块钱的话,你得花200万,他做的投入显然小的多得多,对阿里来讲也是非常划算的。所以后来我们还帮,除了一直帮阿里做,也帮别的客户做了类似的项目。还有企业,因为他们想做年报,他们就找我们,因为他们觉得说我们做这块是比较擅长的。

  接下来我会跟大家分享一些资源,大家可以看一下,其实做数据可视化也会有很多反面的案例了,我给大家看一下这些反面的案例,大家可以试一下,这个是我那天随便在网上找的图,大家可以试试,看看这种东西里头什么地方做得好、什么地方做得不好,或者就找什么地方做得不好,这面没有什么做得好的。

  大家可以试试看,就像大家都会写影评一样,我不会看,但是我会写。大家看这里面,不知道什么是热词,这个是和两会相关的,还有呢?每张图上可以找到很多问题,Y轴很奇怪,这些数我理解应该标在边上的,Y轴的指标单位也没有,这个随便能找出几个毛病来。

  我们再看下一个,这个图有什么问题呢?有人说没有排序,看起来这边好像排序了。这些东西里头,百分比到底是什么意思?是这个省份发议论的人数占全国的百分比呢,还是说这个省份发议论的人数占他们省的人口的百分比,没人看得出来吧。如果说我们讲的是山东占全国的8.16%的话,那种意思其实我们可能该用一个饼图会比较好理解,但如果我们讲的是山东有8.16%的人关注两会,而北京有13.26%,如果这样的话我们用一个柱形图会比较准确。这样的话其实你是没有办法理解的,最后还莫名其妙弄了这么一个东西,位置又没有关系,最后还导致了摆了遍。我们做数据可视化,一张图拿出来所有的符号、颜色、数字、大小等等都必须是有含义的,任何一个东西没有含义都不行。

  这个看有什么问题?反了吧,一眼看出来了。还有呢?这个到底说的是什么数不知道,阅读量是什么阅读量,讨论量是什么,粉丝是谁的粉丝,都没有吧,数据来源是从哪儿来的,也没有吧。反正我还没学会做,但我学会看,我就看那些图我知道什么是烂图。

  这个看看问题在哪儿?有人说百分比应该用饼状图。这个不一定,这种东西用柱形图是可以的。有人说看着乱,这是一个总体感觉嘛,问题在哪儿。您说到颜色,为什么一个红、一个黑呢?通常你区分两个颜色就一定要说明说,红的是一种含义,黑的是一种含义,但是你发现红的和黑的就没有任何含义,就为了所谓的好看把它隔开。还有数据相加不是百分之百,这个我还没有加过,这就是大问题了。

  你们看一下,这个17.74,这个8.76,你们有没有发现它高度有点问题,正常它大致应该是它的一半,现在显然不是嘛,这种都是非常低级的错误,因为低级的错误会导致你产生错误的理解。包括在这种图里头箭头是不需要的,没必要用箭头的,如果为了好看,甚至这个轴都可以不画的,如果我要好看,这个应该宽一点,它的间距应该是这个柱子宽度的一半。后面这种好不好看的东西,见仁见智,有的东西硬伤是不能犯的,犯了这个东西做的就不对,会导致你误解,或者你产生错觉,这是一个反面的案例。

  再给大家分享一下资源,这个是我建的一个群,是财新数据可视化分享的群,这个群里头有300多人,基本上有几种人。第一种,主要是业界跟数据新闻有关的,有很多的媒体人。第二种,就是学校的老师,主要以教新闻传播、教可视化的老师为主。第三种,相关专业的学生。300多人,现在自己加不进去了,只能找里面的人加进去。这个群的特点,大家在里头做一些案例的分享、资源的分享,还有一些业务的讨论等等。

  给大家介绍三个网站。第一个是我们的网站,我们的所有作品,其实我们做的作品这两年我们得做了一两个作品,都放在“数字说”这个网站上面,大家可以上去看。另外一个网站,是我们实验室的网站,实验室的网站上面其实更多的是放这种资源,例如说我们对可视化项目是怎么设计的,设计思路是什么,还有其他媒体或者其他别的包括国外的一些成功案例,案例分享,还有一些工具,还有数据库等等,我们都会放在上面,还有很多学习资源。第三个,“数据新闻网”,是几个年轻人,他们都是又对新闻感兴趣,又对设计或者说对代码感兴趣的人,有的在美国留学,有的在香港,有的在欧洲,他们一起做了这么一个公益性的网站,上面有非常多的跟数据新闻有关的资讯跟资料的分享,大家有兴趣可以看。

  给大家介绍几个工具,跟数据可视化有关的工具。这里头首先要说就是ECharts,这是非常好用的可视化工具,非常方便,我们是它最早的用户之一,因为它刚刚做媒体我们就拿来做数据新闻了,我们一直都有合作和沟通,非常好做的工具。还有一个基础的工具是什么,我想大家都认得出来,Excel,是非常非常好用的工具,我们绝大部分用Excel的人用不到1/3,因为功能太强大了,不管你做什么Excel都必须精通,它可以帮助你做数据的筛选、分析等等。还有Tableau,是美国的可视化工具,它的功能比ECharts要强,但是更笨重一些,因为里头还有对数据库的接口,还有一些数据分析的功能,不仅仅是画图。ECharts是在画图上非常强的工具,Tableau例如说你把一些数据直接往里一填,就可以做成非常丰富的图表了。所以这三个是值得我们了解的工具。

  想说数据可视化其实有三门基本功课,说白了很简单,HTML5、CSS3、JS。

  推荐几个公号,分享一些跟可视化数据有关的内容,第一个是我们实验室的公号,第二个是全球深度报道网,是港大维护的公号,第三个大数据新闻,是武汉大学维护的公号,复旦新媒体是复旦大学维护的公号,下面是腾讯ISUX和IXDC。

  给大家推荐几本书,这几本书不是说好书只有这几本,而是这几本书我都看过,并且我认为说它即使零基础的人都可以看,非常有用。

  第一本《用幻灯片说服全世界》,有的人会讲说,你明明讲的是可视化,为什么扯到幻灯片上去了,PPT就是一个最常见的可视化作品。什么样是烂的PPT,就是把Word文档直接往上贴,好的PPT是给一个提纲帮助理解。

  这本书《最简单的图形与最复杂的信息》,它的作者是华尔街日报的图表设计总监,华尔街日报是在,因为他一直都在做财经媒体,所以他在图表这方面是积累了非常多的经验,也是非常的准确,这里头会告诉你,很多事情应该怎么做。

  这本书叫《图解力》,这本书是一个日本人写的,因为他是做了几十年的信息图,一个老头,从画地图那时候开始,他们当时都是没有电脑,是直接用手绘的,他会告诉你说怎么样准确的用图形去表现你要展示的内容,这都是非常好的书,都非常好看。

  我需要跟大家分享的东西就这么多,这里头是我的联系方式,大家扫一下是可以把我的联系方式存下来。如果大家有问题的话可以跟我微信联系,加我微信的同学就麻烦说把你们的全名还有你们的工作单位都写到里头,这样我才能方便标注。

  我今天的分享就这么多。谢谢大家!

  乔宇:刚刚在黄总的可视化实验室里头转了一圈,我也深受震撼,在朋友圈里分享了两组图,分享完了我看点赞和评论的,每一组图大概有30多个,一瞬间就出来了,所以大家对这块东西还是蛮感兴趣的。

  接下来我们进入沙龙的第二个环节,叫“百家争鸣”环节我们希望通过这个环节,引入百家之言,以及更多有代表性的创新型的传媒产品。

  大家都知道,包括刚才黄老师也提了百度祖明先生他们做的ECharts这个产品,我就不班门弄斧了,因为我看了一下,来之前我准备了一下搜了一下ECharts这个产品,虽然我是学理工科的,但是研究起来我觉得还是有点难度,我就不班门弄斧了,下面有请百度复合搜索部前端团队经理祖明为我们带来分享。

  祖明:大家好!我其实做过很多分享,但是关于ECharts的分享还是第一次做。为什么呢?因为之前所有ECharts的分享都是由我们ECharts的创造者林峰,大家可能对他熟悉一些,因为他前段时间追求梦想去创业了。ECharts团队当然我们会继续做下去,今天志敏也跟我交流,接下来ECharts怎么办,我们会加大力度,会招更多的工程师加大我们产品的迭代速度,也请大家放心,ECharts会继续的免费开源给大家提供更好的服务。

  ECharts这个产品是我们从2012年的8月份开始做,立项,怀胎9个月,在2013年的6月份发布了1.0,然后在2014年的6月份,去年6月份发布了2.0。在发布2.0以后,ECharts这个发展速度非常迅速,我们在全球的开源社区关注度持续的攀升,大概在2012年的第三季度、第四季度的时候,我们当时又超过了全球其实是最流行的一个图表的关注度,我们到去年2014年的11月份我们发布了国际版、海外版,发布之后我们的用户数直接就超过了五六千。

  其实我在大概两个礼拜前接到这个邀请时候准备了很久的PPT,但是后来觉得再怎么准备其实没有我们之前林峰同学做的这份PPT的内容最完善。

  在我们ECharts刚推出的时候很多人问我们,市面上已经有很多的图表库,包括全球最流行的,当然也有华人做的一些,为什么你们还做这个东西呢?我们做ECharts其实最大的动力是说,我们想做不一样的东西,业界所有的图表库大家可以发现在Web看到的图表,大家看到的图表都是很单一的,把一些数据用我们传统的柱状图、饼状图表现出来,可能我一个鼠标点上去一个文字,仅此而已,这是大部分图表做的事情。其实我们想大数据时代这种不仅是呈现,而是通过可视化的方式让大家更多去解读数据、阅读数据的方式,所以我们定位说,我们要让可视化成为辅助人们进行视觉化思考。

  我们通过什么方式呢?我们通过的方式就是,我们引入了大量的互动的特性。首先第一个特性,拖拽重计算,这个图描述的是浏览器的占比,大家可以看到传统的饼状图我们可能看到的就是一些数据怎么分布,比如这个图我们想知道它的占比是多少,我可能打开一个计算器再加一下。在ECharts我们可以很简单的拖拽一下,这两个就合并在一块了,这是拖拽重计算。

  还有一个拖拽重计算很厉害,比如说刚才志敏也提到“双十一”这个东西,这可能就是某家“双十一”的数据报告,11月的,因为有“双十一”在,所以我很难看到,除了“双十一”这一天其他时候的数据表现。这个时候如果你用ECharts做的话,你可以很方便的把“双十一”这天的数据拖出来,就可以看到其他天的趋势了,这是我们的第一个特性,拖拽重计算。

  第二个特性是数据视图。我们在做很多图表的时候,大家在网页上看到很多图表的时候,其实我们看到的是这样一些表格,其实对于前端工程师来说,我们在看这个表格的时候拿到的是所有的数据,有的用户看到这个图表的时候可能希望把这个图表背后的数据到自己的Excel或者怎么样再去加工,传统的图表没有这种能力,但是ECharts提供了数据视图的能力,我们可以把数据展示出来,就可以把数据拷下去自己用。

  不仅仅这样,如果我看到这个图表的时候,我会假设,比如说这个地方利润、支出、收入,如果这个数据在画图的时候写错了怎么办,可以在数据视图里点,把这个地方做一个修改,刷新,我们可以看到,你可以在图表中做的数据马上被调整。

  下一个特性叫动态类型切换。我们知道在这种可视化里面有很多很多的数据图表,柱状图、折线图、饼状图,不同的图表类型其实它对数据的表达是不一样的,比如折线图表达的是一种趋势,柱状图表达的是一种对比。我们有的时候,特别是做可视化设计的时候会很头疼的一件事情,我有一块数据,我到底用什么形式来表达呢?有的时候我特别想表达一种趋势,但我觉得这里面也有对比的关系,那怎么办呢?可能我们要画两个图,但是我们的这个界面是有限的,装不下两个图,所以ECharts可以做到的一点就是动态类型切换。我虽然只有一份图,我可以做的事情是,这里我们可以把它切换成折线图,从刚才的柱状图看到的可能是周一到周日,可能周一我们能够知道它的异向会多一些,慢慢变化,但这个趋势当你用折线图的时候会更加的清晰。同时我们还可以做一件事情是说,堆集,我们可以切换成堆集的图,能够看到它所有的变化趋势。这是第一种。

  这是一个国外的数据,就是国外用户的手机他的APP的安装率。这个图相当于是环形图和饼状图,描述的就是有多少用户装了这样的APP,当然这个图你也能看到这种趋势,比如说谷歌地图装的比较多,其他的装的比较少。我们用可视化的方式可以换一种形式的话,可以看到是更明显的一个变化。

  还有一个图表,这份数据是财新网报道的一个数据,是美国包括一些中东国家他们的一些关系,这个图,从理解上可能有人不太容易理解,它表述的比如说,我看沙特,我可以看到沙特跟一些国家他们有什么样的关系。通过这个图,我们可以慢慢的去了解谁跟谁的关系,其实同样一份数据我们可以换一种解读,我们可以看到在这个关系网里面,谁可能在这个关系网里面它更复杂,跟更多的国家有一些关系。这是动态类型切换,同样的数据用不同的类型来呈现。

  接下来是值域漫游。值域漫游什么意思呢?其实我一操作大家就懂了,我现在鼠标在左边,有这么一个条,我把它拖一下,我还可以反复拖,其实这个交互很简单,通过这样的交互大家可以去解读数据里背后的一些东西。这个就是大家比较常见的,就是像这种数据区域的收放,比如这个时间连线可以变短、变长,这个大家见的比较多一些。还有像多图联动,我可以把K线图和其他的数据放在同一张图里,通过他们彼此之间的关系去挖掘数据背后的一些事情。

  我们在去年也发布了一个2.0的时间我们增加的时间轴,并且是支持这样的动画的一个效果。时间轴其实也可以跟不同的一些图表去百搭,比如像这里我们用了人均GDP这么一个地图,各个省份的人均GDP是时间轴在一起,我们就可以看到一些东西,比如说我们通过值域漫游,我们只显示把我们要看的数据聚焦在这个区域,我们播放时间轴,我们可以看到的中国所谓拖频的轨迹。先从沿海地区,慢慢的往里面。

  ECharts除了刚才所谈到的各种交互特性以外,其实ECharts还有和其他竞品特别大的区别,就是我们大数据的能力。我们知道因为像浏览器的这种性能所限,像传统的图表,包括目前可视化领域最牛的,他们都是用这样的方式去实现的,他们可能在使用数据的时候有能力限制,一般4万个数据的时候就扛不住了,但是ECharts是用另外的数据,这是ECharts和其他竞品相比脱颖而出的特性。

  另外我们也提到了,刚刚展示过了力导向图复杂关系的呈现。这个力导向图我们和百度的另外一个互联网数据库做了合作,做了百度人物的知识图谱这么一个产品,比如大家在百度搜《小时代》,搜比较火的明星郭敬明之类的,会出现这样一个关系图,里面就是把比如《小时代》里所有的演员之间的关系呈现出来。

  这也是一个力导向图的例子。

  我们也可以支持这种实时的展现数据变化,如果你是要展现一种,它会实时变化,比如你网站实时PV的变化或者一些股票的实时变化,我们可以支持这样实时的图。

  我们还是回到刚刚的图,这个图大家看特别的复杂,眼花缭乱的,我们提供的一种东西就是图例开关,很简单,左边有这样的图例,你点掉哪个就消失,再点就打开。

  我们同时还支持在一个图里面我们去做这种多维度堆积,比如这是一个访问来源,我们可以把搜索引擎的,比如说这个紫色搜索引擎这块,然后我们把一些其他的广告类的,营销带来的,但是这里面又可以细分成是邮件还是联盟广告、还是视频广告,通过这样的方式能够把数据信息展现的更加直观一些。

  我们在去年也根据用户的反馈支持了一些这种商业BI用到的图表,左边是一个汽车上的仪表盘这么一个东西,一开始我们没想到为什么会有这样的需求,后来我们发现就是可视化的一个案例,就是说同样85%,如果你只是用了数据或者用一个什么柱状图,人们感觉不到这种急迫感,但是当你用仪表盘的时候,当你到85%,就像踩油门上的比较猛的时候,会有心跳得感觉,就是可视化的力量。

  右边的是漏斗图,传统的漏斗图是外面的这一层,加上比较浅的颜色,传统的漏斗图有一个问题就是说,可以很形象的表现从上游到下游数据的关系,但是没有办法很准确地表达出是真实的一个数据是怎么样变化的,所以我们这里面做了一个创新就是,我们用了两层的,最外层我们还是用形象的方式,但是里层我们通过这种实际数据是多少我们就做出多少这么一个方式,来真实的表达数据。

  其实刚才我们介绍了有很多图表,其实真正使用的时候可以根据你实际的需求,我们可以把这样的一些图表,按照你这种需求去做这种混搭。

  这就是一个混搭的例子,把这个饼图、折线图、柱状图放在一张图里面。把这种饼图放在散点图可以去描述,假设这是什么人群分布,比如在不同的X轴、Y轴上有个人群,人群里面可能还可以分男女或者其他的数据。

  这是地图跟饼图的混搭。

  这个混搭非常有意思,这不是我们自己做的,是我们的一个用户做的,他做完这个图以后我们觉得很有意思,我们从来没想到我们这种饼图可以这么用,我们也给它起了一个名字虫洞,就是一个很科幻的东西。

  之前林峰做ECharts的时候特别给大家的动力就是说,他知道他要的ECharts做成什么样子,他发现用户用ECharts的时候,用出来的场景远远超出他的想象,用户的创意是非常牛逼的,所以说我也希望大家在用ECharts的时候,不用局限在我们所提供的那些图表,你可以发挥你自己的想象力,去做你需要的可视化的一些案例。

  我们也做了一些,除了传统刚刚提到的图表,我们做了一些吸引眼球的,首先第一个就是,百度迁徙,相信大家都看到过,去年和今年央视都有报道,这就是我们基于ECharts做的一个在地图上做的比较炫的一些效果。

  这也是百度迁徙的例子,我们用到值域漫游的东西,我们通过调值域贡献,只是看到一些我们想聚焦的区域。

  这是我们跟百度人气合作的一个案例,大家可以访问renqi.baidu.com,亮的越多的地方使用的定位越多,我们看广东、北京、上海这三个地方是使用人群最大的。

  ECharts其实在百度里面基本上所有的产品线都覆盖了,包括大家可能接触的比较多的,像迁徙,像百度统计这样的产品,其实ECharts我们觉得最成功的地方是在于说外界有很多的朋友在使用,比如说有很多很多的我们想象不到的,其实我们并没有做用户统计,都是突然间有一天我们看到有阿里或者腾讯邮件的询问就过来,我们才知道这个公司在使用我们的产品。

  这页其实讲的是刚才黄总也介绍了一些工具,比如说Excel,像ECharts这样的东西,其实使用场景是不一样的,我们可能在图表支持上更多一些,这两个是完全不同的领域,一个是在本地的文案做,一个是在Web上做,我们可能更实际的比较,跟我们现在业界最流行的商业图表库Highcharts比较,他们有的图表我们都有。最核心的能力,在于我们的拖拽重计算、数据视图包括大数据能力,最重要的一点我们是免费的,Highcharts是商业是付费的。

  这个是ECharts,其实在介绍ECharts可能大家更多的是了解ECharts有什么样的能力,真正让各位去用ECharts是不现实的,可能你们也需要在公司内部像黄总一样可能建立一个这样的实验室或者这样一个流程,也有前端工程师去做。但是这是一个问题,不能说什么东西都指着程序员,特别是前端程序员可能如果没有招聘过不了解,招一个前端工程师是特别困难的事情,我去年招了,我面试面了160多个人,最后只招了3个人,这个市场是非常困难的事情。

  所以说除了ECharts我们还做了另外一个东西,叫图说,不知道有多少人听说过这个东西,还是有一点,非常少。为什么要做图说呢?其实我们是基于这么一个分析,就是很多人都有这种数据的分享诉求,今天到场的各位可能大部分是媒体的朋友,所以说大家的诉求基本上是在传播那个部分,就是我们有很多公开的这种数据,然后我们要做这种分享,可能在我们公司内部我们会经常接触到这样的用户,比如说我们有个部门叫销售监察部,他们要做的事情要给老大汇报每个月公司的一些销售监察的数据,他们不会写代码,但是他们又不希望用PPT、Excel的形式,他们找到我们怎么办。后来我们图说做了以后他们是我们最忠实的用户之一,他们每次用图说做了发给老大。

  很多人用可视化数据写一些故事、写一些新闻,或者他想向老板汇报图表数据,想用更高效的方式,因为他不会写代码,也不想用Excel,他也想做一些可视化的数据,他想做这样的东西,但是像ECharts这样的图表背后是什么东西呢?比如大家我看到都很头晕,每次收到ECharts的问题邮件我头都很大,我们做“零编程的数据可视化实现+便捷的分享平台”。

  图说大家如果注册以后能看到界面,域名很简单,就是tushuo.baidu.com,这就是我之前做的案例,操作什么样的,很简单,比如我现在要创建一个折线图,我们这里有很多图表,折线、柱状、饼图,点了以后就到这么一个界面,一个图表就出来了,我现在想编辑数据,可以直接导入Excel,我可以随便改数据,我也可以调整很多参数,这也是我们需要优化的地方,这里面太多的东西,名词比较技术,大家可能在理解上得一边试一遍才能知道什么东西。比如我们可以去设置一下,比如说Y轴的位置,比如现在是下,我们可以把它放到上面去,就跑到上面去了,也可以设置很多文本的颜色,比如说现在是黑色,我们把它设置变成红色,应该改成那个颜色。还有包括图例、工具等等,说实话,我觉得目前这个产品的应用性不是太好,但是相对于写代码来说要好很多。当然我们也可以继续插入一些图表,我们甚至可以添加一些文字,你可以是标题、还是正文等等方式。

  最后我们都编辑好以后我们可以把它做分享,你是要公开的,还是私密的,公开的话就可以是有很多方式,比如说第一个,我们是给你一个链接,你通过这个链接直接发给别人,别人就可以看到你做的这个可视化。然后你可以向,比如大家做某个网站,里希望把这个图表嵌入到自己网站,可以通过这种代码的形式嵌入进去,也可以根据我们的方式更新到微博、朋友圈或者什么地方。你也可以是这种私密的,我们像网盘一样提供一个码,别人有了这个码之后才能看。

  图说这个产品其实上一段时间了,我们可以看一些案例,这是线上的,比如说这个是新浪新闻曾经有图说做过的一个专题,他这里面就用到了我们的像陀螺一样的图,也用到了这种堆积的折线图,这样就不用你写代码,你只需要在图说里面做好图表嵌入到自己的页面就行了。

  这是林峰同学在我们ECharts女生过生日的时候,拿图说做了一个比较程序员范儿的贺卡,说你越来越有钱、越来越漂亮。

  这个是我们图说的程序员给他爸爸自己做的一个血小板的变化情况记录,也可以用来记录自己家人的一些东西,这个就是图说,就是希望用图说和ECharts分别给会写程序的人以及不会写程序的人都带来做可视化的能力和工具。

  接下来我们整个2015年我们对可视化这块的投入力度会加大,也希望,永远我们毕竟是程序员,加上百度,它其实不是一个媒体行业,它是做互联网的,做搜索的,做技术的,也希望更多的听到大家的需求,大家希望在可视化领域得到诉求满足的话可以联系我们,我也加入那个群里了,大家可以加我微信,也可以关注我们ECharts的官微,也可以直接发邮件,然后联系到我们,谢谢大家!

  乔宇:感谢祖明,我就不拿给我准备好的串词了,因为我刚才在准备PPT里面看到一页,应该算是ECharts的客户名单、合作伙伴名单,正好有新浪新闻LOGO出现,因为下一环就是新浪新闻的同事还有小朋友一起来出现,为什么叫小朋友?确实年轻,我在新浪是一个老人了,我在新浪有差不多10年了,非常有幸我见证了新浪新闻在追求快速、追求准确、追求客观上的能力,这些年新浪新闻实际上也在数据新闻上面做了很多探索,现在有请我的同事新浪新闻主编卢旭宁同学上台来给大家分享一些。

  卢旭宁:大家好!也谢谢刚才黄老师、祖明老师的分享,也谢谢刚刚乔宇的介绍。她叫我小朋友,但是面相看她很明显要比我小很多。

  我今天讲的标题就是“和数据可视化不得不说的那些事”,讲讲我们新浪新闻目前在数据可视化方面做的一些工作,刚才像祖明老师他们也引用了一些我们做的东西,黄志敏老师也讲了财新网的东西,我们新浪新闻为什么做数据可视化这块的东西。

  当时出于两个考虑,第一,让网友更容易、更方便、更可靠的接触到信息,因为说实话,时政新闻,我们现在说反腐新闻,甚至哪怕一些敏感新闻,是很枯燥无聊的,大家谁会每天去看看比如说习总书记干了点什么、李总干了点什么,大家对这些信息接受起来是很困难的。还有一些数据,比如GDP,比如说投资。我在2008年第一次听到4万亿这个数字的时候,我当时反应半天,我说4万亿是一个什么数,我到今天才反应过来。但是我觉得如果有一个很简单的图示或者一个图解能告诉大家,4万亿比如说相当于某一个国家的几倍的GDP,比如相当于英国的几倍、美国的几倍,我们就能很明显的了解到4万亿投资是多么巨大的规模,这是让信息更通畅的流动、让网友更容易接受。

  第二方面,我觉得数据新闻和数据可视化也是我们进行内容生产的一个方式。说实话,我们可能做媒体的人大家都知道,对于门户网站来讲,国家的管制是比较严格的,就是说不能原创,但是如何在这方面寻找自己内容生产的渠道呢,数字化新闻就是一个可供选择最好的渠道之一了。因为我们很多内容其实存在于数据当中的,刚才黄志敏老师也说了,很多数据是零散的,没有经过整理的,如果我们把这些数据整理出来,用一个大家能接受的方式给它呈现出来,这就是一个非常好的内容,我下面会接着继续讲这个问题。

  我今天主要讲两块,一块是我们的尝试,我会把以前我们做的东西跟大家汇报一下,接着讲我们目前做这些东西面临的一些困惑。

  首先我们新浪新闻目前在做的数据可视化的一些东西是这么一种情况,40%是所谓静态的信息图,大家目前可以看到我们的图解天下,是我们的一个品牌栏目,当然我们图解天下从2014年开始也推出了一个自己的系列人物,叫小明,但是现在我们用了小明之后就发现各大媒体都开始用小明了,我觉得小明太累了,30%是PC交互,30%是移动交互,就是我们针对移动端的产品。

  图解新闻这个栏目我们是从2012年底开始创立,到现在更新了200多期,是主要的可视化形式,其实这个图解也算是在门户网站当中做的比较早的一批,之前也尝试很多形式,比如我们做的数读中国官员自杀,人民日报的邓小平,中国的小伙伴是友邦还是敌人,这些东西,比如说官员自杀,我们每天都可以看到比如今天有一个官员自杀了,明天又报出来一个,这些都麻木了,当我们把这些数据整合起来发现,比如在各个省、各个年龄段、各个时间段都是有一个比较好的呈现形式,大家都比较了解现在比如说官员他的一种生活状态、他的一种精神状态是什么。

  关于人民日报邓小平这个,也是我们去年,应该是去年在邓小平诞辰110周年的时候做的一个东西。邓小平这个人是很特别的一个人,谈中国的当代史,谈80年代之后的历史,一直到现在,已经是绕不过去的。在中国改革,谈所谓的进一步深化改革,都绕不过这个人,但是怎么呈现这个人物背后的一些东西呢,谈他的生平大家都知道,他是怎么怎么着,官方媒体连篇累牍的在解读这个东西,没什么意思。他背后的政治生涯是怎么样的,他的政治情况是怎么样的,他背后有几起几浮的情况究竟用什么方式呈现出来,我们发现一个特别好的呈现形式就是说,他在人民日报上出现的次数。我们发现从1949年到2014年,他在人民日报上出现的次数是有规律可循的,而这些都折射出中国整个生态的变化,比如说我们在1966年到70年代的时候,我们会发现邓小平在人民日报上出现的次数会急剧减少,到最后干脆不提了。到1975年的时候这个人又出现,就是折射出当时文革的状态。

  我觉得人民日报是我们发现的一个比较好的数据库,尤其是做政治新闻来讲,政治新闻我们在中国空间很大,当然我们财新网的老师是很厉害的,关于周永康或者是很多新闻挖掘都是很厉害的,我们一般的大众媒体是达不到这种情况的,一方面是没有人给你料,第二方面,你也是拿不到这些料,这造成了就是说,你要做政治新闻你有很大的来源不足的问题,但是人民日报能给我们补充好多这个东西,它是一个特别大的数据库。比如说从1948年、1947年刚刚建立人民日报时候一直到现在,每天的数据都有,我们都可以查到,每天发了多少篇文章,文章里面是什么内容,通过一个整体形成非常好的解读中国政治的图表。

  我们就以比如“人民日报中的邓小平”看信息制作过程。首先前期是一个编辑参与的过程,我们要设定主题,我们究竟要做什么,为什么要做这个,设定角度,就是邓小平这个人我们能怎么去做,下一步就是编辑去做数据挖掘,其实这个我们还属于比较原始的状态,其实就是编辑可能去国图,国图是一个非常好的宝藏,其实好多编辑可能都忘了挖掘这块了,但是它是非常好的东西,里面有特别全的数据,基本上你无论查什么,不管是图书、报纸或者是其他的,只要建国之后有的东西它都会有,当然建国之前的它也有。把数据整理出来,设计师进行可视化加工,这个优点是以编辑参与为主,易操作,编辑主导性会比较强,他的选题、判断力都会发挥的比较好。缺点就是太简单了,这种东西确实比较简单,我们也在思考这个问题,呈现形式上确实比较单一。

  下一个就是我们的PC端交互可视化。这个PC端交互可视化我们也是从2013年初两会的时候开始做,我觉得大型报道也是一个不可或缺的重要报道手段,比如我们普通页面就通过手写JS和页面填充完成的交互可视化产品,可视化交互就是用刚才祖明讲的ECharts来做。

  这个是我们做的几个PC端交互可视化的一个产品,像解读薄式江湖,我们现在印象中可能只有周永康,当时薄熙来出来的时候可能是从2011年,2011年、2012年、2013年是最引人关注的案子,他引人关注不亚于现在周永康这个案子,而且人物关系、戏剧性,还有整个我可以用四个字来形容“波澜壮阔”,比如说一个耳光、一个茶杯、一个偷情、一个官员的多马,他跟王立军的关系、跟薄谷开来的关系等等。

  另外一个是中国政要新阵容,是2013年两会的时候推的东西,2013年正好面临我们政府换届。大家知道国家官员是非常多的,中央政府官员更是很多,有很多部委大家可能都数不过来,但是如何能让网友轻轻松松的了解这个情况,从习总、李总开始,一直到最底层的比如说副部长之类的官员,把他呈现出来,我们采用了这种交互可视化的模式,呈现的效果还是很好的。其实中国我们在国内做这种时政报道,可能很多传统媒体的同事也知道,你做了一个很好的报道,紧接着就是急电下来了把你搞掉或者删掉或者IP屏掉。但是我们做的是另外一个情况,我们做的这个东西,监管部门是很高兴的,觉得这是我们做时政新闻应该有的方式,这也是挺奇妙的东西。

  国家反腐战役,这是2014年推出的东西,当时反腐也形成一定的阵势了,落马的官员非常多。

  我们就从时间、年龄、省份、通报单位、原因和单位类别、人物关系的维度,全面梳理了从2013年1月至2014年两会,全国厅局级以上落马的官员,当时数据量很大,但是现在数据量更大,你通过看这一个表,整个当时的情况就能得到一个比较感官的认识。

  现在是我们做的用可视化交互工具,就是刚才祖明老师讲的ECharts这个工具做的交互化数据,比如说还是反腐的问题,这些官员他们落马究竟是在哪儿,他们当时落马的时候职位是什么东西,比如他们分布在政府、政协,他们在哪个省是最多的、哪个省是最少的,这都是可读性比较强又有意思的东西。

  刚才还说到人民日报的法治变迁,我们可以看到人民日报比如在70年代之前或者干脆80年代之前很少讲到法治这个事,但是到80年代之后发现这个事突然热起来了,说明我们国家的整个政治生态发生了很大的变化。

  下一个就是移动的交互,从2014年下半年开始,基本上各个门户也开始推出了以HTML5为交互的可视化产品,其中有相当一部分是数据类。大家比如从地图上,从柱状图上,从整体的情况,了解一下我们国家的钱到底去了哪儿,政府投资到底在哪个国家。

  这个是今年我们两会的时候做的一个KPI,KPI这个词可能在互联网公司很经常用,我们讲了一下李克强的KPI,其实这个话题是很难讲的,比如事实上考察李克强只能由全国人大负责,但是我们从普通公民的角度也可以给李克强去年的工作打一个分,从这个角度出发做了一个他的KPI,比如去年GDP完成的情况怎么样,比如土地污染、环境污染是什么情况,用这种方式呈现了一下,还是有一个简单明了的效果。

  刚才简单介绍了一下我们新浪新闻做的尝试,下面也讲几个困惑的问题,其实也是给黄志敏老师提个问。其实我们讲数据可视化这块的东西,说一个非常实际的问题就是成本,包括人力和时间上,我觉得这个东西它跟普通人,跟我们原来意义上讲编辑做一个东西,编辑可能需要几分钟就完成了,但是这个花费成本多,比如它需要用设计师,需要前端,需要编辑也要参加,人力和实际成本是一个问题。另外,内容如何挖掘,如何挖掘、从哪儿挖掘这些我们可以做的角度、可以做的点。第三,复用性。现在发现我们做一个东西,可能的情况下只针对这个特定的事件有效,但是如何复制到另外一个事件上,如何复制到另外一个报道上,这是一个问题。第四,工具。这个问题不用讲了,大家都说了一些应用的数据可视化的工具。主要是前三个问题,请黄老师给简单解答一下。

  黄志敏:我简单说一下,我是这么看这几个问题。第一个,成本。成本确实是,做可视化的东西成本会稍微高一些,我觉得这个没办法,但是成本高一点,如果你处理得好,当然回报也会高一些,就是引起关注度会大一些,但是确实有平衡的问题,就是说我们也做了很多作品,但是我确实也不是说每个作品都会引起很多关注。有的作品我们可能自己预期也很好,接下来也会失望,所以我觉得这个好像也没有什么特别好的办法。而且这个东西怎么说呢,其实可视化它是解决了一个展现的问题,其实还有一个问题是传播的问题。

  如果说我们在做产品的过程中把传播更多的考虑进去的话,举个例子像我们做摇车号那种,做的时候已经考虑进去如果它能传播的比较广,我们就觉得比较划算。其实我也看到你们有在做这方面的工作,我认为大家都下意识的会做这种事情。但是没办法吧,成本这件事情可能真的是没有什么太好的事情,但是我现在用的方式就是说,我会控制总的成本。举个例子来说,像我们实验室大概10个人左右,但是专门做这个事情的,专门投在数据新闻里头的,应该来讲就是4个人,其他人还会兼顾干别的。所以基本上我的成本封顶算得出来的,就这么多,我只是从内部去挖掘它的产量,我觉得这是第一个。

  第二个,内容挖掘的问题,如何挖掘、从哪里挖掘,我觉得我们现在的那个挖掘的视野可能还不够宽,还比较窄。举个例子来讲,像这两天德国那个飞机失逝,纽约时报他们做的新闻,按他去展示这个的时候,他就直接找了他们的地形图,再加上那个飞行轨迹,给组了一个可视化新闻出来。我觉得像纽约时报这种做法,说实话它数量跟产量、跟质量都是有保证的,都确实比较高,确实是我们学习的对象。举个例子来讲,这个做法我没有想到,或者我有想到来不及做。

  所以我们现在比较注意的一点就是说,我们积极从外部去挖掘一些数据源,例如说分享了一个像NASA,有一个数据是全球的地面地貌图,每16天更新一遍,放在服务器上面免费使用的,这个其实很多人不知道。这种如果我们要做新闻时候,知道这些数据都可以调出来用的,我觉得我们对这种东西还不够熟,如果更熟的话,例如我们都没有跑去国图,你们已经跑到国图了。例如像现在国外很多大学,像哈佛,很多学校他们图书馆大量的在线数据,我们也还没有挖掘出来,所以可以用。

  第三个复用性的问题,我们尽可能的,我相信你们也会这么干,你做一个事情尽可能的变成一个模块,像我们做青岛的项目,我们也把它模块化,后来是在好几个类似项目里头,地震什么的,我们都反复用,我认为这件事情复用性大家都会尽量去做。但总的来讲你要做成可视化,成本比文字肯定会稍微高一些。

  乔宇:谢谢旭宁,谢谢黄老师。

  说到官媒,大家习惯认为,官媒有很多资源、有很多优势,内容上面都OK,都很好,但是可能会意识到,官媒在数据呈现上、内容呈现上,比我们这样子的门户网站或者财经这样的后起之秀差一些。最近半年我们看到了一个比较有特色的官媒,那就是新华网,他们实际上在数据新闻上面做了很多的探索和努力,据说他们做的数据新闻的条数应该有上千条还是数千条我忘记了,量还是蛮大的,下面有请新华网的刘叶上台为我们大家分享。

  刘叶:大家好!我是新华网的刘叶,首先要感谢在我前面的三位老师给我们介绍的精彩的观点和经验。今天我想给大家分享的是新华网在做数据新闻的时候我们经常遵循的一个原则和我们在这方面的一个思考,就是多维度的数据视角下的新闻的表现。

  先讲一下多维度是什么,我想引入两个在艺术表现上的概念来向大家介绍多维度。首先是我们可能现在在新闻表现上有一个经常用的,就是说我们在新闻事件里头最具特点的一个切面,从这个入口来表现新闻。这个是我觉得像埃及的方法,因为我们看埃及的壁画,这个人是非常扭曲的,她的眼是正面的,脸是侧面的,肩膀是正面的,但是两臂和双腿都是侧面的。因为埃及人觉得,通过这样的组合能更加表面他们心目中正确的世界的这样一个看法。

  希腊式,希腊时代的时候通过短缩法,人们终于可以通过立体的方式来展现世界,可以通过各种视角来观察,就像我们观察真实世界一样,我们可以引申出一个观点说,在数据新闻表现力,我们可以把不同视角的数据、不同维度的数据有选择的组合起来说明不同的新闻事件或者不同的新闻问题。

  我们为什么要在数据新闻里引入多维度的概念,这样我想先阐述一下我的观点,首先说新闻本身它就是多维的,如果我们把它想象成一个多面体,它本身具有非常丰富的多面性,这个多面性的组合和关系就区别于新闻事件和另外一个事件的特点,同时受周围环境的影响,同时这个新闻事件发生之后又会对周围的环境产生反作用力,所以我们说新闻本身就是多维的。

  我们想创作这样的新闻作品一定要遵循两个原则,一个是它的准确性,就是我们想尽量准确的,这也是我们官媒一向的立场,一定要准确的而且全面的来阐述这个新闻事件。另外就是说,我们希望能够使读者,不光是更轻松的获得这个新闻的信息,而且能让他们获得更深入的知识,这样无论是从刚才我讲的正确性方面,还是说在深度化方面,来说多维度的数据新闻我们觉得都是必要的。

  我就想引入之前我看的一个非常好的叫“Embrace Complexity”这个文章提到的,我们不要回避复杂性,也不要害怕复杂性,我们要拥抱复杂性。

  我想结合我们的一些案例来讲述一下我们是怎么来制作多维度的数据新闻的。

  首先是我想通过两个方面来讲述,一个是数据的建模,一个是数据的表现,首先我想先介绍一下我们多维度的数据建模的这样一个概念,我想通过我们的几个案例来演示一下。

  首先是我们去年类似于年终报道的一个,它的名字是“打虎拍蝇记”,这是我们从中纪委网站的案件查处栏目搜集的数据,首先是第一个部分,老虎在哪儿,我们首先是把整个落马官员的数据进行了大数据的分析,我们可以看到,2014年落马官员最多月份是在4月,4月落马了92个人,骡马官员的分布,前三名广东60人、四川47人、湖北46人。在这儿我们做了一个地图,把2012年每个月落马的官员数据,只要是在中纪委网站上通报的全部在这儿有一个表现。我们可以看到这个线条,每个月落马官员数量形成了一个峰值的变化。在这儿有一个全景的地图跟它联动,地图上我们用颜色来影射了每一个省份在这个月落马官员的数量。我们可以看到这个月,是2014年的4月,我们可以看到新闻报道上也说是山西出现了塌方式的贪腐,我们可以看到这个山西的颜色已经是红的发黑了。

  在第二部分我们就落马官员的级别和年龄比例做了一个分析,首先也是大数据的分析,就是说我们的哪一个级别的官员他的比例是最高的,毫无例外的是厅局级的干部是落马官员里面比例最高的。就是说每一个年龄段的官员他的比例关系,你们可以看到在这里,他官员的年龄和级别是产生了一个非常明显的线性关系,像每个级别官员的年龄比例,我们的国级官员40后占了绝大部分比例,往下是省局级和厅局级是50后占的比例大,这是明显的对应关系。

  在这儿我们做了一个可以供大家探索的区域,我们可以看到落马官员按照级别分类,这儿有一个动态的视觉,点这儿的每一个蜂窝,可以看到这个官员他个人的信息。按照年龄分类,会把他们重新的进行分类。我们看到落马官员里面的确是50后和60后占的数量最大的。在这儿我们还有一个时间轴,时间轴可以进行拖动,可以查看这一年中我们要求的这个时间段的落马官员的所有的信息。

  第三部分我们提供了一个自主的检索,我们可以加入最多四个条件来检索符合我们要求的官员数据,首先我们选择50后的女性,她的级别是厅局级,三个选项点击搜索之后在这儿就能列出我们数据库里所有符合要求的落马官员的数据,符合我们搜索条件的条目会用高亮的显示。还有像这个“打虎拍蝇记”,首先从时间和地域的维度和年龄维度的组合讲述了新闻事件。

  第二给大家看一下日本战犯侵华罪行的自供,当时国家档案局发布了这个自供,我们进行了文本的分析。我们通过点击每个省份的地理坐标,可以看到这个地点发生的日军所犯的罪行,点击罪行可以看到都是哪个战犯犯下的,点击每个战犯的名字就进入了他个人的全景图,我们可以在左边看到他个人的履历,在右边就是他的犯罪地图。这个犯罪地图可以看到线段上有圆圈在走,这是按照时间的顺序来演示的。

  另外,我们还试着把事件发展的时间维度,还有他在社交平台上获得的关注度的变化做了一个报道,这个是2014年的年终报道,我们选出了2014年比较有代表性的一些新闻事件。在底部我们有一个时间轴,这个时间轴在这儿是每个事件的关键节点的位置,把鼠标放在上面就可以看到后面还有一个,这个就是说社交网站它的关注度的峰值的变化。我们可以看到,基本上也是一个非常吻合的关系。这个是马航MH370,可以看到峰值最高的那天是马航失事的第二天,因为大家第二天获得了这个消息,所以这个峰值是最高的。

  我们做这个的方法就可以描述成我想把数据新闻想象成一个数据的立方体,这个立方体一定要符合两个概念,一个是符合新闻的概念,它要符合新闻传播的需要还有新闻叙事的特点,另外就是说,作为一个数据的载体,它需要由数据和信息共同组成,然后这个组成是包含不同维度的组合。

  我们数据的选择和组合遵循两个原则,一个是强相关性的原则。之前这些案例基本都是强相关性的,比如官员的级别和他的年龄的关系,他的相关性有可能是正相关的,也有可能是负相关的,就是一个越来越高、一个越来越低。另外一个原则就是,如果单独的一个维度过于单薄的话,我们会合适多的维度组合在一起说明问题,比如刚才“打虎拍蝇记”每个月落马官员的数量,还有全景地图。

  在数据表现这一块,我们尝试了不光通过视觉的元素来表现数据,还有包括听觉来表现数据。我们有一个“65周年乐章”,是给65周年做的一个,是表现出了听觉和视觉两种形式。

  首先是有一个背景的音乐,这儿是用电子音,是用代码生成电子音,表现了进出口总值的变化,这上面是正差,下面是逆差。这样我们用一种渐变的方式来表现,红色的是出口,蓝色的是进口。人口和人口结构这一块,可能就是通过灵感来自于Photoshop的渐变,通过这个看一下中国的老年社会是怎么一步一步形成的。

  这个是通过视觉和听觉两个维度来表现数据,这样我们可以尤其是随着时间的发展,这个数据有变化的时候音乐它的优势就体现出来了,并且这个听觉可以对视觉进行一个补充,尤其是我们有一个畅想这样的前景,就是说有一点视力不好的人甚至是盲人他也可以接触数据,就是通过听觉音乐上的表现来达到这一点。

  还有PLUS维持视觉整体感和统一性,首先要规划一个完整的视觉框架,这个要在开发之前就进行反复的论证,用恒定的基础视觉源进行统一,比如我们刚才介绍的“打虎拍蝇记”有一个基础元素就是蜂窝的形状,蜂窝的形状贯穿整个应用的始终。另外从多个视觉特征中抽取一个强调,不知道大家有没有接触过“光之教堂”,就是把教堂所有的元素抽出之后留一个光,在墙上开了一个巨大的十字架形的空洞,基于这个灵感我们做出的东西。

  最后多维度数据新闻我们有两个意想不到的成果,首先一个,我们不光给读者提供了数据新闻,我们而且给读者提供了一种可以让他自由使用的数据的工具。另外,我们通过这种多维度的组合形成了一个共建在新闻基础上的建筑,这个组合是功能性的。

  我的讲完了,我想问黄老师一个问题,刚才讲到了比如侵华战犯的自供,这是一个文本分析,我们这个文本分析当时进行的非常痛苦是,我们曾经尝试过用分词的方式,后来不是特别理想,后来是靠我们编辑手动来整理出来的,包括反腐官员的数据,利用政策是分不出来的,必须得有一个库才能实现这个成果,但是这个在新闻上没有这个东西,也没有共享的要素,不知道黄老师在这方面有没有什么好的建议?

  黄志敏:这块据我所知是这样的,有几个地方,一个是哈工大,第二个是北大,第三个是有一个叫谷尼舆情,这三家都有做类似的东西,你可以试一下,他们可能有他们自己的分词库,所以可能是可以用的。

  另外我想问你一个问题,刚才的PPT都是你自然设计的吗?

  刘叶:是我自己设计的,因为我现在虽然是前端工程师,但是我本科是学设计的。

  黄志敏:我觉得咱们媒体行当,又懂设计,又懂开发的人不多,你是我认识的第二个。

  刘叶:谢谢黄老师。

  乔宇:感谢刘叶美女分享这么炫的PPT,做出这么炫的作品。我也挺意外的,因为刚才黄老师问在座的谁会写代码,旁边的美女举了手,因为我属于晚到的,没跟她换名片,没想到她就是刘叶,佩服佩服。

  接下来的环节我们叫“七嘴八舌”,脑力风暴的环节到了,现在我们就把主场移掉到台下的听众,小伙伴们可以把最想破解的难题交给你最感兴趣的嘉宾。

  听众:请问黄老师,因为我在两会的时候看到了好多数据新闻,就是说一张图读懂两会,我看了不止100个图,我就想知道现在做图很烂的环境下,您觉得什么样的新闻适合做可视化的新闻?

  第二个问题,我觉得做这种可视化新闻不光是展示数据,可能我们要突出一个背后需要想突出的东西,我想问一下,您有没有一种什么样的构思,能突出这种数据化背后的一些东西?

  还有就是,我刚才有个场外的问题,我看一下微信,说柴静的作品穹顶之下,号称用数据讲故事,问您怎么看这个作品?请黄老师帮着解答一下。

  黄志敏:我从后往前回答。第三个问题,《穹顶之下》其实我们撇开它的一些数据,因为后来又一些数据有一些质疑,我们可以不说。我认为它是一个非常好的可视化作品,里头利用了大量的可视化手段,包括图表,包括动画,包括什么之类的东西,所以是一个非常好的作品。就是说我们做可视化不要孤立的把它看成是像我做的那种,其实那种也是,所以坦率讲我挺羡慕她的,如果说我有一个作品能引起那么大的反响的话,我会觉得很得意的,所以这是我对这个的看法。

  第二个问题,其实我不知道该怎么回答,所以我跳过去。

  第一个问题,现在那么多的信息图,什么样是好信息,什么样是不好。其实有一个很简单的方式,假设画这张图把里面的图案抽掉还能看得懂,说明不是好的信息图,这个图就是多余的,干吗呢。有一种,比如把这个贴上,加点装饰,仅此而已,这些是没必要,浪费的。最好的信息图是什么样的?最好的信息图是,你连文字都看不懂你都知道它在说什么,这是特别好的信息图,我现在看了一张图,是前两天《经济学人》发的一张图,讲的是李光耀治下那些年的新加坡,那张图特别棒,简简单单一张图,文字不用看就把这些年的成就看出来了,这种是最好的,我就这么判断这个东西。

  听众:黄老师,你好!我是来自一个法治专业媒体,检察日报社的,您刚刚谈到财新对反腐的案子做了可视化呈现,我也经常看,作为我们这种专业法治媒体非常迷惑的就是,同样一个东西大家都在做,就像刚才这位同仁说的,就是怎么样做出我自己的亮点?这是一个问题。

  还有一个邀请,特别希望您能到我们报社去,能不能就反腐,就法治新闻的挖掘给我们做一个交流,因为表现可以说各家都有表现形式,但是怎么挖掘,就是说那个切入点可能是大家还正在迷惑的。包括您刚才讲,就是说一图读懂,我们也出了很多一图读懂,甚至出了一本书,但是抽掉了图文字还在那儿,怎么样把图和文字结合在一起,能达到这种有效传播,让人既有知识的增量又有价值,希望您到我们那儿去做一个深度的、一个小时左右的分享交流。

  黄志敏:我先回答这个问题,挖掘我真不懂,我从来没干过记者、也没干过编辑,这是记者干的事,我没有任何经验,像我们做周永康,全靠我们记者去挖料,所以这个分享我做不了,我没有这个能力。

  然后说前面那个问题,就是说法治类怎么做,其实法治类特别好做,大家都爱看法治节目,法治类的说实话你要把它剥离成一些很孤立的数据反而没劲了,其实大家最喜欢看的不就是杀人放火嘛,那里头其实你只要有一些很真实感的东西,又不违背社会伦理,大家就已经觉得兴趣很大了。所以其实像这种东西,你真的把它剥离成很抽象的数据,除非你的数据很有价值,否则我反而觉得这个事不太好玩,这是我的看法。

  听众:问题是给黄老师的,刚才看您财新三公消费的图,我有一个技术上的疑问,那些经费的数据是输入了一遍走了数据之后是用那个代码去做分析计算,还是编辑直接做?    

  黄志敏:必须是计算,这样才准嘛。

  听众:因为一套数据做的一个多角度的呈现,整个就是你做的时候只需要做一套数据,然后其他就是程序。

  黄志敏:是的,包括我们Excel的时候必须用这样的数据才准,我记得最可怕的Excel就是,那些数,别看他做很大的Excel表格,关联的数不是生成的,而是一个一个抄上取得,那是最可怕的,因为随时有可能出错。

  乔宇:先问一下祖明。因为刚才你讲了两个产品,一个是ECharts,基本上不适合我这类人用,不会写代码。还有一个产品讲的是图说,我特别想问一下,图说这里面生成的东西,我看是说可以做一些分享,但有没有可能,比方说把它做到PPT里面,比如马上到Q1总结了,PPH里面我要加这么一个东西多牛气啊。

  祖明:这是特别好的问题,因为我们被问这个问题问了无数次了,理论上可以的,因为微软那边PPT提供了这样的接口,因为我们这边技术领域的限制暂时没有那个能力,我们也特别希望如果业界有相关能力的人能帮我们开放,因为其实如果大家做数据分析知道,有一个语言叫R语言,R语言创造者还帮我们写了ECharts的接口,所以我们也一直期待有人帮我们写个PPT的接口,如果有的话我们一定会及时发布给大家。

  乔宇:第二个问题问一下黄老师,黄老师,刚才您说您的团队里面专职有4个人在做数据新闻,大概来讲一个新闻平均这4个人需要多长时间能完成,比方按人工时来做,咱们一般都算,人已经算清楚了,时间,实际我估计像旭宁一定会有这种问题要问的。    

  黄志敏:这个没法算,这个反而快的话半天、一两个小时都有,最久的做了三个月也有过,真没法算。

  乔宇:比方举个例子,像刚才您也阿里做的那个“双十一”,那个大概需要多长时间?

  黄志敏:这个作品大概40个人日吧。

  乔宇:还有那个作品,最著名的周永康的那个作品,那个是不是需要更长时间?

  黄志敏:那个花了3个月,但是3个月这个时间其实人还在同时干点别的,并不是说这3个月全投在这儿,前前后后,这3个月其实包括了数据搜集整理的时间,这个项目我是自己干编辑的,所以比较有体会,光整理数据的话,写代码本身很快,但调又花了很长时间。

  听众:我有两个问题,第一个问题想问一下黄老师,您刚刚也说到了,因为像移动端也很发达,我想问一下关于做数据方面,移动端和平时我们在做的过程中,怎样更好的能够体现出它的优势,怎么样让它做更好的交互?

  还有一个问题想要问一下刘老师,因为我知道您也是做过设计,关于移动端方面如何让网友看到这个效果更好在设计方面能够给一些建议。

  刘叶:移动端我觉得还是像之前黄老师说的要遵循移动端的特点,针对数据新闻来说,我们要根据移动端来筛选数据,之前我们做PC端的时候数据是非常复杂、非常大量的,到移动端了之后这种大量的数据可能就会对手机的机能、浏览器的机能造成一定的挑战,所以在这方面,在数据的筛选、数据的组合,怎么样简化数据,怎么样简化阅读体验,可能也要有更深的考虑。

  黄志敏:其实我这个问题刚才刘叶都已经回答了,我这边基本上没有什么增量可说。

  听众:刘叶,你能简单给我们介绍目前的团队吗,还有你们的基本流程,还有目前主要是靠哪些工具软件,国外的多,还是国内的多?

  刘叶:我们这个团队大概开始是2012年,大部分都是设计师,还有一个主要的业务是做数据信息图的,设计师大概七八个人,前端有五六个,但是这些前端也要做其他的东西,比如新闻事件来了之后要做专题,编辑是我们整个团队的构成。    

  听众:可不可以理解为你最开始是PC端的设计团队,慢慢往移动端走?    

  刘叶:对,我们今年可能更关注移动端一点,我们的流程,其实基本上数据新闻的流程都是一样的,看这个选题数据是不是充分的,看这个数据能不能玩出花样来,如果能就放在一边,如果不能就开一个专题会。

  听众:那前端是不是话语权更大了?

  刘叶:在我们这儿目前是,因为有的地方我知道是设计师设计交互的效果,但是在我们那儿前端是设计交互的效果,一开始就要参与进去。    

  听众:请问刘叶,你在做前端展示这些数据,大概为你准备这些数据的有多少人,这些数据的搜集、整理或者处理,包括技术上的,或者是搜集上人工上的有多少人?

  刘叶:这个要看数据的量,比如像反腐的那个数据,我们有4个编辑,因为反腐是2012年开始昼夜不停的在搜集,搜集完之后为了保证它的准确性,对了4遍,所以这个是耗费人力最高的,在搜集完数据之后我们要把它存到我们自己的数据库里面,然后要进行数据的清洗,比如一开始的时候我们说是厅局级,但是在我们数据库里面可能代号就是4,这样可能更利于我们数据化的可视化制作。

  听众:数据整理清洗存入数据库的过程有多少人?

  刘叶:都是我们的工程师完成的。

  听众:这个部分需要耗的人力多吗?

  刘叶:不多,一两个人就够了。

  乔宇:既然大家没有更多的疑问了,我们就可以在群里来交流,或者说在群里加了几位老师的微信可以单独交流。

  我收个尾,短短的几个小时就过去了,意犹未尽的感觉,我自己是这样的。今天在和各位大咖的观点碰撞中我们见证了数据新闻的方方面面,可以说数据新闻的创新、开发和应用对于我们做传统新闻报道的影响是比较大的,机会和前景也不容小视,希望在今天我们蚂蚁邦沙龙里面碰撞和产生出的小点子、小方法会给小伙伴们全新的思考和体验,而我们的家也就是蚂蚁邦将会陆续为亲们提供更多的新想法、新创意,希望大家通过这个平台结识志同道合有梦想的朋友。有任何项目的需求,可以联系我们的战略合作副总监梦来,和项目负责人陈娇,黄老师就是陈娇请来的,谢谢陈娇。

  感谢大家今天下午抽出这么长的时间和我们分享讨论,我们下期再见。谢谢!

文章关键词: 数据新闻 蚂蚁邦

分享到:
收藏  |  保存  |  打印  |  关闭

已收藏!

您可通过新浪首页(www.sina.com.cn)顶部 “我的收藏”, 查看所有收藏过的文章。

知道了

0
收藏成功 查看我的收藏
猜你喜欢

看过本文的人还看过

  • 新闻中央本级支出预算首晒工资福利总额
  • 体育欧预赛-归化妖人救主意大利2-2 荷兰平
  • 娱乐孙楠为歌手3退赛致歉:请原谅我老不更事
  • 财经中建董事长易军将任住建部第一副部长
  • 科技周鸿祎董明珠微博之夜惺惺相惜
  • 博客王石川:我国能实行“四天工作制”吗
  • 读书优劣悬殊:抗美援朝敌我装备差距有多大
  • 教育调查显示过半女大学生通过网络学“性”