钱钢:大数据时代传媒人需一采二搜三写

2013年09月02日09:49  新浪传媒
钱钢 钱钢

  新浪传媒讯:2013年8月27日,首届中国灾难报道高级研修班在四川成都举办。本次活动是由四川省5-12汶川地震灾害应对研究与培训中心、瞭望东方周刊、壹基金主办,新浪网、猎豹专业全能爱心联盟联合发起的。香港大学钱钢在培训班上做了主题分享《大数据时代的灾难报道》,以为实录文字:

  钱钢:非常高兴,我发现老朋友只有极少的几位,大部分是新朋友。今天的题目是《大数据时代的灾难报道》。谁都知道最近一年来大数据3个字特别热门,我也有点害怕,因为网络是非常会做标题的,我也怕我自己是一个标题党。我说的是大数据时代的灾难报道,现在并不意味着我们已经进入大数据时代,尤其并不意味着我们的灾难报道进入了大数据的时代,我想了一个更加实在一点的题目,我可以用第二个标题来讲《做自己的资料主任》,好的记者一定是自己好的新闻主任、资料主任。

  我是不是一个好的资料主任?毫无疑问,是的!你们看,1990年的时候我主编了一本书《二十世纪中国的重灾百录》,这本书包括了20世纪100个最大的自然灾害,这里面有国家地震局的同学,我曾经在国家地震局工作,在1991年来到了中国地震局,我编了这本书。这本书内容非常多,是100个最大的自然灾害,参加者有七八十位作者,来自各个领域,有科学家,有记者,甚至还有作家,作家里面有莫言被我动员写了这个作品,纪实写山东的蝗灾,还有一位变成了《1942》河南的灾害。这里面有非常多的重要自然灾害。我举几个例子,这一段时间长江中下游的高温,20世纪曾经有两次特别高温,一次是1934年上海高温,一次是1988年上海南京高温,如果有史料这次高温一定会记录21世纪100个灾难。21世纪最大的灾难就是华北的干旱,从史料中发现它和义和团有非常大的关系。另外,1975年河南驻马店水灾,有8万多人的死亡,有人说8万是缩小的数字。一个非常大的洪水灾害引发的水库垮塌,这也是其中的一篇。

  编这本书的过程当中将要交付排印的时候发生了1998年的水灾,我参与了1998年洪水的报道,我当时将要去兰州上任,频繁地交换材料,一个媒体一个记者做重大题目的时候背后有资料支撑是多么重要的事儿,有非常多的资料来支持。

  在这个信息爆炸的时代,我们新闻的生产方式变化,我自己个人其实是这样的,我们中国大陆从手写到用电脑写字有一个词叫“换笔”发生在1992年,在用第一个286我听说一个事情,就是中国社科院有人准备用电脑分析《红楼梦》,这是从来没有的事情,当时很入迷,电脑可以做这些事情。又过了一些年,2001年当我完成《南方周末》的职务,来到香港中文大学用光盘分析问题,主要方向是针对政治话题研究,也会做灾难报道和其他报道的分析。在2001年的时候,我所用的光盘也不过手里的一张光盘而已,《人民日报》也是如此。又过了10年,最近从创刊到现在的《解放军报》全部数据,每一个版面,每一幅照片多大呢?就是这个小小的包,只要我握在手里面就是《解放军报》的全部数据,变化非常快。

  我学来一点点知识,10年以前来到香港大学工作试图用新方法做研究,比如说2003年来到香港大学第一件事情正好遇到非典,就是做非典的资料库,当然这个资料库从媒体保存资料,非常大的资料库,我给你看一个我从中做的统计,这个统计用香港的慧科数据库做的非典报道的资料,你看到非常明显的现象,一开始曾经有报道,后来就没有发声音了,这就是非典报道当中的一幅图画。

  2007年7月18日济南发生暴雨,当时我注意到腾讯有一件新的事情,他们下达了QQ召集令,是召集QQ济南的QQ网友,让大家在这次暴雨之后用自己的眼睛来向我们陈述你看到的什么东西,后来腾讯的网页是这个样子的,因为当时有一个说死亡26名,很吓人,但是腾讯当时就说了“这是天灾,然而这么大的“天灾”,我们怎么能满足于“26个人死亡,失踪6人,受伤171人”这样冷冰冰的信息?我们想知道逝者是如何而逝,因何而逝。QQ济南网友的朋友他们传上了资料,死亡者的数字、照片,数字超过了之前的公布数字,这个非常震惊。后来听说召集令的方式到此为止了。

  2008的汶川地震,我人在香港,但是也写了很多文章,做了关于地震预警很多的研究。请地震局的老同事帮忙,我汶川地震听到地震局专家说龙门山这个地方很安静,很多年没有发生地震,汶川地震的发生是很意外的。有这样的说法,后来我们看到这是汶川地震裂度为八度的地区,我发现浅绿色的就是八度地区,在1975年里面发生过3次7级以上的地震,加上雅安地震也是非常近的距离。

  你们知道在1976年发生的松潘地震是一个事先张扬的地震,事先就进行全四川的防范,当然这个地震没有发生在成都附近,发生在松潘平谷,松潘平谷地震前专家预测的震中在哪里?松潘平谷地震发生的时候居然是2008年的映秀,我非常震惊,我们人类需要回答的问题太多了。

  我在我的数据库里面,应用档案图书馆做了很多时间的搜寻之后我发现有令人关注两个震前的论文提出,有人说2003年起就要警惕四川发生7级以上的地震,1994年就有人在论文里说汶川是重点监视区,1998年就有人写论文说汶川、北川是非安全区。地震以后我们都关注一个问题,之前我们知不知道这个地方不安全?结论肯定知道。我后来在网络上找出一个材料是四川政报2005年1月31日川府发6号文件,这是一个加强防震减灾文件,这个文件什么内容呢?是国家地震重点监视区的划定,国家每4年划定一次,2004年是更新。更令我关心的是对农村的房有特别规定,加固危旧校舍和农村房屋。后来我发现其实在汶川地震前2008年2月在德阳、绵阳都有过地震知识竞赛,这个跟前面四川的文件,跟国务院的文件其实是有关系的,跟长期地震背景宣传是有关系的。因此,这个国发(2004)25号文件到底说明什么?这个文件现在没有全文公布过,但是局部已经在每个省里面公布出来,只要说到地震危险区在自己地区的报纸上、网上说明这个事情,这么大的事情不能完完全全公开地告诉老百姓很奇怪。

  汶川报道经典画面非常多,我留下了财经在6月9日的封面,让很多人非常感慨,我对于汶川地震报道的分析和统计也发现和非典非常相似的变化,校舍倒塌也是一开始起来很快就没有了,跟非典非常非常像。2003年的非典到2008年的汶川报道量的曲线是一样的。

  2010年江西抚河决堤,当时央视报道是这样的,其中说到发生导致十几万人要转移淹没。其实不太大的自然灾害,原因是什么?投入不足。我在网上很快发现网友们的疑问?投入不足吗?你知道在今天我们所有做的公权力做的事情都是要留下记录的。其中我发现在2007年抚州市规划纲要里面就提出要加固。在南昌网里面其实发现中央有8000万元的预算做流域治理。请大家注意一句话,也是香港大学教授陈婉莹说的“Follow the money”,西方调查报道的记者常常用这个方法。我用他的方法往下走,又发现在这个堤决堤前几天江西抚州投资250亿打造“大城市”,对于河流的安排如何呢?又有这样的网页记录,他要搞“抚河”大道的滨水景观工程,偏偏河堤没有加固。

  刚才说的就是小小的例子,就是跟着钱走符合它堤坝的加固,我们可以看到非常多的材料,没有大数据时代,没有今天的信息爆炸很难搜索到这些材料,今天是可以的。2010年舟曲的泥石流,你们知道到了舟曲泥石流的时候非常厉害了,有一个大学生在舟曲没有电的情况下点了蜡烛拍了用微博发出来,优秀的调查记者要用他训练有素的技能参加报道,瞭望东方也做了非常好的报道。

  我注意到新华社对于网络当时有非常正面的评价,你看舟曲泥石流很多人用微博关心,但是它关心的是大家用微博赞颂人家大爱,但是我就想到有没有用微博追问灾害原因呢?我在香港大学图书馆搜索相关的资料,大海捞针。只要是非常有个性的地名一定是好的检索关键词,舟曲、三眼峪沟,2004年舟曲滑坡泥石流的文章,所以这个情况下2008年降水造成舟曲的地震灾害的分析,你只要去搜索就会有发现,而且这个发现常常让你对于眼前发生的事情有利于冷静,你会去想其实很多人事先做过工作的。

  腾讯就开了一个,就是我当时腾讯的微博,腾讯开了一个记者王克勤与网友互动甘肃灾区的见闻,我当时就加进去和他讨论,这个讨论非常有意思,他在前线未必看到我的材料,我就和他交换材料提出新问题。我也跟他参与了很多资料的交换,所以写了这个报道。

  刚才说的所有这样其实不是大数据的灾难报道,我们还处于小数据时代,我们还处于手工时代,我只是在这个阶段里面开展运用一些新的方法,也尝到新技术所带来的做报道的新体验,换句话说,我们之前做一个好的资料主任,做自己的资料工作其实是为进入大数据时代做准备。

  在座各位你们有没有看《大数据时代》这本书?我要感谢内地媒体朋友送给我的这本书,说来很巧我们很多时候信息不对称,大数据时代作者来到港大的当天我站在演讲广告前面没有反应,我在接待《新京报》等几位朋友,他说我送你一本礼物就是《大数据时代》这本书。

  各位你们对这些数据有感觉吗?什么意思知道吗?想必不知道,这一堆古怪的字实际上是我们今天所用的电子设备容量的度量衡的单位,这个单位最小是谁?就是短短的20年间所发生储存器容量的革命,最大是YB,我们用的移动硬盘是TB的移动硬盘。你们知道今天用的优盘是多大的?我们通常是4G、8G、16G、32G,我用的第一部电脑是多大的容量?20MB,我们用的小小的优盘等于上世纪90年代的1000部电脑还要多,这是我们今天发生的事情。发生的事情无非两个方面,一个容量更大,速度更快。

  2006年到美国访问曾经去过谷歌,谷歌很容易进入,欢迎参观者进去,还可以吃免费午餐,进去的时候当我拿到访客的牌子,我抬头一看谷歌有一面非常巨大的银屏,银屏时时都在滚动,很多人在那里输入关键词搜索,当时我看到的是这个场面,你们知道就是这个向谷歌发出询问的搜索词竟然能给谷歌带来巨大的利益。

  这是自然杂志,登的是什么?他登的是谷歌竟然利用它的搜索词预感了美国的流感大爆发,这些搜索很简单,我头痛吃什么药,但是谷歌分析能力极强,他们用现在所用的词和掌握的历史的记录得出一个公式,这个公式和流感爆发非常相似。美国的疾控中心在公布流感人数与实际发生的人数是要迟的,而谷歌是当时的。所以谷歌可以在疾控中心两周之前发布预警,而且不是美国,而是全球。黄颜色是疾控中心数据,蓝颜色是谷歌经过他长期观察所得出的公式,数据。

  你们都认识乔布斯,腾讯的老总说过一句话乔布斯伟大,他为人类发布了一个动作,发明了触摸屏上摸的动作,这是革命。我这里要说的是乔布斯得了癌症,实际上他的癌症本来会使他更早去世,但是乔布斯的癌症治疗是首例对于全身DNA和癌症DNA进行排序的人,乔布斯用几十万美金,他对自己身上的DNA做排序以后让医生根据每天的排序确定用药细微的变化,这使得他的生命,他自己说如同从睡眠的叶子上从一片跳到另一片,这也是大数据时代这本书所讲到的今天人类有很多可能。

  有关大数据的基本观点,第一不是随机样本,而是全体数据;第二不是精确性,而是混杂性;第三不是因果关系,而是相关关系。我们讲这些到底在大数据之前的时代我们学者做学问,记者做调查中间已经在用,只不过没有今天的技术条件,这种思维是我们在用。我跟你们说一个教授的故事,他叫陈正祥,他的著作《中国文化地理》,一个文化的地理学家,他在香港中文大学任教的时候多次接到联合国联盟组织的邀请和要求,说陈教授我们知道中国的蝗虫灾害非常严重,你能不能给我绘制一幅中国荒灾的分布图呢?陈教授有自己的绝招,他的绝招就是他与中国地方治理高度熟悉,他对于3000种他所拥有的地方治理重新阅读,他发现一个庙就点一个点,发现一个点一个点,最后他点出了中国荒灾分布图,好厉害,3000种地理治理里面一个庙一个庙点出中国荒灾图,得到了联合国的高度评价,这个与历史事实非常吻合。

  大家可能会问大数据时代我们的传媒人能做什么?我们从前做好记者一采二写,编辑,一采二编。可是今天有3个版本,一采二搜三写(编),三项全能。丁先生就是一个三项全能的好记者,他会采访,更会搜索,当然写和编也非常厉害。

  第二个就是迅速接通各种数据支持系统,我们不要想等着哪一天新华社进入大数据时代,现在已经开始了,我们要利用可能使用的数据系统。

  然后你的观察方式要扩展,数据中发现“隐事实”,数据里面发现事实隐事实。然后表达方式的扩展,就是数据分析催生新的文本,这个也非常厉害,文本都是时代的潮流,当你今天已经在运用这个的时候你的文本怎能不发生变化?最后就是全媒体平台与数据的可视化呈现。有一个好记者叫马骏,马骏是在中国做水污染非常厉害的记者,如果你打开他的网页可以找到不同类似的污染源,太厉害了。

  我们的灾难报道是有两翼,一个是救灾,一个是防灾,我这次非常渴望见到张良,他的《汶川地震168小时》我非常难忘,我们现在要聚焦到灾害防御,灾害报道本身。他提到史培军,史培军有一个实验室,那里面可能是2008年时候中国灾害数据最齐备的,这已经让我们看到我们走到大数据时代门槛的路上。

  你们从高空俯瞰映秀图有一个蓝色图的地方称为堡垒,一个电厂职工的房子,他当时花了40万给家里建了一个楼,这个楼地震之后幸存下来,太宝贵了,遗憾的是在重建的时候毁掉了。这种东西研究价值何其大,怎么映秀的房子都倒了他的房子没倒,做研究啊。这让我想起1976年参加唐山地震的时候,我到现场遇到的就是在废墟里面13天的老妈妈获救,她喝自己的尿活了下来。我采访她的时候,她视同我是他的子女,可惜的是这个老妈妈她地震以后活了20年,竟然没有一个医学单位对她感兴趣,就如同没有人对于映秀的房子做研究一下,对老妈妈的身体没有做研究,她在1996年去世。

  我在国家地震局工作的时候把老妈妈请到我们地震局来,请到赵忠祥、杨澜的《正大综艺》节目里,她经过地震思想是混乱的,但这恰恰也是地震的痕迹,比如她当着杨澜就说我埋了13天是钱钢把我给救了,因为后来采访她,去见她的就是我这个人。

  谁能创建汶川数据库、唐山数据库,乃至中国巨灾数据库,没准杨秘书长有基金赞助这个项目。

  下面说话一下大数据和减灾,其实大数据和减灾只要简单搜索就知道已经有非常非常多的人在说,日期和美国商议利用大数据进行灾难研究。这个是大数据下的灾难行为分析和城市应急管理。下面的图高空卫星成相就是从地震之后撤退的图红外显示的图,从中分析,日后再发生地震日后再退出的问题。

  我下面想稍稍谈一点大数据时代的灾害预警,你们知道这次雅安地震实际上是预测中的,我们所谓的预测准不是网上一个民间科学家说了什么什么,按照国家地震局三要素的预报卡严格规定,一位雅安测绘站的专家填了测绘卡,他3点全说中了,地震就落在他讲的时间、震点、震级的圈子里面,可惜这次预测没有变成预警,也就是说没有变成政府行为的预警。

  在今天媒体上一说地震预报大家都怒气冲冲,很大的怒气冲着地震局,冲着民间预报地震人事,但是民间没有详细资料,他们不知道地震怎么回事。1976年发生过3个地震,有3个不同类似的地震预报,一个是唐山有预报但是争议很大但是没有预警,一个是松潘提早大预警,全川大混乱,第三个是龙陵地震,毁房42万间但是只死98人,这是历史事实。你们看到这些想到什么问题?1991年以来有没有一些地震被预报?有的,在2008年汶川地震以后我罗列出这么多被预报又预警的了的,其中一个叫亚运会地震,这好神奇的,地震之前北京就发现郊区的情况,也通报了亚运会组委会,说一旦地震发生的时候说怎么组织运动员撤离,结果下午开幕式,上午来的地震。你总不能一而再再而三的说国家地震局是吃干饭的吧?国家地震局做了很多工作。

  1995年这次史称中缅边境地震,7.3级,这个地震,1995年年初划了一个区进行界定,6月上旬预报,云南省政府指挥县级政府进入戒备,6.30预报强震危险仍增大,7月106.2级地震,预报还有更大强震。政府命令学校房价,百姓撤出危房。如果汶川地震有这句话,7月12号7.3级地震发生,整个地震死亡11人。我们可以列为边陲小地方,不会造成大混乱,所以政府赶紧预警。

  问题在这儿了,当发生禽流感,非典这样问题的时候政府都敢果断地对疑似病患进行隔离,可是偏偏地震我们不敢对疑似地震进行隔离。1976年松潘地震发生的地方,当时围起来的地方在成都,最后在松潘,在成都引起巨大的恐慌。

  我把这种现象作为一个概括,预警之十六种可能,你们看这个表你们会知道红颜色是最危险的,一个是无害大防,一个是大害无防,汶川不是大害无防吗?可是你知道最好的绿颜色,深绿色其实今天的人类今天是做不到的。我们面临的问题是浅黄色和泥巴色的你要防范。

  所以我有两句话,举国惊慌不足取,全民高枕倍堪忧。我觉得最明显的是全民高枕,我们很安全,放心放心。所以我更希望的是逐步推进灾害信息的公开。

  我们叫打一个招呼是有可能的,你能够让几十位科学家防守探索,用大数据系统坚持防范拒灾,民间又有对于虚报,漏报的心里准备。我觉得NGO组织特别做的科学、政府和民间之间的沟通,要告诉大家是有可能漏报的,也有可能虚报的,都得承受。我们对于灾害信息检测在文革时期全民皆兵,群测群防,人民来检测。现在不能重演,但是国家有那么多摄像头,不能拨出一点来用于灾害防御吗?不能拨出一点来到监视人到监视动物吗?可以吧。我们发展到了今天这个速度,这是我们今天说在大数据时代我们对于科学界的期待,对于地震局的期待,希望他们把纳税人的钱善用,尽用,让政府的决策有更大的把握。

  在今天交流的最后请大家记住这一个人胡焕庸,他很早就提出了胡焕庸线,这个县是中国人口密度的分布线,在30年代94%的人在东边,6%的人在西边。无论是这次的5.12汶川大地震和4.20芦山地震,发生的地点不是在东和西,发生在这一条线上。人口密不是公布的这么密,不疏也不疏。

  我们很容易想到这个问题,如果巨灾的角度跨越了胡焕庸线进入东部半壁,我们不敢想象如果1966年河北7.2级,1955年辽宁7.3,1976您唐山7.6地震发生在今天,有一本书叫《中国九大地震》都在文革时代发生,其中东部发生得特别多。唐山地震是低于汶川的,裂度轻度低于汶川,但是他们死亡的人数是汶川地震的3倍。我们不能不面对这种事实,国家地震局网站上有2001年以来大于5级以上地震分布图,我稍微组合了一下请各位在很短的时间内看一下,2001年到今天我们地震怎么分布的。

  我们来看一下地震里面有哪几个让我们记忆犹新的,2005年11月26日江西九江,5.7级地震。2006年7月4号河北文安,北京有震感,有媒体的传播,所以我称之为“恐怖的寂静,东部久无大震”所以今天交流到最后用这么一句话跟大家记住就是“警惕巨灾东移”!

(编辑:SN009)
分享到:
保存  |  打印  |  关闭
猜你喜欢

看过本文的人还看过

  • 新闻国资委主任蒋洁敏涉嫌严重违纪接受调查
  • 体育皇马官方宣布签贝尔 9100万身价世界第二
  • 娱乐传张柏芝有意退出娱乐圈:得力助手已解约
  • 财经据悉中石油反腐布局已久 部分人拒绝悔过
  • 科技电话实名制首日:电商购号卡也需登记
  • 博客毛泽东错过了朝鲜停战最佳时机吗
  • 读书日本放纵:蒋介石领养戴季陶私生子
  • 教育女生出国习性大变:换男友如换衣