新浪首页 > 新闻中心 > 综合 > 正文

人生能有几回搏(图)

http://www.sina.com.cn 2004年07月14日08:25 光明日报
  引子

  2004年4月30日凌晨1点40分,曙光4000A超级服务器已工作多时。“应该还有几分钟……”尽管连日熬夜使睡意阵阵袭来,但每个人还是强忍着。12分钟后计算终于结束。屏幕赫然显示着:“Linpack实测峰值8061Gflops,效率71.56%”。曙光4000A共有2560个处理器,主频2.2GHz,数学计算可到4.4GHz,这样相乘得到理论峰值11万亿次。Linpack效率是用实测峰值除以理论峰值。

  在全球同类系统中,美国洛斯阿拉莫斯国家实验室的闪电超级服务器理论峰值与曙光4000A一样,11万亿次,然而,其Linpack实测效率达到了不可思议的71.47%。现在我们的曙光超过了闪电。

  测试组立即发电子邮件向全球500强组织(top500)递交了计算结果,以前经常是世界高性能计算领域的权威、全球500强的直接负责人唐格拉Dongarra教授的下属和我们联系,而这次唐格拉教授马上亲自给了我们回复 “祝贺你们!”

  全球500强排行是国际高性能计算机最权威的评测排名,由美国田纳西大学、德国曼海姆大学以及美国国家能源研究科学计算中心每年发布两次。从1993年6月已连续发布22届。到目前,进入全球前十名的只有美国、日本的超级计算机。

  6月22日,全球500强组织宣布 曙光4000A进入全球前十,消息立刻震动了全世界。
图为世界前十曙光4000A服务器

  初现曙光

  从1993年推出国内第一台曙光1号,到1995年曙光1000,1996年的曙光1000A,国家智能计算机研究开发中心在国家科委(科技部)的大力支持下,取得了一系列丰硕成果。而曙光公司的成立又使曙光超级计算机的市场推广如虎添翼。

  继曙光3000研制成功后,国家863计划继续支持智能中心研制曙光4000A,而上海市政府考虑到一期的3千多亿次计算能力已显不足,于2002年适时启动了上海超级计算中心二期建设。

  2003年初,中国科学院与上海市两方一拍即合,决定将曙光4000A部署在上海超级计算中心,此后曙光4000A的研制工作迅速展开。

  科技队伍

  首先是CPU选型。AMD公司是世界排名第二的CPU厂商,目前正在寻求发展,尤其是刚刚推出的Opteron64位处理器,完全兼容32位计算。当然,选择AMD的处理器,也意味着必须做更多的创新,如支持4路CPU的主板、电源、散热等等。2003年10月,我们的主板终于通过了AMD全部测试和认证,为曙光4000A的成功打下坚实的基础。

  与此同时,另一支队伍是做机群系统软件,单节点操作系统就用Linux,然而要使几千个处理器协调工作,并且使用起来和单机使用一样方便,光有单节点操作系统不够,还需要有机群通信系统、机群文件系统、机群管理系统、机群作业系统等等。这些方面,我们从曙光1号到现在已积累了丰富经验,研发进展顺利。

  还有一支做网格零件的队伍。网格计算在计算所徐志伟教授“布道”几年之后,到2002年已成为各界关注的热点,863专家组把曙光4000A定位为“面向网格的高性能计算机”。这方面工作完全是创新,做出来就是独一无二的,智能中心目标明确,做一个独特的网格零件,支持网格计算。

  突击队

  今年3月中旬,曙光4000A节点机、机柜、网络设备陆续到位,并开始安装。

  按照全球500强组织的规定,4月15日以前必须提交第一个计算结果,其后两周更新你提交的数据,否则不能参加6月份发布的500强排名。一般而言,这样大规模的测试,至少需要3个月,而我们只有20天!怎么办?

  一个突击队迅速组建起来。目标是开展深入的理论研究,把小规模实验和理论研究结合起来,通过理论研究,缩小择优范围,把几千种可能的测试样本缩小到10种之内!

  张文力,这个测试队伍中唯一的女性,樊建平老师的学生,被我们称之为“上帝的鞭子”。隐喻20世纪30年代波尔领导下哥本哈根学派的鲍利。她有一股不弄清楚绝不罢休的劲头,让她来鞭策大家再合适不过了。“这里的depth起什么作用?”“这里的alignment的作用有多大?”……就这样,张文力抽打了几乎一个礼拜,我们从头到尾又过了一遍,确信没有“漏算”。

  4月11日67.8

  %测试刚开始就碰到坎:加上操作系统优化,Linpack计算居然无法进行。为什么在128节点没问题,而256节点就无法进行?问题在操作系统、驱动、通信库、应用层?测试组成员霍志刚急得嘴唇布满水疱。曹振南、周小成、周应超三个年轻人坐在一起研究,36小时过去了!

  “冯老师,我们想到的都改过来了,但是,不知道……”

  好,改过来了,就上640节点!我们要对自己有信心!我心里说 该搏一搏了。

  计算规模719200、分块232……作业加载!时间一分一秒过去。一切是那样顺利。

  11日早晨6点多,曙光4000A的计算出来了。我们的第一个640节点Linpack峰值7638亿次/秒,效率67.8%。第一个结果就超过了863计划项目中要求的65%!

  4月15日69

  %接下一周,我们跌进谷底,没有更好的结果。“是不是内存条的原因?”曙光产品部经理邵宗有揣测。

  “全面检查硬件设备。”历军总裁在关键时刻下令。测试小组立即行动,果然问题出在内存上。排除问题到晚上9点钟,抱着希望大家又开始测试。全系统重起、静态路由生成、网络驱动加载、通信模块加载、通信性能测试、单点性能测试,一切正常!

  凌晨2:00,同样的故障又发生了!怎么办?

  “简洁就是可靠性。换掉故障节点,我们再试一次。”副总裁聂华作出决策。

  我们实施这个方案后继续拼搏。“看,69%!”智能中心主任孙凝辉和聂华同时看到结果。而大家一个个笑得孩子般天真!

  4月22日70.89

  %接下来几天,测试结果再也和预期无法吻合。

  22日晚7:30,大家仍在讨论。

  这时,李国杰院士走进来:“再试试看,现在不是看我们的测试水平,而是要全面检验我们的系统设计水平、性能优化水平。”话虽不多,是鼓励鞭策、更是让我们明确了大方向。

  此时,在另一条战线上的操作系统优化也获得了大的进展。

  几天来,孟丹亲自参战,没有责备、也没有鼓励,有的只是一遍遍的推理,一遍遍地命令这个去休息、那个去睡觉。霍志刚、周小成、周应超、曹振南……“我马上就去休息,马上就去。”然而就是不动。

  “对不起,霍志刚正往回走,感谢你们家属的支持。”孟丹接到霍志刚新婚妻子的电话,很愧疚,又很欣慰。如今,这些年轻人也在自觉拼搏。十多年来,曙光人的“人生能有几回搏”的传统正在发扬光大。

  在我们采用最新的操作系统优化结果,运用最新的理论分析测试后,困难被攻克了。

  4月23日一上班,孟丹便给大家打电话 “昨天结果是70.89%,我们的第二大目标实现了!”

  挑战极限

  “现在离71.47%的世界纪录近在咫尺,是否继续努力?”孙凝辉和大家都想往上冲。

  29日是个阴雨天,几天闷热后,北京的气温遽然降到5摄氏度。参加测试的10多人,特意找了家有卡拉OK的酒馆,把刘德华的《中国人》唱了几遍。回到机房,大家的心情特别好,把所有的环境排查一遍,开始测试。

  供电系统、空调系统、网络系统、所有节点、运行环境、作业加载……一切正常。

  这是曙光4000A冲击世界高峰前的最后一次Linpack测试,就是这次冲刺冲进了世界前十名,创造了中国高性能计算领域的又一个奇迹。

  2004年4月30日凌晨,连续计算了8小时40分钟的中国超级计算机———曙光4000A最终震撼了全世界。

  

推荐】【 小字】【打印】【关闭
 
新 闻 查 询
关键词一
关键词二
免费试用新浪15M收费邮箱 赶紧行动!
热 点 专 题
暴雨考验北京交通
2003年审计报告
部分省市陈化粮调查
伊武装绑架菲律宾人质
第15届世界艾滋病大会
日本调查东海资源
惠特尼休斯顿北京个唱
美洲杯激战 亚洲杯
违法和不良信息举报

 
 


新闻中心意见反馈留言板 电话:010-82612286   欢迎批评指正

新浪简介 | About Sina | 广告服务 | 招聘信息 | 网站律师 | SINA English | 产品答疑

Copyright © 1996 - 2004 SINA Inc. All Rights Reserved

版权所有 新浪网