用云计算应对“突变”

凯时娱乐:共赢共欢乐-专业的娱乐资讯网站 /2020-02-14来源:《中国科学报》
【字体: 打印本页

  增加服务器数量配合更强大的软件是最直接的增强系统能力的方式,但服务器及其运维价格不菲,增加企业成本。如果按照满足突变型峰值业务在峰值期间,来准备服务器资源,“闲时”则会造成巨大的资源闲置和浪费。

  2019年12月以来,突发的新冠肺炎疫情引起公众关注。随着发病人数持续上升,各大社交平台也忙碌异常,与疫情相关的词条、帖子等搜索浏览量急剧攀升,各大运营商的服务器压力巨大。面对“压力”,上海交通大学(以下简称上海交大)计算机科学与技术系教授过敏意很淡定。

  “目前我们的技术完全能满足受众需要,‘服务器不够用’这种情况很难发生。”过敏意说。

  过敏意口中的技术就是日前在国家科学技术奖励大会上获得国家技术发明奖二等奖的“面对突变型峰值服务的云计算关键技术与系统”项目。该项目由上海交大与阿里云共同合作,历时十余年,研发出支持突变型峰值服务的云计算系统SPS,可以支持暴增的流量服务需要。

  流量如洪

  2005年,当时在日本会津大学从事并行与分布计算研究的过敏意十分彷徨,5年来他一头扎进云计算基础研究,但也深知应用才是检验成果的金标准。当时,他预感中国有广阔的云计算应用空间。

  为了近距离参与国内“计算”事业,2006年,过敏意离开舒适圈,来到上海交大计算机系。

  时间很快印证了过敏意的想法。2009年,阿里巴巴计划推出天猫“双十一”活动。该活动必然使大量流量集中流入,造成突变型峰值,这将导致用户请求响应慢、系统崩溃等问题。

  阿里云智能事业群基础产品事业部工程师丁海洋介绍,增加服务器数量配合更强大的软件是最直接的增强系统能力的方式,但服务器及其运维价格不菲,增加企业成本。如果按照满足突变型峰值业务需求在峰值期间,如“双十一”当晚来准备服务器资源,“双十一”之外的“闲时”则会造成巨大的资源闲置和浪费。

  “因此,我们必须想办法提高数据中心单位服务器资源的使用效率,让同样规模的服务器做更多的事。”丁海洋说。

  因此,对于IT企业来说使用的服务器数量是一项顶级的商业机密。

  向“云”要答案

  突变型峰值常见于“春运抢票”“春晚”“双十一”等场景。尽管这些场景在十年前非常少,但这一难题还是引起国内外诸多研究团队关注。

  如何不依靠服务器提高数据处理能力?过敏意将目标锁定在“云”上。

  “云计算具有极大的灵活性,它的弹性计算能力可以大大降低企业的运行成本。云计算也是今后几十年企业的使能性技术,是发展趋势。”过敏意说。

  但面对网络流量洪峰,传统云计算技术并不能应付,并呈现出云中低算力节点负载高,调度不均衡;存储设备扩展故障剧增,恢复不迅速;服务镜像仓库网络拥塞,分发不及时;专家经验演进和查询慢,分析不智能等四大问题。

  事实上,不只过敏意,很多研究团队都将解决办法聚焦在“云”上,但进展缓慢。

  过敏意并没有打退堂鼓,相反他带领团队将云计算面临的问题一一列出,并选出其中最艰难的问题,即强实时、高吞吐、快扩展、高鲁棒性,作为攻关目标。

  此后的十余年里,过敏意往返于上海交大和杭州阿里巴巴总部之间,在应用中试验研究成果,与阿里巴巴的工程师们探讨解决办法。

  “过敏意几乎每周都要来杭州一次,他所在的团队也有长期驻阿里巴巴进行研究的成员。”阿里云智能事业群战略与合作部工程师邵海涛说。

  把“最要命”的系统放在云上

  功夫不负有心人。历时十余年,这项产学研的合作研究成效初现。在2019年天猫“双十一”活动中,阿里巴巴核心系统100%上云,订单创建峰值达到54.4万笔/秒,是2009年第一次“双十一”的1360倍。

  这些核心突破很多源于该项目的核心技术,如突变峰值用户请求快速处理技术、基于存储阵列的数据高可靠吞吐技术、基于容器和混合部署的高效资源整合技术和基于内存数据分析的服务质量保证技术。

  “快速处理技术”“高可靠吞吐技术” 满足了用户对低时延、高可靠的要求,实现了天猫“双十一”2019年54.4万单/秒的请求处理需求,将峰值时用户请求尾时延从分钟级降低至百毫秒级。“也就是说,用户发出搜索指定商品、查库存、总价计算等指令的响应速度大大加快。”丁海洋说。

  最让研究人员自豪的是“容器和混部技术”,过敏意戏称这项技术为“杀手锏”,大大提高了资源使用效率。究其秘诀,过敏意介绍,这项技术具有“统筹头脑”,能将相同/相似需求合并处理,也能识别任务的轻重缓急,优先处理对时效要求高的任务。

  “尽管有轻重缓急之分,但这项技术并不会降低用户体验,用户需求会在第一时间得到满足。”邵海涛说,“此外,‘质量保证技术’也为服务质量加了把放心锁。”

  一般千台服务器同时运行的情况下,每天1~2台出现问题比较常见。一种情况是,服务器直接宕机或因其它原因停止服务,系统具有自动恢复能力,用户无法感知。还有更多的情况是,服务器本身的问题并不显著,但的确降低了运行其上软件的服务质量,像是在“偷懒”。

  “由于服务器规模太大、分布式系统本身的复杂性,在极端情况下,用户反馈问题后,工作人员才能剥茧抽丝般找到“偷懒”的服务器,但此时服务质量已经受到影响。”丁海洋说。

  为了保证服务质量,研究人员研发出预先识别“偷懒”的服务器、引导负载使用其他正常运行的服务器的技术。

  阿里云智能事业群总裁张建锋表示,2019年“双十一”,阿里巴巴把“最要命”的系统全都放在云上。“双十一”开始后十分钟,基本上消费者没有感受到任何抖动,购物非常顺畅。这是因为阿里在核心虚拟机系统、数据库、计算与存储、RDMA网络等四个方面做了核心突破。

  科研有望上“云”

  SPS系统实现了云计算基础软件国外产品的替代,推动了核心软件的国产化。过敏意介绍说,该成果除了保障天猫“双十一”活动顺利进行,还应用于国家电网、中国联通、新浪微博、中国邮政、优酷视频、饿了么、卫宁健康等30余家企事业单位。

  邵海涛表示,随着新冠肺炎疫情的发展,该技术的应用场景进一步拓展。目前居家办公的用户越来越多,以钉钉打卡为代表的远程办公软件也面临突变型峰值需求场景。该技术能够保障远程办公系统的正常运行。

  疫情当前,医药界科研人员的研发任务吃紧,计算资源巨大。“科研运算往往借助大型计算设备进行,但国内这样的设备有限,很难满足洪水般的运算需求,借助云计算解决科研数据处理的难题不失为一种解决办法。”邵海涛提出。

  事实上,该项目的研究工作仍在继续。谈及后续的研究计划,过敏意表示,随着5G时代的来临,客户端的数据处理能力增强、数据交换更频繁,这套系统如何增强边缘计算的能力,如何支持和响应客户端需求,是团队接下来的研究方向。(记者 卜叶)