阿里云弹性计算负责人蒋林泉:亿级场景驱动的技术自研之路 - 问

时间:2023-10-01 22:58:37编辑:路由君

作者 | 刘丹

出品 | CSDN云计算(ID:CSDNcloud)

近年来随着云计算如火如荼的发展,上云已经成为当前企业的必经路径。但在国内良莠不齐的云服务市场下,云服务器的选型评估长期困扰着企业。为此,阿里云弹性计算一直坚持为不同行业及企业提供垂直实例产品,提高用户体验,有针对性地解决行业特色问题并且带来最优的性价比。

阿里云弹性计算负责人蒋林泉

本期《问底中国IT技术演变》,我们有幸采访到阿里云弹性计算负责人蒋林泉先生,就弹性计算的应用现状、技术解析、垂直产品以及未来趋势等方面,解剖阿里云弹性计算的技术演进过程,以此探析整个行业的发展趋势。

没有世界量级的业务,何来安全、稳定的技术?

书上没有教你怎么做云计算,真正告诉我们怎么样把云计算做好的是客户,是更多广泛客户的需求逼迫着我们的技术不停地往前走。”蒋林泉从事云计算多年,这是他最大的感受。阿里云交出十年成绩单,自2009年成立以来付费用户超百万,市场份额等于第2到8名总和。历经十年发展,其用户从最初中小网站,到中型互联网客户,再到大型互联网客户和头部央企,广泛的客户涉及行业之多,几乎覆盖所有领域。

随着企业核心系统全栈上云以及业务场景增多带来的复杂性,用户对于云厂商能否提供更加出色的“弹性计算”服务提出了新的要求,比如高稳定、高安全、高性能、低延迟、低成本等等。这一系列看似苛刻的要求,在阿里云眼里却成为不断驱动他们向前的动力,在计算服务打磨上不断突破,大胆吸收了更多的前沿技术。

大量企业级用户迁移至阿里云后,不同视角的诉求铺天盖地而来,其中稳定性往往是企业最关心的;其次是性能的平稳性,客户往往对计算、网络、存储有着预期的性能需求,因此对于一个云计算服务商来说,沉淀的用户越多通常代表了业务越成熟,可以承担更大的负载。另外,企业客户对计算产品的需求方式众多,要想交付所有形态,就必须保证多种计算形态的无死角覆盖。

随着需求升级,早期的弹性计算已经无法满足客户更高的要求,这时云厂商不仅要考虑提升技术含量,同时也要不断提升产品的性能品质。对此,阿里云不断突破技术难题,用超高的稳定性、可预期的性能以及丰富的产品覆盖度,针对用户最为核心的点,满足客户需求。一系列产品与技术的推出与优化,不难看出从“入门级”到“企业级”的转变,不仅诠释了阿里云弹性计算的技术演进,更是用户驱动阿里云技术成熟的最好佐证。

不自研每一行代码,何以支撑百万用户的稳定、可靠?

“很幸运,我们选择了自研,无论是平台管控、运维、调度还是底层的大部分虚拟化架构,有一支可以完全把控代码的团队,与客户有效的需求形成良好的化学反应,这些化学反应让我们的路越走越宽,这样的竞争力让我们信心倍增。”

可想而知,从0到1过程中的艰辛不言而喻,然而自研在掌控力、业务创新、稳定性、可拓展性上带来的优势很快便体现了出来,例如:阿里云推出的自研“神龙架构”弹性裸金属服务器就是其中之一,它融合了物理机和虚拟机的特性,提供了与传统物理机无差别的高计算性能;同时,物理机级别的隔离,提供给客户安全、可靠、稳定、独占的计算资源;神龙还具备全线阿里云产品兼容、提供更多和更完整的云端解决方案、及分钟级交付能力,灵活从容应对业务需求。

客户在不停地变,客户平台与规模也在变,阿里云的技术团队可以灵活控制代码和它的所有进化,这对于整个系统的演进、掌控力以及客户价值都是极其重要的。

尽管社区中一些开源的代码唾手可得,但随着技术的演进,后续的掌控会越来越难。因为大量不同客户的涌入,使得别人家的代码无论是在规模性、稳定性、对需求的效果以及可拓展性上一般都带着天然的劣势。此时再看自研的道路,虽然压力很大,但终会苦尽甘来。

蒋林泉感慨到,很多云厂商选择走“捷径”,直接用开源技术搭建平台,看起来是“短、平、快”,实现快速上线的效果;但是过于依赖开源技术,意味着企业缺少自主演进能力。更重要的是,十年的坚持,平台,软硬件结合,研发团队完全掌握全栈每一行的代码,让弹性计算在稳定性,性能,弹性,功能体验的创新迭代上有充足的底气,给我们的客户持续提供世界领先的服务。

没有双11网络狂欢,何来技术极限的挑战?

云计算的发展并不是一帆风顺的,我们这些工程师面临着业务与技术上的双重压力,为满足客户各方面的需求,逼迫我们这些技术人员也要更懂客户。所以能在云计算挑战下活过来的这群人,必然经历了更残酷的锻炼。”蒋林泉坚定地说。

当年,阿里巴巴开创“双11”购物节时,放眼国内外IT产业,无一厂商能支撑其庞大的数据流和数据计算需求。

马云决定:“既然没有,我们就来做!”

2009年,对于科技领域来说注定不平凡,不仅诞生了让全世界为之震惊的“双11”购物节,同时阿里自主的云技术也在倒逼中横空出世。时至今日,阿里云拥有世界级的技术实力,其数据计算能力可以支撑不断刷新记录的“双11”,且带领国内企业顺利出海,去帮助各行各业应对社会高速发展所带来的“极限挑战”。

成功永远都只属于默默耕耘的人,所以这绝对不是一场没有准备的战争。随着越来越多业务场景的涌现,我们看到了视频中源源不断的弹幕、一次次节日秒杀、微博热点事件……每一波空前的网络狂欢,背后都是对技术的极限挑战。

风光背后如何保证这些云服务器在无数互联网狂欢中持续输出稳定的性能,成为蒋林泉团队所肩负的重担。如何在业务高峰时,在短短几秒内处理几甚至上百万的数据包,这就要求云主机可以同时处理来自四面八方发放的请求,并且保持稳定的网络 PPS 性能指标。

据了解,2012年,阿里云第一代云主机的PPS是20-30万每秒,而直接用物理机千兆网卡发包的话,速率能达到120万每秒,十分严重的性能损耗主要来自虚拟化过程中,虚拟机必须通过物理机连接网络,而这样的速度根本无法支撑某一特定时间段内的用户集中爆发。

正所谓技术的极限就是不断被挑战,2015年,通过硬件和软件的两个进步,阿里云将万兆网卡上的 PPS 从上一代的30万每秒提高到了120万每秒;待到2017年,阿里云通过将网络上的信息绕开内核,即用户态直通虚拟机,绕过了物理机的内核“跳板”,为每一次信息传输节省大量的时间,完成了我们原本无法想象的“450万每秒”的极限挑战。

每一次空前的网络狂欢,不仅完美地诠释着计算的永不停歇,更不断地挑战着技术的极限,而阿里云凭借一次次技术的迭代与更新,追寻着更多未知的可能。

不持续创新深耕,何以引领云计算行业的砥砺前行?

正如蒋林泉反复提到的,是用户教会了阿里云如何更好地将弹性计算发挥到极致,如何让更多的新产品不断满足用户需求,对于蒋林泉来说是挑战,更是动力。

随着深度学习算法的突破,人工智能技术得到了更迅猛的发展,以异构计算为代表的新加速计算单元以及智能制造、基因计算等新兴行业的进步,不断催生着大量计算类需求,这再一次促使着阿里云弹性计算去布局更多高性价比的产品及更先进的技术研发。

据了解,阿里云不断在增加新的实例类型,丰富企业级计算家族;未来弹性计算将会利用人工智能等先进技术,在稳定性与安全性上持续深耕,为保障永不停机的计算服务奋勇前行,并利用最新一代的网络技术,保证产品性价比与可预期的性能稳定。

为保证用户无忧上云、用云,像用水电一样放心灵活地使用计算资源,阿里云将不忘初心,持续不断为用户带来更好的体验。正如蒋林泉所说,弹性计算的作用本质上就是解放人类的力量,让更多的技术去做事,从而提升全社会的效能。

【END】

上一篇:互联网大比例裁员,50%的程序员将被机器取代?这3种趋势要注意了

下一篇:IBM:数字化转型对于企业的赋能绝不亚于传统IT技术