全部

作业帮与腾讯云等联合发布云原生成本管理白皮书

来源:中国新闻网

作者:

2021-12-14 17:05:12

原标题:作业帮与腾讯云等联合发布云原生成本管理白皮书

来源:中国新闻网

近日,2021腾讯数字生态大会在武汉召开。在大会云原生专场,腾讯云联合中国信通院、作业帮等联合发布《降本之源·云原生成本管理白皮书》(以下简称白皮书),系统性呈现云原生成本优化方法论和最佳实践路径。作业帮基础架构负责人董晓聪在会上分享作业帮云原生成本优化实践之路。

为什么要降本增效?

作业帮成立于2015年,是一家致力于用科技手段助力教育普惠的公司。董晓聪介绍,作业帮技术现状主要有两大特点,一个特点是规模化,当前作业帮有数千个应用服务,对应着数万的服务实例,这些实例部署在数十万计算核心之上。另一个特点是复杂化,作业帮的技术栈极为丰富,使用最多的语言为PHP和Golang,约能占到60%以上,除此之外还有大量的系统使用NodeJs、Java、C++、lua、python编写等。

董晓聪说,作业帮从创立之初就是构建在云之上的,充分的享受了云计算的红利。随着这些年的高可用建设,实现了多云的架构。高可用、快速迭代、极致性能也是作业帮一贯的技术要求。

为什么要进行降本增效呢?董晓聪说,这个工作之前一直也在做,但今天的要求会更高。首先,随着互联网的红利消退,公司的每分钱都需要产生更大的价值,要实现成本效益的最大化。其次,成本管控,不必用的支出是应该节省的。最后,也是一个技术从业人员的追求,作为程序员,还是想要写出更好更高性能代码。“在追求降本的同时,还要明确一点,降本不降质,稳定性、研发/运维效率、安全等不应该为此打折扣。”董晓聪表示。

业务快速发展平台架构面临挑战

随着业务的发展,作业帮的 IT 系统面临挑战。现有基础平台架构无法满足快速增长的业务需求,业务对快速迭代、急速弹性、调用链追踪、统一的监控日志平台、提升计算资源利用率等需求迫在眉睫。

2019年下半年,作业帮开始规划并调研容器化解决方案,“但面临诸多挑战”。董晓聪说,首先是应用性能有待提升。对于企业主流使用的语言,如PHP、Golang,从框架入手,但应用框架的理论性能和实际业务的性能往往有很大差距,多为业务架构缺陷或者数据存储设计的不合理导致。同时应用框架随着功能的不断迭代和更高的要求,自身性能上也需要优化。

其次,应用部署模式差,带来计算资源的浪费。对于高并发业务,虚机下机器峰值负载常规在10%-20%,极限可提升到30%-40%。高流量业务一般代表着公司核心业务,一方面为了稳定性的考虑,整体水位不能控制得过低。另一方面,为了应对一些突增流量,要预留一定缓冲。低负载业务一般碎片化比较严重,而这些服务比较长尾,进而拉低了整体负载。

同时,还存在时间空间不均的问题。从时间上看,互联网业务普通有明显的波峰波谷,波峰和波谷的实际资源使用量至少有一个数量级差距,且真正的最高峰只有不到一个小时。企业不得不为这一个小时的用量而付出一天的成本。在空间上,一方面是在线集群波谷空闲了大量计算资源,另一方面是大数据离线计算需要大量计算资源。从整个公司视角来看,资源使用极不均衡。

作业帮的云原生降本实践

“面对这么多挑战,我们该怎么解呢?”董晓聪说,针对每一个细分问题深耕并不系统,所以作业帮选择走云原生的道路,和云厂商一起来充分释放云的潜力。

在应用层,作业帮着手对典型场景进行重点攻克。对于模块数量最多的PHP业务进行优化运行态优化,对资源使用最多的检索服务进行架构优化。在部署调度上依托K8S,实现了CPU、GPU、任务的自定义调度器。同时,使用在离线混部解决空间不均的问题,使用弹性扩缩+serverless解决时间不均的问题。而在资源这部分,K8S通过CRI、CSI、CNI等实现了对应用的透明,便于选择更优的机型。

董晓聪说,检索系统是一个复杂的系统,作为最底层且需要高性能的服务,一般是存储和计算耦合。随着数据量越来越大,就需要对数据进行切片,每个节点只存储一部分的数据。由于高并发高可用的要求,单片数据节点还需要有多个副本。由此形成的一个二维矩阵。当需要进行数据更新时,由于数据量比较大,几百TB。

“作为容器改造最难啃的骨头,为了解决这些问题,我们决定进行计算和存储的分离,因为只有引入计算存储分离架构,才能从根本上解决系统复杂度的问题。”董晓聪说,经过多方调研比对,作业帮最终选用Fluid作为整个新架构的关键纽带,并采用JindoRuntime作为缓存加速引擎。

董晓聪表示,PHP框架经过一系列的优化,压测下单核可支撑800QPS,较之前有倍数级别提升。应用在具体线上业务,带来43%的资源使用降低。数据同步周期从小时级别降低到分钟级别,一般在8分钟内就可以完成。运维成本也大幅度降低,交付周期从天级别讲到到小时级别。性能提升了30%,节省了万核级别的资源使用。

对于作业帮的云原生实践,董晓聪表示,现在定时任务、AI类业务都大量的使用serverless,后面希望更大规模的在线业务也可以跑在serverless上,实现业务的真正削峰。未来,作业帮也将探索更多更优的机型,以及在部分特定场景下AMD机型的应用。此外,运营工作经历先靠人再靠运维平台的过程,其中涉及较多的数据分析工作,未来要将其BI化,AI化,实现成本问题的自动发现。

[责任编辑:杨凡、崔中连]

想爆料?请登录《阳光连线》( http://minsheng.iqilu.com/)、拨打新闻热线0531-66661234或96678,或登录齐鲁网官方微博(@齐鲁网)提供新闻线索。齐鲁网广告热线0531-81695052,诚邀合作伙伴。

传递生命曙光 浙江湖州“90后”医生成功捐献造血干细胞

丁伟军正在捐献造造血干细胞徐亚杰摄。中新网湖州12月14日电14日记者获悉,浙江省湖州市吴兴区“90后”医生丁伟军已顺利完成288毫升的造血...[详细]
中国新闻网 2021-12-14

江南春:流量红利结束 品牌红利正开启

会上,分众传媒董事长江南春以“中国消费品牌崛起的硬核方法”为主题,分享了新消费品牌在流量红利枯竭的时代如何真正成为一个能够可持续发...[详细]
中国新闻网 2021-12-14

陕西发现汉文帝陵墓

新华社西安12月14日电(记者杨一苗)记者14日从陕西省文物部门了解到,考古工作者在位于西安市东郊灞桥区江村发现了一座大型汉墓,经过持续...[详细]
新华网 2021-12-14

浙江武义发现鸟类“活化石”白鹤 专家:系寻找新越冬地

其中一只白鹤在田野展翅。中新网金华12月14日电12月14日,行至浙江省金华市武义县柳城畲族镇云溪村的田野,能看到两只一米多高、翅膀内侧有...[详细]
中国新闻网 2021-12-14

聚焦汉唐时期 国家文物局通报3项重要考古成果

新华社北京12月14日电(记者施雨岑)聚焦汉唐时期重要考古发现和研究进展,国家文物局14日在京召开“考古中国”重大项目重要进展工作会,通...[详细]
新华网 2021-12-14

中国新观察|董煜:中央经济工作会议提5个重大问题,有何深意?

中新网客户端北京12月14日电近日召开的中央经济工作会议提出,要正确认识和把握五个重大理论和实践问题,涉及到共同富裕、资本、初级产品、...[详细]
中国新闻网 2021-12-14

《深圳中国特色社会主义先行示范区发展报告(2020)》出版发行

新华社北京12月14日电《深圳中国特色社会主义先行示范区发展报告》已由人民出版社出版,近日在全国公开发行。该书由深圳市推进中国特色社会...[详细]
新华网 2021-12-14

外交部呼吁国际社会对美军战争罪行进行调查追责

有报道称,美国防部长批准免除两名美军事人员面临的惩罚,二人曾参与阿富汗无人机袭击,造成10名平民死亡。外交部发言人汪文斌12月14日应询...[详细]
新华社微博 2021-12-14

周秉德:天下黄埔一家亲 传承精神勇于担当

周秉德讲起了家中长辈的黄埔往事。中新网广州12月14日电题 周秉德 天下黄埔一家亲传承精神勇于担当。”黄埔军校后人、周恩来总理的侄女、中...[详细]
中国新闻网 2021-12-14

检方分别对蹇丹、周才柬、杨俊山、张建勇决定逮捕

中新网12月14日电据最高检官方微信消息,日前,检察机关依法分别对辽宁省葫芦岛市原组织部部长蹇丹,江西省建工集团有限责任公司原党委书记...[详细]
中国新闻网 2021-12-14

江西多措并举关爱困境儿童、特殊困难失能老年妇女

14日,江西官方召开新闻发布会,解读江西新“两纲”有关情况。中新网南昌12月14日电兜牢监护缺失儿童监护保障、落实残疾儿童照料护理保障、...[详细]
中国新闻网 2021-12-14

上海交大杨元庆科学计算中心揭牌 中国高校最强算力落地李政道研究所

这套高性能计算设备被命名为“思源一号”,每秒运算可达6千万亿次,其算力为中国高校第1。上海交大供图。中新网上海12月14日电由上海交通大...[详细]
中国新闻网 2021-12-14

选举关键词丨新:新选制、新面孔、新气象

新华社香港12月14日电香港特区第七届立法会选举将于12月19日举行,这是完善香港特区选举制度后的首次立法会选举。新选制产生新面孔,开创新...[详细]
新华网 2021-12-14
版权所有: 齐鲁网 All Rights Reserved
鲁ICP备09062847号-1 网上传播视听节目许可证1503009 互联网新闻信息服务许可证37120170002
通讯地址:山东省济南市经十路18567号  邮编:250062
技术支持:山东广电信通网络运营有限公司