本文共 2618 字,大约阅读时间需要 8 分钟。
随着云原生时代的快速发展,传统IT基础设施加速云化,云原生化已成为云时代的必然趋势。作为云原生代表技术之一,容器技术能够帮助企业提升IT架构的敏捷性,加速应用创新,为企业在面对商业发展的不确定性时提供更大的灵活性。尤其是在疫情期间,在线教育、音视频、公共健康等行业迎来爆发式增长,许多基于云计算和容器技术的企业抓住了业务增长的机遇,实现了跨越式发展。
疫情加速了企业数字化转型进程,低延时、高并发的线上场景频繁出现,业务创新的需求也在不断增加。Kubernetes逐渐成为云原生时代的基础设施,容器技术已广泛应用于人工智能、大数据、区块链、边缘计算等场景,成为轻量化计算载体,为更多场景提供弹性与敏捷性。在日常经营和业务创新的双重压力下,越来越多的企业从小规模试用进入全面拥抱容器规模化落地,以保障业务能够健康、长远发展。
根据信通院《2020年中国云原生用户调查报告》,60%以上的用户已将容器技术应用于生产环境,近八成用户的生产需求需要达1000及以上的节点规模满足。超过13%的用户容器规模已超过5000节点,9%的用户容器规模大于10000节点。随着云原生技术的普及,越来越多的企业将核心业务切换到容器环境,企业生产环境容器集群规模呈现爆发式增长趋势。Kubernetes开源版本最多能支撑5000节点及150万Pod,已难以满足日益增长的业务需求。
大规模容器集群能够提供更大的业务负载能力、更高的流量突发能力以及更高效的集群管理方式。阿里云率先实现了单集群10000节点、100万Pod的规模突破。相比社区版Kubernetes,单集群节点数提高了2倍,Pod数提升了6.7倍。基于服务百万客户的经验,阿里云沉淀了"容器规模化落地四步走"的路径方法,可帮助企业克服容器规模化落地过程中的难关。
当企业面临流量突发型业务、复杂计算型业务或需进一步提高运维效率等业务或IT诉求时,单集群的容量已成为发展的主要瓶颈。例如基因计算、在线秒杀等业务,在短时间内会产生大量负载,对单集群能容纳的计算资源提出了严峻挑战。亟需单个集群能够支持大规模节点来批量运行Pod。基于此,企业就要开始考虑集群扩容了。然而,追求集群规模大并不是一针见效的万能"银弹"。企业需要根据自身业务发展特性,优化集群能力实现业务价值,盲目追求规模化将扩大整个故障域的风险。
Kubernetes作为云原生时代的操作系统,其自身及其部署的云环境极其复杂庞大。因此,容器规模化是一整套从底层云资源到上层应用的优化体系。企业用户需要重点解决三个层面的优化:在云产品层面打破对云资源配额的限制;在集群组件层面提升资源规模化的天花板;在Kubernetes资源层面优化集群配置策略来保证资源规模化能力。
容器集群规模被放大N倍之后,对存储、集群网络、应用分发等性能提出了巨大挑战。例如大规模集群数据中心内网络流量较大,网络延迟与抖动问题也会被放大,影响集群网络传输效率和集群稳定性。还有大规模集群下批量发布更新应用的常规场景,1万个节点瞬时的镜像拉取会产生巨大的网络冲击,给镜像服务和网络带宽带来巨大压力。容器规模化的初衷是提供更强大的技术支撑力,不仅要保障原有性能,还需要进一步提升整体性能。
企业用户可重点从以下四个方面入手优化:Node&Pod规模化效率、网络效率(吞吐与延迟)、DNS解析效率、镜像加速。
如果说集群规模化是第一步,那么稳定的运行上万节点的集群才是更加惊心动魄的。庞大的系统最重要的就是控制故障域,防止雪崩。相对于规模而言,容器规模化后的稳定性更加重要,因为大规模集群的恢复不是简单的重启就能够解决的。一旦雪崩开始,整体崩溃不可避免,严重影响业务接续性。对于企业而言,大规模集群的稳定性就是业务在线的安全性。企业用户重点需要考虑事前止血预案、资源索引和系统组件优化、以及监控所有节点随时启动自愈流程。
针对大规模集群在企业落地的种种难关,阿里云基于ACK Pro提供了企业级的容器集群管理能力,在APIServer和调度器上提供了大量性能优化,打破资源规模限制、提升性能天花板、保证集群稳定性。通过自研高性能容器网络Terway,优化Pod延迟30%,降低大规模Service的性能开销,不仅能够解决大规模集群的网络瓶颈问题,还提供几乎云上原生的网络性能,使得集群响应更迅速。企业级镜像仓库ACR EE支持独享存储,提供按需加载镜像的能力,降低启动时间60%,可解决大规模节点拉取镜像慢的问题。
整合阿里云存储、网络和安全能力,阿里云一站式为企业提供容器规模化运行的最佳性能:更加高效的网络转发、更强扩展能力的存储、更高效的应用与镜像分发、更稳定的大规模集群管理。
阿里云在2020年云原生大会上成为首家通过信通院容器规模化性能测试的云服务商,获得了最高级别认证——"卓越"级别。在信通院的容器规模化测评中,阿里云容器服务的满负载压力测试、网络延迟、网络性能损耗等多项测评结果,在参与测评的厂商中遥遥领先。基于此,阿里云拥有足够弹性的"服务能力空间",可根据企业业务量身定制满足当前所需的容器集群服务。阿里云容器服务已管理了超过1万个以上的容器集群,为来自全球各行各业的企业提供可靠服务。
阿里云拥有国内规模最大的容器集群、最丰富的云原生产品家族和最全面的开源贡献,提供云原生裸金属服务器、云原生数据库、数据仓库、数据湖、容器、微服务、DevOps、Serverless等超过100款创新产品,覆盖新零售、政务、医疗、交通、教育等各个领域。阿里云容器服务是国内唯一连续两次入选Gartner 2019年和2020年《竞争格局:公共云容器服务》报告的厂商,与AWS平齐,产品丰富度领先Google、微软、IBM和Oracle四家厂商。
随着容器技术的逐渐普及,如何评价容器性能高低成为业内普遍关注的议题。针对行业痛点,中国信息通信研究院发布了业内首个超大规模容器性能测评结果,客观真实反映了容器集群组件级的性能表现。在此,阿里云研究员、阿里云原生技术负责人丁宇表示:"阿里云一直致力于推动云原生在国内的普及,将与信通院一起促进中国容器市场的规范化、标准化发展。"
转载地址:http://exgu.baihongyu.com/