基于机器学习的云存储智能运维

第34届MPD软件工作坊【上海站】

9191 人浏览￥396.00 整套购买

已收藏收藏

5420

微信分享

视频列表

硅谷大型互联网公司的软件工程管理

￥: 99.00

Andrew Luo

5021

OKRs驱动的产品和研发管理：从过程管理到目标管理

基于机器学习的云存储智能运维

构建自动化运维体系

视频介绍

课程资料

评价

嘉宾介绍

主题介绍

云计算供应商一般都提供超大并行规模，高可用性，近乎无限存储能力的能力。云计算竞争的核心是服务质量，而通过机器学习方法提高运维水平是一个重要研究方向。云计算运维一般涵盖三个领域：系统监控，系统负载优化，系统部署优化。系统监控的主要目的是为了降低侦测时间（Time To Detect），提供集中信息方便工程师解决问题。一般监控系统是基于异常值检验，但是具体实施会因不同架构以及工程要求而不同。我们针对Azure的云存储系统部署了一个依照严重性排序的异常值检验系统，并且能同步筛选高相关信号帮助工程师快速定位问题系统。采用这个监控系统之后TTD从平均12个小时减低到1个半小时。系统负载优化的目的是为了提高系统反应速度和应对高峰值流量或者高波动流量的准备程度。主要有两个方面。一是整个系统的负载平衡一般是调度主机在负责，让调度主机对未来给定时间的总负载及其分布有感知力能显著提高系统的反应速度和资源分配。二是对于系统自己必要的负载，在对客户未来负载具备感知力的情况下可以进行时间跨度和分区的优化，从而避免和客户争夺资源。我们针对Azure云存储的实际情况，运用机器学习方法通过时间序列预测以及深度学习的字符串预测能力帮助工程组实施基于预测的负载调度和平衡，再不添加任何硬件的情况下系统调度能力提高20%，客户可用CPU提高3个百分点。对于全球部署的超大规模并行存储系统，部署新的代码面临的风险非常高。如何设计，收集并分析部署数据，尽快发现问题，优化部署进程是可以通过统计实验设计，统计分析来解决的。我们正在实验的系统通过系统的实验设计，有计划地规划预先部署和连续的数据收集，帮助管理层实时评估进一步部署风险，降低对客户体验的影响。目前还没有实际实施的效果数据，不过我们初步对历史数据的评估发现对于曾经出现的代码回归情况绝大部分都能避免。这些领域本质上是相互联系的，以后会将各个领域的分析系统集成，从而帮助管理层和工程师从更高的层次来统筹系统的优化。

未上传任何附件

说点什么

—— 点击加载更多 ——

收起

为你推荐

啊哦，暂无相关推荐