基于机器学习的云存储智能运维

2017-05-20 13:30-16:30
嘉宾:

谢梁

微软首席数据科学家
¥99.00
收藏 310 人浏览 扫一扫
视频介绍
资料下载

嘉宾介绍

谢梁

微软首席数据科学家
谢梁是纽约州立大学计量经济学博士,微软云计算核心存储部门首席数据科学家,主持运用机器学习和人工智能方法优化大规模高可用性并行存储系统的运行效率和改进其运维方式。具有10年以上机器学习应用经验,熟悉各种业务场景下机器学习和数据挖掘产品的需求分析,架构设计,算法开发和集成部署,行业跨度包含金融,能源和高科技。曾经担任美国道琼斯工业平均指数唯一保险业成分股的旅行者保险公司分析部门总监,负责运用现代统计学习方法优化精算定价业务和保险运营管理,推动精准个性化定价解决方案。在包括Journal of Statistical Software等专业期刊上发表多篇论文,担任Journal of Statistical Computation and Simulation期刊以及Data Mining Applications with R一书的审稿人。与人合著的《深度学习实战:Keras案例精解》一书即将由电子工业出版社出版。  

主题介绍

云计算供应商一般都提供超大并行规模,高可用性,近乎无限存储能力的能力。云计算竞争的核心是服务质量,而通过机器学习方法提高运维水平是一个重要研究方向。
 

云计算运维一般涵盖三个领域:系统监控,系统负载优化,系统部署优化。
系统监控的主要目的是为了降低侦测时间(Time To Detect),提供集中信息方便工程师解决问题。一般监控系统是基于异常值检验,但是具体实施会因不同架构以及工程要求而不同。我们针对Azure的云存储系统部署了一个依照严重性排序的异常值检验系统,并且能同步筛选高相关信号帮助工程师快速定位问题系统。采用这个监控系统之后TTD从平均12个小时减低到1个半小时。
系统负载优化的目的是为了提高系统反应速度和应对高峰值流量或者高波动流量的准备程度。主要有两个方面。一是整个系统的负载平衡一般是调度主机在负责,让调度主机对未来给定时间的总负载及其分布有感知力能显著提高系统的反应速度和资源分配。二是对于系统自己必要的负载,在对客户未来负载具备感知力的情况下可以进行时间跨度和分区的优化,从而避免和客户争夺资源。我们针对Azure云存储的实际情况,运用机器学习方法通过时间序列预测以及深度学习的字符串预测能力帮助工程组实施基于预测的负载调度和平衡,再不添加任何硬件的情况下系统调度能力提高20%,客户可用CPU提高3个百分点。
 

对于全球部署的超大规模并行存储系统,部署新的代码面临的风险非常高。如何设计,收集并分析部署数据,尽快发现问题,优化部署进程是可以通过统计实验设计,统计分析来解决的。我们正在实验的系统通过系统的实验设计,有计划地规划预先部署和连续的数据收集,帮助管理层实时评估进一步部署风险,降低对客户体验的影响。目前还没有实际实施的效果数据,不过我们初步对历史数据的评估发现对于曾经出现的代码回归情况绝大部分都能避免。
这些领域本质上是相互联系的,以后会将各个领域的分析系统集成,从而帮助管理层和工程师从更高的层次来统筹系统的优化。

未上传任何附件