在线课程

大会介绍

会议介绍

 

Pivotal Greenplum是唯一的开源无共享大规模并行处理(MPP)数据库,专为商业智能处理和高级数据分析而设计。它专门适用于机器学习和高级数据科学,由全世界最先进的成本型查询优化器提供支持,能够针对海量数据提供无与伦比的分析查询性能,具备灵活性,各种功能完备,并可以与领先的分析库和软件紧密集成。

 

为了更好的回馈Greenplum中国用户,我们特邀来自阿里、易观和观远的嘉宾,以及来自Pivotal中国和美国的Greenplum研发中心的嘉宾与您分享Greenplum 5.0的发布和各项新功能、用户使用Greenplum的成功经验、Greenplum在机器学习方面的心得和成功案例。

 

此外,Pivotal数据全球副总裁Elisabeth Hendrickson和Pivotal中国研发中心总经理冯雷也将参与并分享更多国内外战略发展方向。

 

本次Greenplum用户大会干货多多,我们还为每位参会者准备了精美的礼品。席位有限,报名从速!

 

会议日程

 
时间 会议议程 演讲嘉宾
09:00-09:30 签到  
09:30-09:45 开场致辞 Pivotal数据全球副总裁   Elisabeth Hendrickson
Pivotal中国研发中心总经理   冯雷
09:45-10:30 新一代数据平台: Greenplum 5.0 姚延栋 Pivotal Greenplum研发总监
大数据热词逐渐消退;大数据项目更多落地。这种潮流之下,用户需要一个 完善的系统的数据平台,而不是多个孤立的系统,以解决面临的各种各样的 大数据挑战,实现数据驱动创新、数据驱动价值的闭环。新一代数据平台 Greenplum 5.0 基于开源 PostgreSQL,融合 Pivotal 数据库专家团队的持续 创新,适应各种类型的部署,适应各种类型的数据源,适应各种类型的数据 ,提供了前所未有的数据处理和分析能力。
10:30-10:45 茶歇  
10:45-11:30 Pb级大数据Ad-Hoc查询选型 - Greenplum vs. Presto vs. Kylin 易观大数据CTO  郭炜
易观的数据量越来越多,从初始的日活用户不足千万,现在已经日活用户接 近1个亿,每日数据增量也超过10Tb。除了日常的批量大数据处理、推荐、 标签业务之外,越来越多的产品要支持用户的及时的复杂查询。 目前易观的 整体数据集群超过5.8Pb,其中Greenplum占用1.8Pb存储,存储率超过 60%。该主题演讲主要分享易观使用GP的历程以及各种情况下GP适用的场 景。
11:30-12:00 合影,自由交流  
12:00-13:00 午餐  
13:00-13:45 借助Greenplum Database构建完整的云数据库生态阿里云数据库高级产品经理及PostgreSQL中国用户会2015-2017届主席萧少聪 阿里云数据库高级产品经理  萧少聪
阿里云自2015年开始提供云数据库PostgreSQL服务,并于2016年底基于 Greenplum Databse提供HybridDB for PostgreSQL数据仓库服务。本主题将 为大家讲解阿里云通过Greenplum Database赋能数据库产品,协助互联网行 业用户形成从OLTP->OLAP- >BigData全线打通的架构方案。
13:45-14:30 Machine Learning on Greenplum— MADlib 简介与应用实例 Pivotal Greenplum Madlib研发工程师  梅靖怡
DT时代,数据生态和业务需求不断有新趋势和新变化,企业在如何 运用数据辅助决策上也遇到新困惑和新难题,本次演讲将探讨企业在 这样的环境下如何基于Greenplum进行下一代的数据分析和决策支持 。从理念、方法、工具上分享观远数据新一代商务智能(BI)方案的 要点和解决方案思路。
14:30-14:45 茶歇  
14:45-15:30 Procedural Language In Container -- Greenplum助力数据科学计算 Pivotal Greenplum研发工程师  郭罡
Apache MADlib是Pivotal与UC Berkeley合作的一个开源机器学习库,提供了精确的数据并行实现、统计和机器学习方法对结构化和非结构化数据进行分析。MADlib提供了丰富的分析模型,包括回归分析,决策树,随机森林,贝叶斯分类,向量机,风险模型,KMEAN聚集,文本挖掘,数据校验等。 MADlib 支持Greenplum, PostgreSQL 以及 Apache HAWQ, In-Database Analytics的特性使其大大扩展了数据库的分析功能,充分利用MPP架构使其能够快速处理海量数据集。本主题将为大家介绍MADlib的基本架构,工作原理及特性,分享MADlib在互联网,金融,零售等行业的用户案例,展望In-Database Machine Learning的广阔前景。
15:30-16:00 DT时代 探索数据 到决策的最短路 径 易观远数据创始人/CEO  苏春园
Python和R是数据科学家的分析利器,Greenplum的Procedural Language对Python 和R进行了良好的支持。Procedural Language、Madlib、GPText使得Greenplum用户既能享受到MPP并行数据库的性能优势,又能进行科学的数学计算。本次分享会对Greenplum即将推出的新功能展开介绍:使用容器技术进行Procedural Language计算。
 

 

 

演讲内容摘要

 

演讲主题:新一代数据平台: Greenplum 5.0    

大数据热词逐渐消退;大数据项目更多落地。这种潮流之下,用户需要一个完善的系统的数据平台,而不是多个孤立的系统,以解决面临的各种各样的大数据挑战,实现数据驱动创新、数据驱动价值的闭环。新一代数据平台 Greenplum 5.0 基于开源 PostgreSQL,融合 Pivotal 数据库专家团队的持续创新,适应各种类型的部署,适应各种类型的数据源,适应各种类型的数据,提供了前所未有的数据处理和分析能力。

 

演讲主题:Pb级大数据Ad-Hoc查询选型- Greenplum vs. Presto vs.  Kylin 

易观的数据量越来越多,从初始的日活用户不足千万,现在已经日活用户接近1个亿,每日数据增量也超过10Tb。除了日常的批量大数据处理、推荐、标签业务之外,越来越多的产品要支持用户的及时的复杂查询。 目前易观的整体数据集群超过5.8Pb,其中Greenplum占用1.8Pb存储,存储率超过60%。该主题演讲主要分享易观使用GP的历程以及各种情况下GP适用的场景。

 

演讲主题:借助Greenplum Database构建完整的云数据库生态  

阿里云自2015年开始提供云数据库PostgreSQL服务,并于2016年底基于Greenplum Databse提供HybridDB for PostgreSQL数据仓库服务。本主题将为大家讲解阿里云通过Greenplum Database赋能数据库产品,协助互联网行业用户形成从OLTP->OLAP->BigData全线打通的架构方案。

 

演讲主题:Machine Learning on Greenplum— MADlib 简介与应用实例  

 DT时代,数据生态和业务需求不断有新趋势和新变化,企业在如何运用数据辅助决策上也遇到新困惑和新难题,本次演讲将探讨企业在这样的环境下如何基于Greenplum进行下一代的数据分析和决策支持。从理念、方法、工具上分享观远数据新一代商务智能(BI)方案的要点和解决方案思路。

 

演讲主题:Procedural Language In Container -- Greenplum助力数据科学计算    

Apache MADlib是Pivotal与UC Berkeley合作的一个开源机器学习库,提供了精确的数据并行实现、统计和机器学习方法对结构化和非结构化数据进行分析。MADlib提供了丰富的分析模型,包括回归分析,决策树,随机森林,贝叶斯分类,向量机,风险模型,KMEAN聚集,文本挖掘,数据校验等。 MADlib 支持Greenplum, PostgreSQL 以及 Apache HAWQ, In-Database Analytics的特性使其大大扩展了数据库的分析功能,充分利用MPP架构使其能够快速处理海量数据集。本主题将为大家介绍MADlib的基本架构,工作原理及特性,分享MADlib在互联网,金融,零售等行业的用户案例,展望In-Database Machine Learning的广阔前景。

 

演讲主题:DT时代 探索数据到决策的最短路径  

Python和R是数据科学家的分析利器,Greenplum的Procedural Language对Python 和R进行了良好的支持。Procedural Language、Madlib、GPText使得Greenplum用户既能享受到MPP并行数据库的性能优势,又能进行科学的数学计算。本次分享会对Greenplum即将推出的新功能展开介绍:使用容器技术进行Procedural Language计算。

 
 

 

演讲嘉宾介绍

 

姚延栋现任Pivotal公司研发总监,负责 Greenplum 数据库和 SQL-on-Hadoop 产品 HAWQ 的内核研发。毕业于中科院软件所,2010 年加入 Greenplum,之前曾在Sun Microsystem 与 Symantec 系统和存储部门工作多年。

 

郭炜,2016年加入易观,担任易观CTO,构建易观技术团队完成易观大数据采集、平台、数据挖掘等技术架构与体系,从无到有完成易观混合云搭建、易观SDK升级并发布易观秒算实时计算平台,目前易观大数据平台日处理数据量242亿条,月活用户4.8亿。

郭炜先生毕业于北京大学,加入易观之前,曾任联想研究院大数据总监,万达电商数据部总经理,并曾在中金、IBM、Teradata公司担任大数据方向重要岗位,对大数据前沿领域研究,包括视频、智能WIFI等大数据软硬数据一体技术有独特的见解。

  

萧少聪,阿里云计数据库高级产品经理,主要负责RDS产品的发展规划及产品运营,PostgreSQL中国用户会2015-2017届主席。

 

苏春园,现任观远数据创始人/CEO,在商务智能和数据分析领域有十五年资深经验,带领易观团队服务多家全球与中国500强企业,涵盖零售、金融、制造、电信和互联网等行业,为客户提供大数据和商务智能解决方案。在创立观远数据前,任MicroStrategy(微策略)全球高管和中国区研发总裁,领导300多人的中国与美国团队参与商务智能产品的全球发布,其负责的MicroStrategy服务器产品线每年全球客户收入超1亿美金。毕业于Carnegie Mellon University 卡内基梅隆大学(数据分析硕士)。

 

梅靖怡,2016年加入美国Pivotal Data R&D, 从事Greenplum开发相关工作,2017年加入MADlib, 负责MADlib的算法实现、性能优化和持续集成。梅靖怡2014年毕业于上海交通大学安泰经济与管理学院工商管理专业,2015年取得美国卡耐基梅隆大学计算机硕士学位。先后任职于Oracle和Pivotal Data, 从事数据库开发相关工作。

 

郭罡,Pivotal Greenplum研发工程师。有超过十年的基础软件开发经验,最近三年多主要经历和兴趣是分布式存储和分布式数据库开发,在此之前一直从事Unix/Linux内核以及系统软件开发工作。Paul Guo毕业于中国科技大学(电子工程硕士)。

 

 

拟邀嘉宾

时间:11-04 09:30 - 16:00
地点:上海云南南路118号凯腾大厦12楼

报名购票

主办方