由Cloudera组织的Wrangle Conference 在硅谷湾区已经是第三年了。这是一个只关乎数据科学的社区会议,从原则到实践到应用,跨各行各业。近几年,中国的数据科学家牛人辈出,但尚无一个纯技术非商业的交流活动为大家分享这些牛人的新知心得,并提供一个同行间交流学习的平台。数据科学家都在做什么,如何减少数据整理中的繁复人工工作,金融业如何改进数据驱动,IoT采集的数据可以干什么,又新出现了哪些数据科学的工具,等等,Cloudera希望将Wrangle带到中国来讨论这些只关乎数据科学的问题。
本次活动由联通小沃科技和至顶网联合主办。
活动日期:2017年9月9日周六,9:00 – 17:00
活动地点:上海
陆锋,Cloudera资深架构师
TensorFlow是目前主流的深度学习框架,Cloudera数据科学家工作台 (CDSW) 是基于Kubernate和Dock技术的交互式大数据分析工具。在本次演讲中讨论并演示了如何在Cloudera数据科学家工作台中配置使用TensorFlow做深度学习,包括基于GPU以及基于Spark的使用方式。
张尧,英特尔的机器学习和大数据软件工程师
BigDL是基于Apache Spark的开源分布式深度学习框架(https://github.com/intel-analytics/BigDL)。它为Spark提供了深入学习功能的原生支持,同时为现成的使用单节点志强Xeon CPU的开源深度学习框架(如Caffeh和Torch)带来了数量级的性能速度提升,并为它们提供了基于Spark架构的对深度学习任务的高效的水平扩展的能力;此外,它还允许数据科学家使用熟悉的工具(包括Python和Notebook等)来对大数据进行分布式深度学习分析。
在这次演讲中,我们将演示大数据用户和数据科学家如何使用BigDL以分布式方式对海量数据进行深度学习分析(如图像识别、对象检测、NLP等)。这可以让他们使用已有的大数据集群(例如Apache Hadoop和Spark)来作为数据存储、数据处理和挖掘、特征工程、传统的(非深度)机器学习和深度学习工作负载的统一数据分析平台。
张星汉 瑞天欣实的创始人,首席市场战略咨询官
数据是决策的依据和基石,为战略方向的制定、运营管理提供可信任与可依赖的导引。目前国内金融行业对于数据的应用与发达国家的差距在哪里?哪些基础数据是我们应该重视和治理的?如何从业务发展的角度去积累数据的全面能力?金融零售信贷领域如何应用他们?我们与国外先进理念的差距在哪里?应用的实践应该从哪里做为突破口?如何可以做到可持续迭代升级?演讲者通过介绍国内外真实案例为大家分享零售信贷领域大数据的应用与体系。
康祖令博士,数据科学家
在这个专题报告中,我们将一方面从算法模型的角色论述深度学习在推荐领域的最新发展方向,另一方面同时向听众介绍如何在CDSW平台上实现这一基于深度学习的推荐模型。内容如下:
1)推荐系统的发展与演变;
2)基于Embedding技术和深度学习的推荐系统:综述与模型简介;
3)在CDSW中实现该模型:基本方法、统一的数据Pipeline与GPU的多租户技术。
方育柯博士 数之联CTO
大数据技术助推制造型企业产业升级要通过数据深度分析发现业务隐藏关系,为生产企业提供业务流程改善的专业建议,从而实现提升人员工作效率、降低人员费用、提升投入产出、降低备品备件浪费等业务目标。并从富士康、五粮液、博世汽车等智能制造案例中分享数之联近几年在制造业(机加工领域、半导体生产等领域)的实践成果。
金耀辉 上海交通大学光纤通信国家重点实验室教授,感知城市数据科学研究院执行院长,网络信息中心副主任。
政府和企业信息化水平的不断提升,产生并积累了大量的数据,过去这些数据封闭、沉睡,孤岛现象严重。数据集成和共享可以充分利用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用。然而,不同来源的数据内容、数据格式、数据质量差异巨大,传统数据治理往往利用人工的方法,据不完全统计数据准备已经占到数据分析80%的时间,严重阻碍了数据的有效利用。我们提出了一种新的“数据湖+人工智能”的数据治理工具——随巢,将不同来源的数据同步到数据湖Hadoop平台上,采用少量专家人工结合机器学习的方法,快速完成数据轮廓、数据理解、数据编目、数据治理、数据关联、数据集成和数据管护等工作。最后,我们展示了随巢在自贸区互联网金融风险监管、徐汇区互联网科创服务和浦东新区城市网格化管理数据分析等项目的成功案例,与传统的人工手段相比,随巢提升了3-5倍的数据治理效率。
汤人杰 浙江移动大数据首席架构师,浙江大学硕士研究生,高级工程师。
主要讲了浙江移动大数据平台的基本情况以及其向人工智能云演进的思路,规划,及其如何支撑企业的智慧运营
何驾澍 小沃科技大数据架构师
基于联通运营商海量数据,如何提供快速、准确、高效的产品化数据服务?讲者将讲述基于运营商海量的用户的人口学属性、行为数据来帮助内外客户做出有效的经营决策决策:包括联通DMP平台,行业洞察报告,及风控服务。
时间:09-09 09:30 - 17:00
地点:上海