嘉宾介绍
主题介绍
TiDB 是开源的分布式数据库,参考 Google F1/Spanner 实现了水平伸缩,一致性的分布式事务,多副本同步复制等重要 NewSQL 特性。结合了 RDBMS 和 NoSQL 的优点,部署简单,在线扩容和表结构变更不影响业务,异地多活保障数据安全,同时完全兼容 MySQL 协议,使迁移使用成本降到极低。
TiSpark则是在原有TiDB之上基于SparkSQL构建的数据处理和计算层。相对于简单的通过JDBC与SparkSQL链接,TiSpark引擎能够理解数据如何在TiDB上组织,进行例如更智能的优化例如Partition Pruning;和TiDB的协处理器整合则帮助TiSpark下推更多计算,例如谓词下推,聚合下推等;而TiSpark能理解TiDB的元数据则更好地帮助优化器进行查询计划选择,例如TiDB的统计信息能使进行代价模型优化变成可能。
这个项目的意义有两部分。
首先对于TiDB而言,TiSpark是从多样性方面对原有系统的一个补充。不仅BI用户得以通过Spark在原有系统进行SQL分析性查询,而且数据科学家和其他角色用户也能使用Dataset等Spark API在TiDB上工作。
其次,对于大数据生态圈来说,TiSpark是一次对融合OLTP数据库和大数据平台的尝试,用户有可能通过一份数据/一个平台完成交易和分析两部分工作,而无需进行繁琐的数据同步和导入导出。
—— 点击加载更多 ——
收起