Apache Kylin权威指南
上QQ阅读APP看书,第一时间看更新

hpic

推荐序三

在大数据处理技术领域,用户最普遍的诉求就是希望以很简易的方式从大数据平台上快速获取查询结果,同时也希望传统的商务智能工具能够直接和大数据平台连接起来,以便使用这些工具做数据分析。目前已经出现了很多优秀的SQL on Hadoop引擎,包括Hive、Impala及SparkSQL等,这些技术的出现和应用极大地降低了用户使用Hadoop平台的难度。为了进一步满足“在高并发、大数据量的情况下,使用标准SQL查询聚合结果集能够达到毫秒级”这一应用场景,Apache Kylin应运而生,在eBay孵化并最终贡献给开源社区。Apache Kylin是一种分布式分析引擎,提供Hadoop之上的标准SQL查询接口及多维分析(OLAP)功能。

Apache Kylin通过空间换时间的方式,实现在亚秒级别延迟的情况下,对Hadoop上的大规模数据集进行交互式查询;Kylin通过预计算,把计算结果集保存在HBase中,原有的基于行的关系模型被转换成基于键值对的列式存储;通过维度组合作为HBase的Rowkey,在查询访问时不再需要昂贵的表扫描,这为高速高并发分析带来了可能;Kylin提供了标准SQL查询接口,支持大多数的SQL函数,同时也支持ODBC/JDBC的方式和主流的BI产品无缝集成。

同时,Apache Kylin是目前国内少有的几个通过了Cloudera公司产品工程认证的大数据分析和查询引擎。Cloudera公司相信,作为唯一一个来自中国的Apache顶级开源项目,Apache Kylin不仅仅代表了中国对国际开源社区的参与,同时也将为我国及全球企业用户探索大数据的价值的进程做出卓越的贡献。

在过去的一年中,我们有机会与Kyligence公司合作,共同为国内的企业客户提供基于Cloudera Hadoop平台上的大数据应用。本书的出版为开发人员和数据分析人员利用这一技术提供了极大的便利。更重要的是,这本书不仅能够指导开发人员安装和使用Apache Kylin,而且还深入探讨了Apache Kylin的核心技术架构,并且通过丰富的案例展示了如何通过优化来提升大数据的应用性能。本书的作者之一韩卿先生是Apache Kylin的主要创建者和项目委员会主席(PMC chair),对于Kylin的技术架构、应用及未来发展都有深刻的理解。我相信本书对于Kylin使用者和开发者来说,是及时的且不可或缺的。

凌琦

Cloudera全球副总裁兼大中华区总经理