PrestoDB、PrestoSQL关系

什么是Presto

Presto最早是Facebook最新研发的数据查询引擎,可对250PB以上的数据进行快速地交互式分析。据称该引擎的性能是 Hive 的 10 倍以上。

Presto 是一个大数据的分布式 SQL 查询引擎。可对从数 G 到数 P 的大数据进行交互式的查询,查询的速度达到商业数据仓库的级别。

Presto 可以查询包括 Hive、Cassandra 甚至是一些商业的数据存储产品。单个 Presto 查询可合并来自多个数据源的数据进行统一分析。

Presto 的目标是在可期望的响应时间内返回查询结果。Facebook 在内部多个数据存储中使用 Presto 交互式查询,包括 300PB 的数据仓库,超过 1000 个 Facebook 员工每天在使用 Presto 运行超过 3 万个查询,每天扫描超过 1PB 的数据。此外包括 Airbnb 和 Dropbox 也在使用 Presto 产品。

Presto 是一个分布式系统,运行在集群环境中,完整的安装包括一个协调器 (coordinator) 和多个 workers。查询通过例如 Presto CLI 的客户端提交到协调器,协调器负责解析、分析和安排查询到不同的 worker 上执行。

此外,Presto 需要一个数据源来运行查询。当前 Presto 包含一个插件用来查询 Hive 上的数据,要求:
Hadoop CDH4
远程 Hive metastore service
Presto 不使用 MapReduce ,只需要 HDFS

PrestoDB 和 PrestoSQL

其实最早Presto 由Facebook公司开源,Github链接为 PrestoDB
但是因为Facebook对Presto相关开发优先级为公司内部需求为主,导致社区活跃性和很多Issues得不到及时解决。
所以呢,2019年Facebook内部主要负责Presto的人单独出来成立了新公司。社区也重新创建,Github链接为 PrestoSQL
随后两个Presto同时在社区出现,相对来说PrestoSQL社区活跃更好但是PrestoDB也在Facebook带领下也在进行迭代更新。
两个社区都成立了各自的基金会,在版本迭代中新的功能和解决的问题在实现上有相同也有所不同,所以各位在使用时候一定要看下自己的需求看看哪个社区更适合自己。

小捐怡情,大捐感激,点下广告也是极好的