如果要使用Python来连接Presto,就需要相关的驱动包。
目前发现有两个驱动包,分别是:
pyhive : https://github.com/dropbox/PyHive
presto-python-client : https://github.com/prestodb/presto-python-client
其中第二个是Presto官方自己弄的,不过使用率没有pyhive高。在Superset中也是用pyhive来连接的,而且pyhive可以集成到sqlalchemy里,从而无缝地衔接pandas。
下面就简单介绍一下怎么用pyhive来连接presto。
sqlalchemy提供了一个统一的连接方式,非常
pyhive实质是安装了一个驱动,所以任何python里能创建一般化的数据库连接的模块都可以用来创建Presto连接。
安装pyhive后,就可以执行下面的代码。
from sqlalchemy import *
from sqlalchemy.engine import create_engine
from sqlalchemy.schema import *
import pandas as pd
# Presto
engine = create_engine('presto://host:port/hive/my_schema') # host是服务器ip,port是端口,hive指的是Presto的catalog,my_schema是hive的schema。
df = pd.read_sql("select * from test",engine) # 和一般pandas从数据库中读取数据无任何区别,分析师们应该非常熟悉了。
print(df)