我的编程空间,编程开发者的网络收藏夹
学习永远不晚

pygrametl的使用--python

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

pygrametl的使用--python

pygrametl是一个python的package用于ETL(Extract-Transform-Load )

简例

import MySQLdb
from pygrametl.datasources import SQLSource

conn = MySQLdb.connect(host="localhost", user="root", passwd="123456", db="ustcck", charset="utf8")

sql = "SELECT * FROM student;"
newnames = 'ID', 'Name', 'Gender'
resultsSource = SQLSource(connection=conn, query=sql, names=newnames)
print type(resultsSource)

for row in resultsSource:
    print row
    print row["Name"]


1.安装以及安装测试

$ pip install pygrametl


>>> import pygrametl
>>>

ok了!

2.pygrametl 支持多种数据源

'BackgroundSource', 'CSVSource', 'CrossTabbingSource', 'DictReader', 'DynamicForEachSource', 'FilteringSource', 'HashJoiningSource', 'JoiningSource', 'MergeJoiningSource', 'Process', 'ProcessSource', 'Queue', 'RoundRobinSource', 'SQLSource', 'TransformingSource', 'TypedCSVSource', 'UnionSource'..........

如:

(1)

import psycopg2
import pygrametl
from pygrametl.datasources import SQLSource

conn = psycopg2.connect(database="db", user="dbuser", password="dbpass")

sql = "SELECT * FROM table;"
resultsSource = SQLSource(connection=conn, query=sql)

(2)

import pygrametl
from pygrametl.datasources import CSVSource

resultsSource = CSVSource(csvfile=open('ResultsFile.csv', 'r', 16384), delimiter=',')

3.Dimension(维度)

pygrametl 提供了数据仓库维度交互,提供了一个在table中执行增删改查操作的接口。

使用Dimension两步走:

(1)创建ConnectionWrapper

(2)必须指定table的名字,key以及表中其他的列

下面是一个使用Dimension将相应的数据的插入到对应维度的操作的例子:(假设table已经存在,维度有'productid', 'name', 'category', 'price')

import psycopg2
import pygrametl
from pygrametl.tables import Dimension


products = [
    {'name' : 'Calvin and Hobbes 1', 'category' : 'Comic', 'price' : '10'},
    {'name' : 'Calvin and Hobbes 2', 'category' : 'Comic', 'price' : '10'},
    {'name' : 'Calvin and Hobbes 3', 'category' : 'Comic', 'price' : '10'},
    {'name' : 'Cake and Me', 'category' : 'Cookbook', 'price' : '15'},
    {'name' : 'French Cooking', 'category' : 'Cookbook', 'price' : '50'},
    {'name' : 'Sushi', 'category' : 'Cookbook', 'price' : '30'},
    {'name' : 'Nineteen Eighty-Four', 'category' : 'Novel', 'price' : '15'},
    {'name' : 'The Lord of the Rings', 'category' : 'Novel', 'price' : '60'}
]

pgconn = psycopg2.connect("""host='localhost' dbname='dw' user='dwuser'
                          password='dwpass'""")

conn = pygrametl.ConnectionWrapper(connection=pgconn)

productDimension = Dimension(
    name='product',
    key='productid',
    attributes=['name', 'category', 'price'],
    lookupatts=['name'])

for row in products:
    productDimension.insert(row)
conn.commit()
conn.close()

4.FactTable。给个例子你就知道了

例:

三步走:

(1)建立一个connection

(2)创建一个ConnectionWrapper实例

(3)创建 FactTable

import MySQLdb
import pygrametl
from pygrametl.tables import FactTable

conn = MySQLdb.connect(host="localhost", user="root", passwd="123", db="ustcck", charset="utf8")

conn = pygrametl.ConnectionWrapper(connection=conn)

factTable = FactTable(
    name='facttable',
    measures=['price'],
    keyrefs=['storeid', 'productid', 'dateid'])

# A list of facts are ready to inserted into the fact table
facts = [{'storeid': 1, 'productid': 13, 'dateid': 4, 'price': 50},
         {'storeid': 2, 'productid': 7, 'dateid': 4, 'price': 75},
         {'storeid': 1, 'productid': 7, 'dateid': 4, 'price': 50},
         {'storeid': 3, 'productid': 9, 'dateid': 4, 'price': 25}]


# The facts can be inserted using the insert method, before committing to DB
for row in facts:
    factTable.insert(row)
conn.commit()

# Lookup retunes all both keys and measures given only the keys
factTable.lookup({'storeid': 1, 'productid': 13, 'dateid': 4})

# If a set of facts contain facts already existing in the database can the
# ensure method be used instead of calling lookup and insert manually, we
# also rename 'itemid' to 'productid' using the name mapping feature
newFacts = [{'storeid': 2, 'itemid': 7, 'dateid': 4, 'price': 75},
            {'storeid': 1, 'itemid': 7, 'dateid': 4, 'price': 50},
            {'storeid': 1, 'itemid': 2, 'dateid': 7, 'price': 150},
            {'storeid': 3, 'itemid': 3, 'dateid': 6, 'price': 100}]

for row in newFacts:
    # The second argument forces FactTable.ensure to not only match the keys
    # for facts to be considered equal, but also checks if the measures are
    # the same for facts with the same key, and if not raises a ValueError
    factTable.ensure(row, True, {'productid': 'itemid'})
conn.commit()
conn.close()

5.Bulk Loading(大面积载入数据)

三个类可以用于Bulk Loading: BulkDimension, BulkFactTable, and CachedBulkDimension

#MySQLdb
def mysqlbulkloader(name, attributes, fieldsep, rowsep, nullval, filehandle):
    global connection
    cursor = connection.cursor()
    sql = "LOAD DATA LOCAL INFILE '%s' INTO TABLE %s FIELDS TERMINATED BY '%s' LINES TERMINATED BY '%s' (%s);" % \
            (filehandle, name, fieldsep, rowsep, ', '.join(attributes))
    cursor.execute(sql)

参数含义:Parameters
name – 表名
attributes –属性序列列表
fieldsep – 属性分隔符
rowsep – row分隔符
nullval – null的替代
filehandle – 文件名或者文件对象


免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

pygrametl的使用--python

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

pygrametl的使用--python

pygrametl是一个python的package用于ETL(Extract-Transform-Load )简例import MySQLdbfrom pygrametl.datasources import SQLSourceconn
2023-01-31

python+etcd的使用

python-etcd是一个etcd的python客户端,它的安装方法如下:git clone https://github.com/jplana/python-etcd.gitcd python-etcdpython setup.py i
2023-01-31

Python collection的使用

Python中的基本数据结构有list,dict,tuple,set。Python还有一个功能比较强大的包collections,可以处理并维护一个有序的dict,可以提高程序的运行效率。 1、collections中defaultdict
2023-01-31

Python中的*使用

Python中的*使用  在为函数传递参数和函数定义时使用参数的时候,时常会看到有和 *和**,下面分别讲解其作用。调用函数时使用*和 ** 假设有函数 def test(a, b, c)test(*args):* 的作用其实就是把序列 a
2023-01-31

thrift的使用--python

转载blog:http://www.cnblogs.com/pinking/p/7726478.html在这里要补充一点的就是在在这里python要安装thrift包时候,可以直接在安装好的thrift好的模块中sudo python se
2023-01-31

使用 Python 的 jsonsche

在OpenStack中, 使用了Python的 jsonschema包, 对json字符串做了验证.Python JSON Schema Libraryhttps://pypi.python.org/pypi/jsonschemaJSON
2023-01-31

python的tkinter使用

__author__ = 'Python'import tkinter as tkclass Application(tk.Frame):    def __init__(self, master=None):        tk.Fram
2023-01-31

python-fire的使用

本文完全转载自:https://github.com/google/python-fire/blob/master/docs/guide.md#version-3-firefireobjectfire简单参考实例:http://blog.c
2023-01-31

python下的MySQLdb使用

下载安装MySQLdb <1>linux版本http://sourceforge.net/projects/mysql-python/ 下载,在安装是要先安装setuptools,然后在下载文件目录下,修改mysite.cfg,指定本地my
2023-01-31

python中list的使用

1、list(列表)是一种有序的集合,可以随时添加、修改、删除其中的元素。举例:listClassName = ['Jack','Tom','Mark']                    列表可以根据索引获取元素,如:listClas
2023-01-30

python中assert的使用

在python程序中,如果想要确保程序中的某个条件一定为真才会继续执行的话,而可以使用assert来实现。  例如:>>> age = 10>>> assert 0>> assert age>20Traceback (mos
2023-01-31

Python中ghost的使用

ghost.py is a webkit web client written in python.from ghost import Ghostghost = Ghost()page, extra_resources = ghost.op
2023-01-31

peewee的使用 python orm

自动提交,和定义 table name 。 爬虫。 -- 自动判断 返回的编码resp.encoding = resp.apparent_encoding爬虫- http协议。 http://yxtsunny.lofter.com/po
2023-01-31

python sqlite3 的使用,性

sqlite3 的使用,性能及限制python 中使用sqlite3首先是基本的使用:# coding=utf8__author__ = 'Administrator'# 导入模块,在 python 中是已经内置了这个模块,所以就不需要安装
2023-01-31

python PIL库的使用

(1)PIL可以做很多和图像处理相关的事情: 图像归档(Image Archives)。PIL非常适合于图像归档以及图像的批处理任务。你可以使用PIL创建缩略图,转换图像格式,打印图像等等。图像展示(Image Display)。PIL较新
2023-01-31

Python----函数的使用

1.一个简单的无参函数#!/usr/bin/evn python#filename: function1.pydef sayHello():    print 'Hello World!'sayHello()2.函数传参#!/usr/bin
2023-01-31

使用python的zabbix_api模

使用python的zabbix_api模块,以下是简单的zabbix api的使用zabbix api文档参考https://www.zabbix.com/documentation/2.2/manual/api/reference安装za
2023-01-31

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录