我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python的三大开源数据分析工具是什么

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python的三大开源数据分析工具是什么

本文小编为大家详细介绍“Python的三大开源数据分析工具是什么”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python的三大开源数据分析工具是什么”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。

在大数据库领域,Python是最常被使用的编程语言,因此了解与其相关的数据分析工具是很有必要的。如果你正在使用virtualenv、pyenv或其他变体在自己的环境中运行Python,那么,可以尝试本文推荐的三大开源工具。

(注:本文示例使用IPython,如果感兴趣,请确保已经安装)

$ mkdir python-big-data
$ cd python-big-data
$ virtualenv ../venvs/python-big-data
$ source ../venvs/python-big-data/bin/activate
$ pip install ipython
$ pip install pandas
$ pip install pyspark
$ pip install scikit-learn
$ pip install scipy

本文选取的示例数据是最近几天从某网站获取的实际生产日志数据,从技术层面来看,这些数据并不能算作是大数据,因为它的大小只有大约2Mb,但就演示来说已经足够了。

如果你想获取这些示例数据,可以使用git从作者的公共GitHub存储库中下载:admintome / access-log-data

$ git clone https://github.com/admintome/access-log-data.git

数据是一个简单的CSV文件,因此每行代表一个单独的日志,字段用逗号分隔:

2018-08-01 17:10,'www2','www_access','172.68.133.49 - - [01/Aug/2018:17:10:15 +0000] "GET /wp-content/uploads/2018/07/spark-mesos-job-complete-1024x634.png HTTP/1.0" 200 151587 "https://dzone.com/" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"'

以下是日志行架构:

Python的三大开源数据分析工具是什么

由于对数据可执行的操作的复杂性不确定,因此本文重点选取加载数据和获取数据样本两个操作来讲解三个工具。

1、Python Pandas

我们讨论的第一个工具是Python Pandas。正如它的网站所述,Pandas是一个开源的Python数据分析库。它最初由AQR Capital Management于2008年4月开发,并于2009年底开源,目前由专注于Python数据包开发的PyData开发团队继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 

首先,启动IPython并对示例数据进行一些操作。(因为pandas是python的第三方库所以使用前需要安装一下,直接使用pip install pandas 就会自动安装pandas以及相关组件)

Python的三大开源数据分析工具是什么

import pandas as pdheaders = ["datetime", "source", "type", "log"]df = pd.read_csv('access_logs_parsed.csv', quotechar="'", names=headers)

大约一秒后,我们会收到如下回复:

[6844 rows x 4 columns]In [3]:

如上所见,我们有大约7000行数据,它从中找到了四个与上述模式匹配的列。

Pandas自动创建了一个表示CSV文件的DataFrame对象,Pandas中的DataFrame数据既可以存储在SQL数据库中,也可以直接存储在CSV文件中。接下来我们使用head()函数导入数据样本。

In [11]: df.head()Out[11]:           datetime source        type                                                log0  2018-08-01 17:10   www2  www_access  172.68.133.49 - - [01/Aug/2018:17:10:15 +0000]...1  2018-08-01 17:10   www2  www_access  162.158.255.185 - - [01/Aug/2018:17:10:15 +000...2  2018-08-01 17:10   www2  www_access  108.162.238.234 - - [01/Aug/2018:17:10:22 +000...3  2018-08-01 17:10   www2  www_access  172.68.47.211 - - [01/Aug/2018:17:10:50 +0000]...4  2018-08-01 17:11   www2  www_access  141.101.96.28 - - [01/Aug/2018:17:11:11 +0000]...

使用Python Pandas可以做很多事情, 数据科学家通常将Python Pandas与IPython一起使用,以交互方式分析大量数据集,并从该数据中获取有意义的商业智能。

2、PySpark

我们讨论的第二个工具是PySpark,该工具来自Apache Spark项目的大数据分析库。

PySpark提供了许多用于在Python中分析大数据的功能,它自带shell,用户可以从命令行运行。

$ pyspark

这会加载pyspark shell:

(python-big-data)[email protected]:~/Development/access-log-data$ pyspark Python 3.6.5 (default, Apr 1 2018, 05:46:30) [GCC 7.3.0] on linux Type "help", "copyright", "credits" or "license" for more information. 2018-08-03 18:13:38 WARN Utils:66 - Your hostname, admintome resolves to a loopback address: 127.0.1.1; using 192.168.1.153 instead (on interface enp0s3) 2018-08-03 18:13:38 WARN Utils:66 - Set SPARK_LOCAL_IP if you need to bind to another address 2018-08-03 18:13:39 WARN NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 2.3.1 /_/ Using Python version 3.6.5 (default, Apr 1 2018 05:46:30) SparkSession available as 'spark'. >>>

当你启动shell时,你会得到一个Web GUI查看你的工作状态,只需浏览到http:// localhost:4040即可获得PySpark Web GUI。

让我们使用PySpark Shell加载示例数据:

dataframe = spark.read.format("csv").option("header","false").option("mode","DROPMALFORMED").option("quote","'").load("access_logs.csv")dataframe.show()

PySpark提供了已创建的DataFrame示例:

>>> dataframe2.show()+----------------+----+----------+--------------------+|             _c0| _c1|       _c2|                 _c3|+----------------+----+----------+--------------------+|2018-08-01 17:10|www2|www_access|172.68.133.49 - -...||2018-08-01 17:10|www2|www_access|162.158.255.185 -...||2018-08-01 17:10|www2|www_access|108.162.238.234 -...||2018-08-01 17:10|www2|www_access|172.68.47.211 - -...||2018-08-01 17:11|www2|www_access|141.101.96.28 - -...||2018-08-01 17:11|www2|www_access|141.101.96.28 - -...||2018-08-01 17:11|www2|www_access|162.158.50.89 - -...||2018-08-01 17:12|www2|www_access|192.168.1.7 - - [...||2018-08-01 17:12|www2|www_access|172.68.47.151 - -...||2018-08-01 17:12|www2|www_access|192.168.1.7 - - [...||2018-08-01 17:12|www2|www_access|141.101.76.83 - -...||2018-08-01 17:14|www2|www_access|172.68.218.41 - -...||2018-08-01 17:14|www2|www_access|172.68.218.47 - -...||2018-08-01 17:14|www2|www_access|172.69.70.72 - - ...||2018-08-01 17:15|www2|www_access|172.68.63.24 - - ...||2018-08-01 17:18|www2|www_access|192.168.1.7 - - [...||2018-08-01 17:18|www2|www_access|141.101.99.138 - ...||2018-08-01 17:19|www2|www_access|192.168.1.7 - - [...||2018-08-01 17:19|www2|www_access|162.158.89.74 - -...||2018-08-01 17:19|www2|www_access|172.68.54.35 - - ...|+----------------+----+----------+--------------------+only showing top 20 rows

我们再次看到DataFrame中有四列与我们的模式匹配,DataFrame此处可以被视为数据库表或Excel电子表格。

3、Python SciKit-Learn

任何关于大数据的讨论都会引发关于机器学习的讨论,幸运的是,Python开发人员有很多选择来使用机器学习算法。

在没有详细介绍机器学习的情况下,我们需要获得一些执行机器学习的数据,我在本文中提供的示例数据不能正常工作,因为它不是数字类型的数据。我们需要操纵数据并将其呈现为数字格式,这超出了本文的范围,例如,我们可以按时间映射日志以获得具有两列的DataFrame:一分钟内的日志数和当前时间:

+------------------+---+| 2018-08-01 17:10 | 4 |+------------------+---+| 2018-08-01 17:11 | 1 |+------------------+---+

通过这种形式的数据,我们可以执行机器学习算法来预测未来可能获得的访客数量,SciKit-Learn附带了一些样本数据集,我们可以加载一些示例数据,来看一下具体如何运作。

In [1]: from sklearn import datasetsIn [2]: iris = datasets.load_iris()In [3]: digits = datasets.load_digits()In [4]: print(digits.data)[[ 0.  0.  5. ...  0.  0.  0.] [ 0.  0.  0. ... 10.  0.  0.] [ 0.  0.  0. ... 16.  9.  0.] ... [ 0.  0.  1. ...  6.  0.  0.] [ 0.  0.  2. ... 12.  0.  0.] [ 0.  0. 10. ... 12.  1.  0.]]

这将加载两个用于机器学习分类的算法,用于对数据进行分类。

读到这里,这篇“Python的三大开源数据分析工具是什么”文章已经介绍完毕,想要掌握这篇文章的知识点还需要大家自己动手实践使用过才能领会,如果想了解更多相关内容的文章,欢迎关注编程网行业资讯频道。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python的三大开源数据分析工具是什么

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python的三大开源数据分析工具是什么

本文小编为大家详细介绍“Python的三大开源数据分析工具是什么”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python的三大开源数据分析工具是什么”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。在大数据库领域
2023-06-02

Python数据分析需要解答的三大问题是什么

本篇文章给大家分享的是有关Python数据分析需要解答的三大问题是什么,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。Windows系统并没有自带Python工具,需要我们自己搭
2023-06-02

Cube.js:试试这个新的数据分析开源工具

数据分析是一个时髦的领域,有许多解决方案可供选择。其中之一是 Cube.js,这是一个开源的分析平台。你可以把 Cube.js 看作是你的数据源和应用之间的一个中间层。

大数据分析是什么、它是如何工作的

大数据分析描述了在大量原始数据中发现趋势、模式和相关性的过程,以帮助做出基于数据的决策。这些过程使用熟悉的统计分析技术,并在更新的工具的帮助下将它们应用于更广泛的数据集。

11个开源免费的数据分析与可视化工具

本文推荐一些优秀的开源数据分析与可视化工具,可以在从数据清洗到可视化等过程提高工作效率。

python数据分析指的是什么

这篇文章给大家分享的是有关python数据分析指的是什么的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。python有哪些常用库python常用的库:1.requesuts;2.scrapy;3.pillow;4.
2023-06-14

Linux开发的五大必备工具分别是什么

这篇文章跟大家分析一下“Linux开发的五大必备工具分别是什么”。内容详细易懂,对“Linux开发的五大必备工具分别是什么”感兴趣的朋友可以跟着小编的思路慢慢深入来阅读一下,希望阅读后能够对大家有所帮助。下面跟着小编一起深入学习“Linux
2023-06-28

SQL、Pandas和Spark:这个库,实现了三大数据分析工具的大一统

由于Spark是基于Scala语言实现的大数据组件,而Scala语言又是运行在JVM虚拟机上的,所以Spark自然依赖JDK,截止目前为止JDK8依然可用,而且几乎是安装各大数据组件时的首选。所以搭建pyspark环境首先需要安装JDK8,

python分析数据的方法是什么

Python是一种广泛使用的编程语言,可以通过多种方法来分析数据。以下是一些常见的方法:使用pandas库:pandas是一个数据处理库,可以方便地读取、处理和分析数据。你可以使用pandas来加载数据集、筛选数据、计算统计信息等。使用nu
python分析数据的方法是什么
2024-03-01

Python数据分析的方法是什么

本篇内容介绍了“Python数据分析的方法是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!01 指标拆解TGI计算公式中,有三个关键点需
2023-06-16

15个热门开源免费的数据挖掘、数据分析、数据质量管理工具

ERD Online 是全球第一个开源、免费在线数据建模、元数据AI平台。集成ChatGPT,提供简单易用的元数据设计、关系图设计、SQL审批查询等功能,辅以版本、导入、导出、数据源、SQL解析、审计、团队协作等功能,方便我们快速、安全的管

Python进行数据相关性分析的三种方式是什么

本文小编为大家详细介绍“Python进行数据相关性分析的三种方式是什么”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python进行数据相关性分析的三种方式是什么”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。相
2023-06-30

大数据分析的常见思路是什么

大数据分析的常见思路是什么,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。数据分析的常见思路,是具有指导意义的方法论,可以指导读者往哪些方向分析数据。但不限于数据分析,这些思路,
2023-06-19

让Linux成为理想的工作站的3个开源工具分别是什么

让Linux成为理想的工作站的3个开源工具分别是什么,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。Linux 不但拥有你认为所需的一切,还有更多可以让你高效工作
2023-06-15

来说说,什么才是真正的大数据分析

数据是如此重要,以至于历史上很长一段时间,统计任务归属于政府、军队、情报机关。我国的第一家调查公司还是在90年代初,在宝洁强烈要求下成立的。

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录