位置：首页-资讯-后端开发

对Python进行数据分析_关于Package的安装问题

2022-06-04 18:16

短信预约 -IT技能 免费直播动态提醒

一、为什么要使用Python进行数据分析？

python拥有一个巨大的活跃的科学计算社区，拥有不断改良的库，能够轻松的集成C,C++,Fortran代码（Cython项目），可以同时用于研究和原型的构建以及生产系统的构建。

二、Python的优势与劣势：

1.Python是一种解释型语言，运行速度比编译型数据慢。

2.由于python有一个全局解释器锁（GIL）,防止解释器同时执行多条python字节码，所以python不适用于高并发、多线程的应用程序。

三、使用Python进行数据分析常用的扩展包。

目前初始阶段的学习主要涉及4个包的安装：numpy、scipy、pandas、matplotlib

我笔记本里安装的是Python2.7版本，在安装了pip和setuptools工具，关于pip和setuptools工具的安装详见相关笔记。

最初使用的安装命令很简单：


pip install pandas
pip install numpy
pip install scipy
pip install matplotlib

但是只安装成功了numpy和matplotlib两个包，pandas和scipy安装失败，查阅了相关资料发现可能是版本问题或者包的依赖相关。

最终在stack overflow发现了一个很棒的Python包提供网址：http://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy

--这里要Mark一下，后边争取写一个爬虫，搞下来所有的包防止丢失。

以上网址是加州大学欧文分校提供的Python相关库的下载地址，修改#后边的名字可以进去其他包的下载页面，此页面中提供了安装某个包需要依赖的前置包的说明，非常友好。

依赖包说明类似：


Pandas, a cross-section and time series data analysis toolkit.
Requires numpy, dateutil, pytz, setuptools, and optionally numexpr, bottleneck, scipy, matplotlib, pytables, lxml, xarray, blosc, backports.lzma, statsmodels, sqlalchemy and other dependencies.

然后就是一堆的pandas下载地址。

最终根据各个包的相关性先安装了numpy+mkl的whl文件，然后是安装scipy最后是pandas。

安装的方法如下：

1.下载对应的4个包放在D:目录下（很奇怪我笔记本是AMD64位的但是安装amd64版本的包报不支持的platform的错误，安装了32位的可以正常import）

2.cmd命令行进入D:目录执行：pip install <包的全名>进行安装。（如果已安装了其他错误的版本，使用pip uninstall卸载）

最后使用如下类似命令查看包的安装位置：

查看图片