我的编程空间,编程开发者的网络收藏夹
学习永远不晚

简单且有用的Python数据分析和机器学习代码

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

简单且有用的Python数据分析和机器学习代码

为什么选择Python进行数据分析?

Python是一门动态的、面向对象的脚本语言,同时也是一门简约,通俗易懂的编程语言。Python入门简单,代码可读性强,一段好的Python代码,阅读起来像是在读一篇外语文章。Python这种特性称为“伪代码”,它可以使你只关心完成什么样的工作任务,而不是纠结于Python的语法。

另外,Python是开源的,它拥有非常多优秀的库,可以用于数据分析及其他领域。更重要的是,Python与最受欢迎的开源大数据平台Hadoop具有很好的兼容性。因此,学习Python对于有志于向大数据分析岗位发展的数据分析师来说,是一件非常节省学习成本的事。

Python的众多优点让它成为最受欢迎的程序设计语言之一,国内外许多公司也已经在使用Python,例YouTube,Google,阿里云等等。

简单且有用的Python数据分析和机器学习代码

经过这个月的python数据分析和机器学习,总结了一些经验,同时也收获了一些大佬的优秀博客,感兴趣的可以观看我的收藏夹,废话不多说,直接进入正题。

数据分析大致分为数据处理,模型建立,模型测试这3部,这篇文章主要是讲解对数据进行处理

为了对数据进行分析,首先要了解学习python的熊猫库pandas,下面是一些基础简单的操作方法,python调用方法如下


import pandas as pd

python通过pandas读取csv文件的方法


df= pd.read_csv("xxx.csv")
#输出文件内容前五列
print(df.head())
#输出csv所有内容
print(df)

查看csv某列数据的方法


pandas.read_csv(‘file_name.csv', usecols = [0,1,2,3]) 
#简单方法
df["属性列名称"]

pandas删除csv数据某些列的方法


droplabels= ['x_cat4','x_cat5','x_cat8','x_cat9']
data=df.drop(droplabels,axis=1)

pandas对NAN数据清洗的方法


#将表格中含有nan数值的列进行删除,返回非空数据和索引值的Series
df.dropna()
'''
dropna(axis=0,how='any',thresh=None),how参数可选的值为any或者all.all仅在切片元素全为NA时才抛弃该行(列)。thresh为整数类型,eg:thresh=3,那么一行当中至少有三个NA值时才将其保留。
'''
data.fillna(0)                      #将nan替换为0
print(data.fillna(data.mean()))     ### 用每列特征的均值填充缺失数据
print(data.fillna(data.median()))    ### 用每列特征的中位数填充缺失数据
print(data.fillna(method='bfill'))   ### 用相邻后面(back)特征填充前面空值
print(data.fillna(method='pad'))     ### 用相邻前面特征填充后面空值
#参考博客:https://blog.csdn.net/qq_21840201/article/details/81008566

pandas对csv文件数据的更改的方法


#更改某列属性数值和类型
df = df[df['涨跌幅']!='None']
df['涨跌幅'] = df['涨跌幅'].astype(np.float64)
df = pd.DataFrame(a, dtype='float') #数据类型转化
#参考链接:http://www.45fan.com/article.php?aid=19070771581800099094144284
#对数据全部遍历读取并更改,参考如下
for i in df.index:
    df["id1"][i]=1

pandas的iloc的使用方法和作用


X = df.iloc[:, data.columns != 'label']  # 取出不包括 label其他的列

df.iloc[:3, :2]           #使用.iloc ,我们只选择了.iloc的前3行和2列

计算某列元素数量的方法


sum= len(data[data.label == 'BENIGN']) #计算BENIGN的数量
len(df)       

pandas对文件进行保存的方法


#df为要保存的数据,xxx.csv为保存的文件
df.to_csv('xxx.csv', index=False, sep=',')

以上是pandas对数据进行处理的简单功能,其中含有一些参考学习的博客,感兴趣的同学可以观看学习。有了这些基础知识,我们才能对数据集进行处理,接下来就是如何使用的问题了,下面讲解简单的套路。

1.首先观察数据,通过代码检测每一列的数据类型再进行考察,检测是否存在NAN值,可以删除该列,也可根据情况进行数值的变动。

2.数据集中可能存在部分列属性为time属性,一般不要直接将该列删除,可通过将其转化为浮点类型

3.字符串类型向数值类型的转换,部分字符串需要进行转换,这个就视情况而定了。

总结

到此这篇关于Python数据分析和机器学习代码的文章就介绍到这了,更多相关Python数据分析代码内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

简单且有用的Python数据分析和机器学习代码

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python数据分析和机器学习如何学

今天就跟大家聊聊有关人工智能浪潮前,Python数据分析和机器学习如何学?,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。如同互联网发展的浪潮,AI正在创造一个全新的世界。面对AI发展
2023-06-02

PHP 函数机器学习和数据分析中的应用

php 中应用于机器学习和数据分析的关键函数包括:统计函数:统计数据,如总和、乘积和计数。数据处理函数:变换和筛选数据,如映射、筛选和归约。机器学习函数:加载 xml 文档、与外部脚本交互和转换数据格式。数据可视化函数:创建和操作图像,用于
PHP 函数机器学习和数据分析中的应用
2024-04-12

Pandas在数据分析和机器学习中的应用及优势

Pandas是Python中用于数据处理和数据分析的库,它提供了灵活的数据结构和数据操作工具,包括Series和DataFrame等。Pandas还支持大量数据操作和数据分析功能,包括数据清洗、转换、筛选、聚合、透视表、时间序列分析等
2023-05-18

Python CPython 在机器学习和数据科学中的应用

Python CPython在机器学习和数据科学领域中脱颖而出,因为它提供了广泛的库、工具和社区支持,使其成为这些应用领域的理想选择。本文将探讨CPython在这些领域的关键应用及其使用方法。
Python CPython 在机器学习和数据科学中的应用
2024-03-04

python机器学习算法与数据降维的示例分析

这篇文章主要介绍python机器学习算法与数据降维的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一、数据降维机器学习中的维度就是特征的数量,降维即减少特征数量。降维方式有:特征选择、主成分分析。1.特征选择
2023-06-25

租用阿里云GPU服务器的公司实现高效的数据分析和机器学习

随着大数据和人工智能的不断发展,GPU服务器的需求日益增长。作为中国最大的云服务提供商,阿里云的GPU服务器已经成为许多公司进行高效数据分析和机器学习的首选。本文将详细介绍租用阿里云GPU服务器的公司及其优势。阿里云GPU服务器:实现高效的数据分析和机器学习阿里云是全球领先的云计算服务提供商,以其稳定、安全、可靠
租用阿里云GPU服务器的公司实现高效的数据分析和机器学习
2023-10-30

用Python代码实现5种最好的、简单的数据可视化分别是怎样的

这篇文章给大家介绍用Python代码实现5种最好的、简单的数据可视化分别是怎样的,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。数据可视化是数据科学家工作的重要组成部分。在项目的早期阶段,您通常会进行探索性数据分析(ED
2023-06-02

服务器日志管理的未来:展望数据分析和机器学习在网站优化中的应用

:随着数据量的不断增长和机器学习的快速发展,服务器日志管理正在发生深刻的变化。本文将对服务器日志管理的未来进行展望,探讨数据分析和机器学习在网站优化中的应用前景。
服务器日志管理的未来:展望数据分析和机器学习在网站优化中的应用
2024-02-04

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录