数据分析之PandasVSSQL!
编辑:zone
按需开发可以根据自己的需求进行定制,成都网站设计、网站制作构思过程中功能建设理应排到主要部位公司成都网站设计、网站制作的运用实际效果公司网站制作网站建立与制做的实际意义
来源:数据管道
作者:艾德宝器
Abstract
Pandas是一个开源的Python数据分析库,结合 NumPy 和 Matplotlib 类库,可以在内存中进行高性能的数据清洗、转换、分析及可视化工作。
对于数据开发工程师或分析师而言,SQL 语言是标准的数据查询工具。本文提供了一系列的示例,说明如何使用pandas执行各种SQL操作。
Pandas简介
Pandas把结构化数据分为了三类:
Series,可以理解为一个一维的数组,只是index可以自己改动。
DataFrame,一个类似于表格的数据类型的2维结构化数据。
Panel,3维的结构化数据。
Dataframe实例:
data:image/s3,"s3://crabby-images/54adb/54adb0d6f279d30e3ea271046541992af7efc792" alt="数据分析之Pandas VS SQL!"
对于DataFrame,有一些固有属性:
data:image/s3,"s3://crabby-images/8a8b5/8a8b56b7bd8e62928574d54000d7c2f4f8072593" alt="数据分析之Pandas VS SQL!"
SQL VS Pandas
SELECT(数据选择)
在SQL中,选择是使用逗号分隔的列列表(或*来选择所有列):
data:image/s3,"s3://crabby-images/b2577/b25779bc93c9b6c0f5255c751320d632f3ae9608" alt="数据分析之Pandas VS SQL!"
在Pandas中,选择不但可根据列名称选取,还可以根据列所在的位置选取。相关语法如下:
loc,基于列label,可选取特定行(根据行index)
iloc,基于行/列的位置
ix,为loc与iloc的混合体,既支持label也支持position
at,根据指定行index及列label,快速定位DataFrame的元素;
iat,与at类似,不同的是根据position来定位的;
data:image/s3,"s3://crabby-images/e1b85/e1b85a25ff1dbe3be267e952c4d949c9c059c87e" alt="数据分析之Pandas VS SQL!"
data:image/s3,"s3://crabby-images/93251/9325127820698dbed3c3b92eb4026b91a6bfb804" alt="数据分析之Pandas VS SQL!"
data:image/s3,"s3://crabby-images/be231/be23171241a11959296acb315760327ac4c66f03" alt="数据分析之Pandas VS SQL!"
WHERE(数据过滤)
在SQL中,过滤是通过WHERE子句完成的:
data:image/s3,"s3://crabby-images/e1a94/e1a94bf1aad6458810e9d76ade452e3d00faddbc" alt="数据分析之Pandas VS SQL!"
在pandas中,Dataframe可以通过多种方式进行过滤,最直观的是使用布尔索引:
data:image/s3,"s3://crabby-images/b8080/b80801fea84c3d047712224c5fe651f6560aba17" alt="数据分析之Pandas VS SQL!"
在where子句中常常会搭配and, or, in, not关键词,Pandas中也有对应的实现:
SQL:
data:image/s3,"s3://crabby-images/bdc2c/bdc2cba86bcd944f39914e085aeba23951993570" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/a47a0/a47a0a49ba534a742f177391991da26df8a70928" alt="数据分析之Pandas VS SQL!"
在where字句中搭配NOT NULL可以获得某个列不为空的项,Pandas中也有对应的实现:
SQL:
data:image/s3,"s3://crabby-images/96cf2/96cf28d9af14548e1d70da090492c4a96a1b44fc" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/3332f/3332fde73dea6b81e81c220f3527d43b9fc8ab13" alt="数据分析之Pandas VS SQL!"
DISTINCT(数据去重)
SQL:
data:image/s3,"s3://crabby-images/baa2c/baa2ca4b63556a555f2ad3381f64d9561f222982" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/87096/870962d84c58f65c4ea2fb886ca430a16be810b1" alt="数据分析之Pandas VS SQL!"
宝器带你画重点:
subset,为选定的列做数据去重,默认为所有列;
keep,可选择{'first', 'last', False},保留重复元素中的第一个、最后一个,或全部删除;
inplace ,Pandas 中 inplace 参数在很多函数中都会有,它的作用是:是否在原对象基础上进行修改,默认为False,返回一个新的Dataframe;若为True,不创建新的对象,直接对原始对象进行修改。
GROUP BY(数据分组)
groupby()通常指的是这样一个过程:我们希望将数据集拆分为组,应用一些函数(通常是聚合),然后将这些组组合在一起:
data:image/s3,"s3://crabby-images/a6626/a6626cca9579da72640ebb344f83e724141c4acf" alt="数据分析之Pandas VS SQL!"
常见的SQL操作是获取数据集中每个组中的记录数。
data:image/s3,"s3://crabby-images/c6e7c/c6e7cef966fd6101c2cc36ff4de8b18ce53d7847" alt="数据分析之Pandas VS SQL!"
Pandas中对应的实现:
data:image/s3,"s3://crabby-images/150aa/150aadb67a3b3c172fd2e1597cacf8eee81a0872" alt="数据分析之Pandas VS SQL!"
注意,在Pandas中,我们使用size()而不是count()。这是因为count()将函数应用于每个列,返回每个列中的非空记录的数量。具体如下:
data:image/s3,"s3://crabby-images/71b66/71b66fb9a2a2f8b8579ae2079560bdb6a9f58d95" alt="数据分析之Pandas VS SQL!"
还可以同时应用多个函数。例如,假设我们想要查看每个星期中每天的小费金额有什么不同。
SQL:
data:image/s3,"s3://crabby-images/5a8ad/5a8ad0effa94eee516fab848cdb76db11cb7b25e" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/67be1/67be1cd4f3c32a783c57e5fea03baae4622c5236" alt="数据分析之Pandas VS SQL!"
更多关于Groupy和数据透视表内容请阅读:
这些祝福和干货比那几块钱的红包重要的多!
JOIN(数据合并)
可以使用join()或merge()执行连接。
默认情况下,join()将联接其索引上的DataFrames。
每个方法都有参数,允许指定要执行的连接类型(LEFT, RIGHT, INNER, FULL)或要连接的列(列名或索引)
data:image/s3,"s3://crabby-images/18238/1823893058a987d1859a09949ede8801119dd743" alt="数据分析之Pandas VS SQL!"
现在看一下不同的连接类型的SQL和Pandas实现:
INNER JOIN
SQL:
data:image/s3,"s3://crabby-images/35662/35662e12d85700333d339efadd51550e58bf3188" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/4fd86/4fd869ce51b24f2ed6ef1c7696df56e68adede58" alt="数据分析之Pandas VS SQL!"
LEFT OUTER JOIN
SQL:
data:image/s3,"s3://crabby-images/07ecd/07ecdef5b1e3335c629fb215960bbec55c56d11f" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/15309/153099aa8784dc1f9fae56752de9880d0fb92964" alt="数据分析之Pandas VS SQL!"
RIGHT JOIN
SQL:
data:image/s3,"s3://crabby-images/7a515/7a5153c3eb0efde8c5ee1dbe4bc0df09d7f7f618" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/e7b29/e7b295e4e3138afc1f7512e27e0a98202f03d605" alt="数据分析之Pandas VS SQL!"
FULL JOIN
SQL:
data:image/s3,"s3://crabby-images/54253/54253c1d598f3047470f7be384047c0d8bf1f3d5" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/4940f/4940fbff6a1d744d5ba7b864c207797323374cd1" alt="数据分析之Pandas VS SQL!"
ORDER(数据排序)
SQL:
data:image/s3,"s3://crabby-images/cc711/cc711163c792e3f1c0dbfe819e0f5f40edafbeaf" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/f3d8a/f3d8a2787ce724f2b93701abcbf3bad8b566a84f" alt="数据分析之Pandas VS SQL!"
UPDATE(数据更新)
SQL:
data:image/s3,"s3://crabby-images/e7180/e7180c872f97308cb9d9ca6ff81e7a39c68b4385" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/42270/42270c7935f5298e6f46a7915682742288e5c2fa" alt="数据分析之Pandas VS SQL!"
DELETE(数据删除)
SQL:
data:image/s3,"s3://crabby-images/2e194/2e1944fd777ff83abd4b47d8a9f2b633767207e2" alt="数据分析之Pandas VS SQL!"
Pandas:
data:image/s3,"s3://crabby-images/28ed5/28ed5cb950176cbc77e03514442104415cb19d6a" alt="数据分析之Pandas VS SQL!"
总结:
本文从Pandas里面基本数据结构Dataframe的固定属性开始介绍,对比了做数据分析过程中的一些常用SQL语句的Pandas实现。
参考:
http://m.v.qq.com/play/play.htmlcoverid=&vid=q0836f6kewx&ptag=4_6.7.0.22106_qq
本文名称:数据分析之PandasVSSQL!
文章来源:http://ybzwz.com/article/ghsphh.html