在pandas中使用pipe()提升代码可读性

日期：2020-11-09 来源：Python大数据分析作者：itcg 浏览：332 我要评论

导读：1. 简介我们在利用pandas开展数据分析时，应尽量避免过于「碎片化」的组织代码，尤其是创建出过多不必要的「�

1. 简介

我们在利用pandas开展数据分析时，应尽量避免过于「碎片化」的组织代码，尤其是创建出过多不必要的「中间变量」，既浪费了「内存」，又带来了关于变量命名的麻烦，更不利于整体分析过程代码的可读性，因此以流水线方式组织代码非常有必要。

而在以前我撰写的一些文章中，为大家介绍过pandas中的eval()和query()这两个帮助我们链式书写代码，搭建数据分析工作流的实用API，再加上下面要介绍的pipe()，我们就可以将任意pandas代码完美组织成流水线形式。

2. 在pandas中灵活利用pipe()pipe()

顾名思义，就是专门用于对Series和Dataframe操作进行流水线(pipeline)改造的API，其作用是将嵌套的函数调用过程改造为「链式」过程，其第一个参数func传入作用于对应Series或Dataframe的函数。

具体来说pipe()有两种使用方式，「第一种方式」下，传入函数对应的第一个位置上的参数必须是目标Series或Dataframe，其他相关的参数使用常规的「键值对」方式传入即可，就像下面的例子一样，我们自编函数对「泰坦尼克数据集」进行一些基础的特征工程处理：

import pandas as pd train = pd.read_csv('train.csv') def do_something(data, dummy_columns): ''' 自编示例函数 ''' data = ( pd # 对指定列生成哑变量 .get_dummies(data, # 先删除data中指定列 columns=dummy_columns, drop_first=True) ) return data # 链式流水线 ( train # 将Pclass列转换为字符型以便之后的哑变量处理 .eval('PclassPclass=Pclass.astype("str")', engine='python') # 删除指定列 .drop(columns=['PassengerId', 'Name', 'Cabin', 'Ticket']) # 利用pipe以链式的方式调用自编函数 .pipe(do_something, dummy_columns=['Pclass', 'Sex', 'Embarked']) # 删除含有缺失值的行 .dropna() )

可以看到，在紧接着drop()下一步的pipe()中，我们将自编函数作为其第一个参数传入，从而将一系列操作巧妙地嵌入到链式过程中。

「第二种使用方式」适合目标Series和Dataframe不为传入函数第一个参数的情况，譬如下面的例子中我们假设目标输入数据为第二个参数data2，则pipe()的第一个参数应以(函数名, '参数名称')的格式传入：

def do_something(data1, data2, axis): ''' 自编示例函数 ''' data = ( pd .concat([data1, data2], axisaxis=axis) ) return data # pipe()第二种使用方式 ( train .pipe((do_something, 'data2'), data1=train, axis=0) )

在这样的设计下我们可以避免很多函数嵌套调用方式，随心所欲地优化我们的代码~

pandas 数据分析 pipe()

点赞 0反对 0举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

0 条相关评论

头条阅读

推荐图文

麒麟9006C：华为5纳米家族的新成员	中国大陆显示器线上市场：2023年11月销售火爆，创下新高
高通骁龙X Elite芯片挑战苹果M系列：硬件性能对决	百度AI新动态：文心一言插件商城正式上线，多功能一键触达

相关资讯

Processed in 0.184 second(s), 11 queries, Memory 1.49 M

• 用 Pandas 做 ETL，不要太快	• 用Pandas读取CSV，看这篇就够了
• 总结了Pandas实现数据清洗的7种方式	• 数据预处理的10个小技能，附Pandas实现