• 盘点一个Pandas数据清洗题目


    大家好,我是皮皮。

    一、前言

    前几天在Python白银交流群有个叫【冻豺】的粉丝问了一道Python清洗数据的问题,这里拿出来给大家分享下,一起学习下。

    如何才能把pandas serise里乱七八糟的字符清理干净呢?

    二、解决过程

    【dcpeng】解答

    这里给出了一个示例的代码,使用了applylambda和正则表达式,一气呵成,只需要稍微修改下,匹配自己的数据就可以了。

    df['主营业务']=df['主营业务'].astype('str').apply(lambda x: re.sub('[0-9+,,.。…、“”^_?::’‘''""()();;【】!!*?]+', '', x))

    不过这个是通用的,也会把数字干掉,如果想适配自己的数据,还需要稍微修改下。

    这样问题就完美解决了,另外的话,遇到特殊字符什么的,都可以优先使用re.sub或者replace()函数,事半功倍。

    三、总结

    大家好,我是皮皮。这篇文章主要分享了一个Pandas数据清洗题目,针对该问题给出了具体的解析和代码演示,一共两个方法,帮助粉丝顺利解决了问题。相信肯定还有其他方法的,欢迎大家积极尝试,如果有好方法,记得也分享给我噢,我帮助分享到群里,大家一起学习交流!

    最后感谢【冻豺】提问,感谢【dcpeng】和【月神】大佬给出的具体解析和代码演示,感谢【冯诚】等人参与学习交流。

    小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。

  • 相关阅读:
    Android 编辑框(EditText)属性学习
    读书笔记 -《高效程序猿的45个习惯-敏捷开发修炼之道》
    Launcher3实现壁纸居中
    Trie树的常见应用大总结(面试+附代码实现)
    LeetCode Summary Ranges
    abap选择屏幕上的button
    SQLite Expert表分离和解决SQLite Expert删除表后大小不变的问题
    git push 失败
    动态限制EdiText仅仅能输入特定字符
    DateTime类常用技巧摘录
  • 原文地址:https://www.cnblogs.com/dcpeng/p/16357019.html
Copyright © 2020-2023  润新知