• 从数据处理到人工智能


    从数据处理到人工智能的完整链条:

    数据表示->数据清洗->数据统计->数据可视化->数据挖掘->人工智能

    • 数据表示:采用合适方式用程序表达数据

    • 数据清洗:数据归一化、数据转换、异常值处理

    • 数据统计:数据的概要理解,数量、分布、中位数等

    • 数据可视化:直观展示数据内涵的方式

    • 数据挖掘:从数据分析获得知识,产生数据外的价值

    • 人工智能:数据/语言/图像/视觉等方面深度分析与决策

    从数据处理到人工智能有一大批的与Python相关的第三方生态库。下面将简要介绍:

    • Python库之数据分析
    • Python库之数据可视化
    • Python库之文本处理
    • Python库之机器学习

    Python库之数据分析

    Numpy: 表达N维数组的最基础库

    Python数据分析的最基本的库是Numpy,它用于表达N维数组,是众多数据分析库的基础。

    • Python接口使用,C语言实现,计算速度优异
    • Python数据分析及科学计算的基础库,支撑Pandas等
    • 提供直接的矩阵运算、广播函数、线性代数等功能

    例子:对两个一维属组进行运算,下面是使用基础语法和使用Numpy的对比:

    image-20210228150223568

    使用Numpy可以将N维数组看成简单的数据对象进行直接的操作和运算,这是Numpy的最大价值。

    Pandas: Python数据分析高层次应用库

    • 提供了简单易用的数据结构和数据分析工具
    • 理解数据类型与索引的关系,操作索引即操作数据
    • Python最主要的数据分析功能库,基于Numpy开发

    pandas车核心提供了两个数据结构,一个叫 Series ,一个叫DataFrame。

    series是通过索引来与一维数据进行关联,进而通过索引来阕作数据。

    DataFrame是使用行列的二维索引,来操作二维数据的方法。

    Series = 索引 + 一维数据

    DataFrame = 行列索引 + 二维数据

    Pandas库通过扩展了对一维数据和二维数据的一种表示,因而能够形成更高层风对数据的操作,简化数据分析的运行。

    SciPy: 数学、科学和工程计算功能库

    • 提供了一批数学算法及工程数据运算功能
    • 类似Matlab,可用于如傅里叶变换、信号处理等应用
    • Python最主要的科学计算功能库,基于Numpy开发

    image-20210228150959959


    Python库之数据可视化

    Matplotlib: 高质量的二维数据可视化功能库

    • 提供了超过100种数据可视化展示效果
    • 通过matplotlib.pyplot子库调用各可视化效果
    • Python最主要的数据可视化功能库,基于Numpy开发

    Seaborn: 统计类数据可视化功能库

    • 提供了一批高层次的统计类数据可视化展示效果
    • 主要展示数据间分布、分类和线性关系等内容
    • 基于Matplotlib开发,支持Numpy和Pandas

    Mayavi:三维科学数据可视化功能库

    • 提供了一批简单易用的3D科学计算数据可视化展示效果
    • 目前版本是Mayavi2,三维可视化最主要的第三方库
    • 支持Numpy、TVTK、Traits、Envisage等第三方库

    Mayavi:三维科学数据可视化功能库

    image-20210228151650378


    Python之文本处理

    PyPDF2:用来处理pdf文件的工具集

    • 提供了一批处理PDF文件的计算功能
    • 支持获取信息、分隔/整合文件、加密解密等
    • 完全Python语言实现,不需要额外依赖,功能稳定
    from PyPDF2 import PdfFileReader, PdfFileMerger
    merger = PdfFileMerger()
    input1 = open("document1.pdf", "rb")
    input2 = open("document2.pdf", "rb")
    merger.append(fileobj = input1, pages = (0,3))
    merger.merge(position = 2, fileobj = input2, pages = (0,1))
    output = open("document-output.pdf", "wb")
    merger.write(output)
    

    NLTK:自然语言文本处理第三方库

    • 提供了一批简单易用的自然语言文本处理功能
    • 支持语言文本分类、标记、语法句法、语义分析等
    • 最优秀的Python自然语言处理库
    from nltk.corpus import treebank
    t = treebank.parsed_sents('wsj_0001.mrg')[0]
    t.draw()
    

    Python-docx:创建或更新Microsoft Word文件的第三方库

    • 提供创建或更新.doc .docx等文件的计算功能
    • 增加并配置段落、图片、表格、文字等,功能全面
    from docx import Document
    document = Document()
    document.add_heading('Document Title', 0)
    p = document.add_paragraph('A plain paragraph having some ')
    document.add_page_break()
    document.save('demo.docx')
    

    Python库之机器学习

    Scikit-learn:机器学习方法工具集

    • 提供一批统一化的机器学习方法功能接口
    • 提供聚类、分类、回归、强化学习等计算功能
    • 机器学习最基本且最优秀的Python第三方库

    Scikit-learn:与数据处理相关的第三方库

    image-20210228152245217

    TensorFlow:AlphaGo背后的机器学习计算框架

    • 谷歌公司推动的开源机器学习框架
    • 将数据流图作为基础,图节点代表运算,边代表张量
    • 应用机器学习方法的一种方式,支撑谷歌人工智能应用
    import tensorflow as tf
    init = tf.global_variables_initializer()
    sess = tf.Session()
    sess.run(init)
    res = sess.run(result)
    print('result:', res)
    

    MXNet:基于神经网络的深度学习计算框架

    • 提供可扩展的神经网络及深度学习计算功能
    • 可用于自动驾驶、机器翻译、语音识别等众多领域
    • Python最重要的深度学习计算框架

    image-20210228152413857

  • 相关阅读:
    linux常用命令
    mysql 开发基础系列20 事务控制和锁定语句(上)
    sql server 性能调优之 资源等待 CXPACKET
    mysql 开发基础系列19 触发器
    mysql 开发基础系列18 存储过程和函数(下)
    mysql 开发基础系列17 存储过程和函数(上)
    sql server 性能调优之 资源等待PAGEIOLATCH
    mysql 开发基础系列16 视图
    mysql 开发基础系列15 索引的设计和使用
    sql server 性能调优之 当前用户请求分析 (1)
  • 原文地址:https://www.cnblogs.com/keepcode/p/14459736.html
Copyright © 2020-2023  润新知