【Python数据分析】pandas

pandas

  • 一、pandas是什么?
      • 官网
      • 概述
  • 二、几个概念
    • 1.Series
    • 2.DataFrame(df)
      • 小结
  • df基本操作
  • 总结


一、pandas是什么?

pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

官网

	https://pandas.pydata.org/

概述

pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool【pandas就是一个数据分析的工具】
编程模型【数据类型】

  1. Series
  2. DataFrame

二、几个概念

1.Series

  1. Series is a one-dimensional labeled array
    【Series 就是一个 一维 标签数组】
  2. capable of holding any data type 【integers, strings, floating point numbers, Python objects, etc.).】
    【存各种数据类型】
  3. The axis labels are collectively referred to as the index
    标签 就是索引 【可以用索引 取Series元素】

2.DataFrame(df)

  1. DataFrame is a 2-dimensional labeled data structure with columns of potentially different types
    【DataFrame 就是一个 二维 标签数组,多个不同数据类型的列】
    【 index (row labels) and columns】
    【DataFrame就是一个table 有行有列】

  2. 如何创建df :
    Dict of 1D ndarrays, lists, dicts, or Series
    2-D numpy.ndarray
    Structured or record ndarray
    A Series
    Another DataFrame
    【df 可以由多种数据 转化而来】

  3. a dict of Series objects

    df =》 table =》 有行有列

    DataFrame = DataFrame【Series】

小结

  1. df 就是table
  2. Series 是一个table 就一个列 没有列名
  3. df = df [Series + 列名]

df基本操作

数据加载

处理的数据文件格式:csv、 json、 text
结构化数据:
- csv: 按逗号进行分割 =》 excel打开的
- json:(k,v)
- text:普通文本数据
切片:取值

  • filter :
    a=> b=> c

  • select
    ifnull(name,0) as name_etl
    from table
    where
    name is null
    is not null

id name age score

select
name,
sum(score) as score_all
from table
group by
name ;


总结

本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

你可能感兴趣的