查看原文
其他

pandas 1.0最新版本特性抢先看

大邓 大邓和他的Python 2022-07-09

pandas1.0最新版本特性抢先看

  1. !pip3 install pandas==1.0.0rc0

  1. Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple

  2. Requirement already satisfied: pandas==1.0.0rc0 in /usr/local/lib/python3.7/site-packages (1.0.0rc0)

  3. Requirement already satisfied: python-dateutil>=2.6.1 in /usr/local/lib/python3.7/site-packages (from pandas==1.0.0rc0) (2.8.0)

  4. Requirement already satisfied: numpy>=1.13.3 in /usr/local/lib/python3.7/site-packages (from pandas==1.0.0rc0) (1.17.3)

  5. Requirement already satisfied: pytz>=2017.2 in /usr/local/lib/python3.7/site-packages (from pandas==1.0.0rc0) (2019.3)

  6. Requirement already satisfied: six>=1.5 in /usr/local/lib/python3.7/site-packages (from python-dateutil>=2.6.1->pandas==1.0.0rc0) (1.12.0)

  1. import pandas as pd

  2. pd.__version__

  1. '1.0.0rc0'

df.info()

dataframe最新的df.info()可以提供更加详尽的信息

  1. import pandas as pd


  2. df = pd.DataFrame({

  3. 'A': [1,2,3],

  4. 'B': ["goodbye", "cruel","world"],

  5. 'C': [False, True, False]})

  6. df.info()

  1. <class 'pandas.core.frame.DataFrame'>

  2. RangeIndex: 3 entries, 0 to 2

  3. Data columns (total 3 columns):

  4. # Column Non-Null Count Dtype

  5. --- ------ -------------- -----

  6. 0 A 3 non-null int64

  7. 1 B 3 non-null object

  8. 2 C 3 non-null bool

  9. dtypes: bool(1), int64(1), object(1)

  10. memory usage: 179.0+ bytes

df.to_markdown()

可以输出markdown表格,这个是我最喜欢的特性。因为公众号不支持pandas的输出结果,每次我都是截图粘贴。

  1. print(df.to_markdown())

  1. | | A | B | C |

  2. |---:|----:|:--------|:------|

  3. | 0 | 1 | goodbye | False |

  4. | 1 | 2 | cruel | True |

  5. | 2 | 3 | world | False |

新增bool和stirng两种数据类型

dataframe之前只支持object、int和float,其中object就是python对象。新版本新增bool(布尔型)和string(字符串)。

目前这个改变是试验性质,所以使用该api接口要注意。但pandas建议使用类型声明,未来pandas会改善这部分,可能增加更强大的正则匹配功能。

默认,pandas还会使用之前的object,除非你对字段数据类型声明为string或者bool。

  1. import pandas as pd


  2. B = pd.Series(["goodbye", "cruel", "world"], dtype="string")

  3. C = pd.Series([False, True, False], dtype="bool")

  4. df = pd.DataFrame({'B':B, 'C':C})

  5. df.info()

  1. <class 'pandas.core.frame.DataFrame'>

  2. RangeIndex: 3 entries, 0 to 2

  3. Data columns (total 2 columns):

  4. # Column Non-Null Count Dtype

  5. --- ------ -------------- -----

  6. 0 B 3 non-null string

  7. 1 C 3 non-null bool

  8. dtypes: bool(1), string(1)

  9. memory usage: 155.0 bytes

选择指定数据类型的字段

pandas的1.0更新,最有用的特性就是筛选指定数据类型的字段

  1. df.select_dtypes("string")


近期文章





精选课程 | Python数据分析实战(学术)

Modin:一行代码让pandas加速数十倍

2020年B站跨年晚会弹幕内容分析

综述:文本分析在市场营销研究中的应用

Lazy Prices公司年报内容变动碰上股价偷懒

使用pandas做数据可视化

用statsmodels库做计量分析

YelpDaset: 酒店管理类数据集10+G

NRC词语情绪词典和词语色彩词典

Loughran&McDonald金融文本情感分析库

股评师分析报告文本情感分析预测股价

使用分析师报告中含有的情感信息预测上市公司股价变动

【公开视频课】Python语法快速入门

【公开视频课】Python爬虫快速入门

一行pandas代码生成哑变量

使用Python读取图片中的文本数据

代码不到40行的超燃动态排序图


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存