Zaoqi's Blog -> Python数据分析教程 -> 图解Pandas ->
数据预览
数据预览¶
在线刷题
检查 or 强化 Pandas
数据分析操作?👉在线体验「Pandas进阶修炼300题」
Note
本页面代码可以在线编辑、执行!
本页数据说明¶
为了更好的介绍相关操作,本页面使用 豆瓣电影TOP250 数据进行展开,你应该对数据字段、数值、类型等相关信息做一个大致了解!
import pandas as pd
pd.set_option('display.max_colwidth',10)
df = pd.read_excel("TOP250.xlsx")
df.head()
片名 | 上映年份 | 评分 | 评价人数 | 导演 | 编剧 | 主演 | 类型 | 国家/地区 | 语言 | 时长(分钟) | |
---|---|---|---|---|---|---|---|---|---|---|---|
0 | 肖申克的救赎 | 1994 | 9.7 | 2317937.0 | 弗兰克·德拉邦特 | 弗兰克·德拉... | 蒂姆·罗宾斯... | 剧情 / 犯罪 | 美国 | 英语 | 142.0 |
1 | 霸王别姬 | 1993 | 9.6 | 1720638.0 | 陈凯歌 | 芦苇 / 李碧华 | 张国荣 / ... | 剧情 / 爱... | 中国 | 汉语普通话 | 171.0 |
2 | 阿甘正传 | 1994 | 9.5 | 1743966.0 | 罗伯特·泽米吉斯 | 艾瑞克·罗斯... | 汤姆·汉克斯... | 剧情 / 爱情 | 美国 | 英语 | 142.0 |
3 | 这个杀手不太冷 | 1994 | 9.4 | 1922740.0 | 吕克·贝松 | 吕克·贝松 | 让·雷诺 /... | 剧情 / 动... | 法国 | 英语 | 110.0 |
4 | 泰坦尼克号 | 1997 | 9.4 | 1706127.0 | 詹姆斯·卡梅隆 | 詹姆斯·卡梅隆 | 莱昂纳多·迪... | 剧情 / 爱... | 美国 | 英语 | 194.0 |
数据抽样¶
也就是随机查看一个样本,大致了解下数据
df.sample()
# df.sample(n) #抽n个样本
片名 | 上映年份 | 评分 | 评价人数 | 导演 | 编剧 | 主演 | 类型 | 国家/地区 | 语言 | 时长(分钟) | |
---|---|---|---|---|---|---|---|---|---|---|---|
201 | 雨人 | 1988 | 8.7 | 336484.0 | 巴瑞·莱文森 | 罗纳德·巴斯... | 达斯汀·霍夫... | 剧情 | 美国 | 英语 | 133.0 |
查看数据前 3 行¶
检查头尾数据,更详细的看一下数据
df.head(3)
# df.tail() # 查看后5行
片名 | 上映年份 | 评分 | 评价人数 | 导演 | 编剧 | 主演 | 类型 | 国家/地区 | 语言 | 时长(分钟) | |
---|---|---|---|---|---|---|---|---|---|---|---|
0 | 肖申克的救赎 | 1994 | 9.7 | 2317937.0 | 弗兰克·德拉邦特 | 弗兰克·德拉... | 蒂姆·罗宾斯... | 剧情 / 犯罪 | 美国 | 英语 | 142.0 |
1 | 霸王别姬 | 1993 | 9.6 | 1720638.0 | 陈凯歌 | 芦苇 / 李碧华 | 张国荣 / ... | 剧情 / 爱... | 中国 | 汉语普通话 | 171.0 |
2 | 阿甘正传 | 1994 | 9.5 | 1743966.0 | 罗伯特·泽米吉斯 | 艾瑞克·罗斯... | 汤姆·汉克斯... | 剧情 / 爱情 | 美国 | 英语 | 142.0 |
查看数据基本信息¶
看看数据类型,有无缺失值什么的
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 262 entries, 0 to 261
Data columns (total 11 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 片名 262 non-null object
1 上映年份 262 non-null int64
2 评分 257 non-null float64
3 评价人数 259 non-null float64
4 导演 262 non-null object
5 编剧 262 non-null object
6 主演 262 non-null object
7 类型 262 non-null object
8 国家/地区 256 non-null object
9 语言 256 non-null object
10 时长(分钟) 256 non-null float64
dtypes: float64(3), int64(1), object(7)
memory usage: 22.6+ KB
查看数值数据统计信息¶
查看 数值型 列的统计信息,计数、均值什么的
df.describe().round(2).T
count | mean | std | min | 25% | 50% | 75% | max | |
---|---|---|---|---|---|---|---|---|
上映年份 | 262.0 | 2000.60 | 15.57 | 1931.0 | 1995.00 | 2004.0 | 2011.0 | 2019.0 |
评分 | 257.0 | 8.91 | 0.26 | 8.4 | 8.70 | 8.9 | 9.1 | 9.7 |
评价人数 | 259.0 | 577631.72 | 367670.85 | 106462.0 | 335307.50 | 479949.0 | 693230.5 | 2317937.0 |
时长(分钟) | 256.0 | 121.83 | 28.08 | 45.0 | 101.75 | 118.0 | 136.0 | 237.0 |
查看离散数据统计信息¶
查看 离散型 列的统计信息,计数、频率什么
df.describe(include=['O'])
片名 | 导演 | 编剧 | 主演 | 类型 | 国家/地区 | 语言 | |
---|---|---|---|---|---|---|---|
count | 262 | 262 | 262 | 262 | 262 | 256 | 256 |
unique | 249 | 180 | 221 | 249 | 120 | 20 | 26 |
top | 无人知晓 | 宫崎骏 | 是枝裕和 | 柳乐优弥 /... | 剧情 | 美国 | 英语 |
freq | 5 | 8 | 7 | 5 | 24 | 111 | 72 |
On this page