数据预览

在线刷题

检查 or 强化 Pandas 数据分析操作?👉在线体验「Pandas进阶修炼300题」

Note

本页面代码可以在线编辑、执行

本页数据说明

为了更好的介绍相关操作,本页面使用 豆瓣电影TOP250 数据进行展开,你应该对数据字段、数值、类型等相关信息做一个大致了解!

import pandas as pd
pd.set_option('display.max_colwidth',10)
df = pd.read_excel("TOP250.xlsx")
df.head()
片名 上映年份 评分 评价人数 导演 编剧 主演 类型 国家/地区 语言 时长(分钟)
0 肖申克的救赎 1994 9.7 2317937.0 弗兰克·德拉邦特 弗兰克·德拉... 蒂姆·罗宾斯... 剧情 / 犯罪 美国 英语 142.0
1 霸王别姬 1993 9.6 1720638.0 陈凯歌 芦苇 / 李碧华 张国荣 / ... 剧情 / 爱... 中国 汉语普通话 171.0
2 阿甘正传 1994 9.5 1743966.0 罗伯特·泽米吉斯 艾瑞克·罗斯... 汤姆·汉克斯... 剧情 / 爱情 美国 英语 142.0
3 这个杀手不太冷 1994 9.4 1922740.0 吕克·贝松 吕克·贝松 让·雷诺 /... 剧情 / 动... 法国 英语 110.0
4 泰坦尼克号 1997 9.4 1706127.0 詹姆斯·卡梅隆 詹姆斯·卡梅隆 莱昂纳多·迪... 剧情 / 爱... 美国 英语 194.0

数据维度

先看看数据多少行,多少列,对接下来的处理量心里有个数

df.shape
(262, 11)

数据抽样

也就是随机查看一个样本,大致了解下数据

df.sample()

# df.sample(n) #抽n个样本
片名 上映年份 评分 评价人数 导演 编剧 主演 类型 国家/地区 语言 时长(分钟)
201 雨人 1988 8.7 336484.0 巴瑞·莱文森 罗纳德·巴斯... 达斯汀·霍夫... 剧情 美国 英语 133.0

查看数据前 3 行

检查头尾数据,更详细的看一下数据

df.head(3)
# df.tail() # 查看后5行
片名 上映年份 评分 评价人数 导演 编剧 主演 类型 国家/地区 语言 时长(分钟)
0 肖申克的救赎 1994 9.7 2317937.0 弗兰克·德拉邦特 弗兰克·德拉... 蒂姆·罗宾斯... 剧情 / 犯罪 美国 英语 142.0
1 霸王别姬 1993 9.6 1720638.0 陈凯歌 芦苇 / 李碧华 张国荣 / ... 剧情 / 爱... 中国 汉语普通话 171.0
2 阿甘正传 1994 9.5 1743966.0 罗伯特·泽米吉斯 艾瑞克·罗斯... 汤姆·汉克斯... 剧情 / 爱情 美国 英语 142.0

查看数据基本信息

看看数据类型,有无缺失值什么的

df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 262 entries, 0 to 261
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   片名      262 non-null    object 
 1   上映年份    262 non-null    int64  
 2   评分      257 non-null    float64
 3   评价人数    259 non-null    float64
 4   导演      262 non-null    object 
 5   编剧      262 non-null    object 
 6   主演      262 non-null    object 
 7   类型      262 non-null    object 
 8   国家/地区   256 non-null    object 
 9   语言      256 non-null    object 
 10  时长(分钟)  256 non-null    float64
dtypes: float64(3), int64(1), object(7)
memory usage: 22.6+ KB

查看数值数据统计信息

查看 数值型 列的统计信息,计数、均值什么的

df.describe().round(2).T
count mean std min 25% 50% 75% max
上映年份 262.0 2000.60 15.57 1931.0 1995.00 2004.0 2011.0 2019.0
评分 257.0 8.91 0.26 8.4 8.70 8.9 9.1 9.7
评价人数 259.0 577631.72 367670.85 106462.0 335307.50 479949.0 693230.5 2317937.0
时长(分钟) 256.0 121.83 28.08 45.0 101.75 118.0 136.0 237.0

查看离散数据统计信息

查看 离散型 列的统计信息,计数、频率什么

df.describe(include=['O'])
片名 导演 编剧 主演 类型 国家/地区 语言
count 262 262 262 262 262 256 256
unique 249 180 221 249 120 20 26
top 无人知晓 宫崎骏 是枝裕和 柳乐优弥 /... 剧情 美国 英语
freq 5 8 7 5 24 111 72