重复值检查与处理

在线刷题

检查 or 强化 Pandas 数据分析操作?👉在线体验「Pandas进阶修炼300题」

Note

本页面代码可以在线编辑、执行

本页数据说明

为了更好的介绍相关操作,本页面使用 豆瓣电影TOP250 数据进行展开,你应该对数据字段、数值、类型等相关信息做一个大致了解!

import pandas as pd
pd.set_option('display.max_colwidth',10)
df = pd.read_excel("TOP250.xlsx")
df.head()
片名 上映年份 评分 评价人数 导演 编剧 主演 类型 国家/地区 语言 时长(分钟)
0 肖申克的救赎 1994 9.7 2317937.0 弗兰克·德拉邦特 弗兰克·德拉... 蒂姆·罗宾斯... 剧情 / 犯罪 美国 英语 142.0
1 霸王别姬 1993 9.6 1720638.0 陈凯歌 芦苇 / 李碧华 张国荣 / ... 剧情 / 爱... 中国 汉语普通话 171.0
2 阿甘正传 1994 9.5 1743966.0 罗伯特·泽米吉斯 艾瑞克·罗斯... 汤姆·汉克斯... 剧情 / 爱情 美国 英语 142.0
3 这个杀手不太冷 1994 9.4 1922740.0 吕克·贝松 吕克·贝松 让·雷诺 /... 剧情 / 动... 法国 英语 110.0
4 泰坦尼克号 1997 9.4 1706127.0 詹姆斯·卡梅隆 詹姆斯·卡梅隆 莱昂纳多·迪... 剧情 / 爱... 美国 英语 194.0

查找全部重复值

将全部缺失值所在的行筛选出来

df[df.duplicated()]
片名 上映年份 评分 评价人数 导演 编剧 主演 类型 国家/地区 语言 时长(分钟)
111 无人知晓 2004 9.1 233881.0 是枝裕和 是枝裕和 柳乐优弥 /... 剧情 日本 日语 141.0
112 无人知晓 2004 9.1 233881.0 是枝裕和 是枝裕和 柳乐优弥 /... 剧情 日本 日语 141.0
117 重庆森林 1994 8.8 639120.0 王家卫 王家卫 林青霞 / ... 剧情 / 爱情 中国 粤语 102.0
119 超脱 2011 8.9 392204.0 托尼·凯耶 卡尔·隆德 艾德里安·布... 剧情 美国 英语 97.0
127 菊次郎的夏天 1999 8.8 457770.0 北野武 北野武 北野武 / ... 剧情 / 喜剧 日本 日语 121.0
128 人生果实 2017 9.5 132229.0 伏原健之 津端修一 /... 纪录片 life-i... 日本 日语 91.0
129 侧耳倾听 1995 8.9 371774.0 近藤喜文 宫崎骏 / 柊葵 本名阳子 /... 剧情 / 爱... 日本 日语 111.0
130 无人知晓 2004 9.1 233881.0 是枝裕和 是枝裕和 柳乐优弥 /... 剧情 日本 日语 141.0
131 超能陆战队 2014 8.7 810643.0 唐·霍尔 /... 乔丹·罗伯茨... 斯科特·安第... 喜剧 / 动... 美国 英语 102.0
132 倩女幽魂 1987 8.7 591835.0 程小东 阮继志 张国荣 / ... 爱情 / 奇... 中国 粤语 98.0

查找指定列重复值

上面是所有列完全重复的情况,但有时我们只需要根据某列查找缺失值

-> 查找 片名 列全部缺失值

df[df.duplicated(['片名'])]
片名 上映年份 评分 评价人数 导演 编剧 主演 类型 国家/地区 语言 时长(分钟)
111 无人知晓 2004 9.1 233881.0 是枝裕和 是枝裕和 柳乐优弥 /... 剧情 日本 日语 141.0
112 无人知晓 2004 9.1 233881.0 是枝裕和 是枝裕和 柳乐优弥 /... 剧情 日本 日语 141.0
113 无人知晓 2004 9.1 233881.0 是枝裕和 是枝裕和 柳乐优弥 /... 剧情 日本 日语 NaN
117 重庆森林 1994 8.8 639120.0 王家卫 王家卫 林青霞 / ... 剧情 / 爱情 中国 粤语 102.0
119 超脱 2011 8.9 392204.0 托尼·凯耶 卡尔·隆德 艾德里安·布... 剧情 美国 英语 97.0
122 小森林 2015 9.0 306686.0 森淳一 森淳一 / ... 桥本爱 / ... 剧情 日本 日语 120.0
127 菊次郎的夏天 1999 8.8 457770.0 北野武 北野武 北野武 / ... 剧情 / 喜剧 日本 日语 121.0
128 人生果实 2017 9.5 132229.0 伏原健之 津端修一 /... 纪录片 life-i... 日本 日语 91.0
129 侧耳倾听 1995 8.9 371774.0 近藤喜文 宫崎骏 / 柊葵 本名阳子 /... 剧情 / 爱... 日本 日语 111.0
130 无人知晓 2004 9.1 233881.0 是枝裕和 是枝裕和 柳乐优弥 /... 剧情 日本 日语 141.0
131 超能陆战队 2014 8.7 810643.0 唐·霍尔 /... 乔丹·罗伯茨... 斯科特·安第... 喜剧 / 动... 美国 英语 102.0
132 倩女幽魂 1987 8.7 591835.0 程小东 阮继志 张国荣 / ... 爱情 / 奇... 中国 粤语 98.0
133 甜蜜蜜 1996 NaN 420172.0 陈可辛 岸西 黎明 / 张... 剧情 / 爱情 中国 粤语 118.0

删除全部重复值

删除全部的重复值

df = df.drop_duplicates()

保留重复值

删除全部的重复值,但保留最后一次出现的值

df = df.drop_duplicates(keep = 'last')