读取网页

在线刷题

检查 or 强化 Pandas 数据分析操作?👉在线体验「Pandas进阶修炼300题」

Note

本页面代码可以在线编辑、执行

常规读取

有时候我们需要网页上的表格数据,但又不想下载数据再读取,可以试试使用 pd.read_html 直接读取!

例如直接从百度百科 - 东京奥运会读取奖牌榜数据并查看前 5 名。

image.png

import pandas as pd

pd.read_html("https://baike.baidu.com/item/2020%E5%B9%B4%E4%B8%9C%E4%BA%AC%E5%A5%A5%E8%BF%90%E4%BC%9A/10188878?fromtitle=%E4%B8%9C%E4%BA%AC%E5%A5%A5%E8%BF%90%E4%BC%9A&fromid=3250130&fr=aladdin")[6].head(5)
排名 代表团 金牌 银牌 铜牌 总数
0 1 美国 39 41 33 113
1 2 中国 38 32 19 89 [152]
2 3 日本 27 14 17 58
3 4 英国 22 20 22 64 [152]
4 5 俄罗斯奥运队 20 28 23 71
On this page