Zaoqi's Blog -> Python数据分析教程 -> 图解Pandas ->
读取网页
读取网页¶
在线刷题
检查 or 强化 Pandas
数据分析操作?👉在线体验「Pandas进阶修炼300题」
Note
本页面代码可以在线编辑、执行!
常规读取¶
有时候我们需要网页上的表格数据,但又不想下载数据再读取,可以试试使用 pd.read_html
直接读取!
例如直接从百度百科 - 东京奥运会读取奖牌榜数据并查看前 5 名。
import pandas as pd
pd.read_html("https://baike.baidu.com/item/2020%E5%B9%B4%E4%B8%9C%E4%BA%AC%E5%A5%A5%E8%BF%90%E4%BC%9A/10188878?fromtitle=%E4%B8%9C%E4%BA%AC%E5%A5%A5%E8%BF%90%E4%BC%9A&fromid=3250130&fr=aladdin")[6].head(5)
排名 | 代表团 | 金牌 | 银牌 | 铜牌 | 总数 | |
---|---|---|---|---|---|---|
0 | 1 | 美国 | 39 | 41 | 33 | 113 |
1 | 2 | 中国 | 38 | 32 | 19 | 89 [152] |
2 | 3 | 日本 | 27 | 14 | 17 | 58 |
3 | 4 | 英国 | 22 | 20 | 22 | 64 [152] |
4 | 5 | 俄罗斯奥运队 | 20 | 28 | 23 | 71 |
什么类型的表格可以直接读取?
目标网站使用 table
渲染的表格可以直接读取
On this page