文章/答案/技术大牛

发布

社区首页 >问答首页 >pd.read_html导入长字符串而不是表

问pd.read_html导入长字符串而不是表
EN

Stack Overflow用户

提问于 2019-12-06 03:42:24

回答 1查看 50关注 0票数 0

我使用pd.read_html来尝试导入一个表，但在运行它时得到的却是一个很长的字符串。有没有一种简单的方法可以改变结果的格式，使其每行得到一个单词而不是一个长字符串，或者我应该使用pd.read_html以外的函数？谢谢!

下面是我的代码：

import requests
import pandas as pd
url ='http://www.linfo.org/acronym_list.html'
dfs = pd.read_html(url, header =0)
df = pd.concat(dfs)
df

我也使用了这个，并得到了相同的结果：

import pandas as pd
url ='http://www.linfo.org/acronym_list.html'
data = pd.read_html(url, header=0)
data[0]

Out1

ABCDEFGHIJKLMNOPQRSTUVWXYZ A AMD Advanced Micro Devices API应用编程接口ARP地址解析协议ARPANET高级研究计划局网络AS自治系统ASCII美国标准信息交换代码AT&T美国电话电报公司ATA高级技术附件ATM异步传输模式B字节BELUG Bellevue Linux用户组BGP边界网关协议...

python

pandas

dataframe

import

回答 1

Stack Overflow用户

发布于 2019-12-06 04:43:01

问题是该表是如何在此站点中创建的。

根据https://www.w3schools.com/html/html_tables.asp的说法，HTML表是用< table >标签定义的。每个表行都是用< tr >标记定义的。表头是用< th >标记定义的。默认情况下，表格标题以粗体和居中显示。表数据/单元格是用< td >标记定义的。

如果您按CTRL+SHIFT+I，您可以检查您的站点的html元素，您将看到此站点不遵循此标准。这就是为什么您不能使用pandas.read_html获得正确的数据帧。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59202250

复制

相似问题

问pd.read_html导入长字符串而不是表
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问pd.read_html导入长字符串而不是表EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问pd.read_html导入长字符串而不是表
EN