腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(162)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
将
warc
.gz转换为.
warc
我尝试使用gzip解压一个
warc
.gz文件,结果出现了一个
WARC
,但它不能在中加载。谢谢!
浏览 43
提问于2021-03-14
得票数 0
1
回答
如何用lzma (*.
warc
.xz)在python3中压缩
warc
记录?
我有一份
warc
记录的清单。列表中的每一项都是这样创建的: "
WARC
-Type": "response",现在,我使用*.
warc
.gz来存储这样的记录: output_file =
warc
.open("my_file.
warc
浏览 7
提问于2017-01-14
得票数 1
回答已采纳
1
回答
关于
WARC
StormCrawler
WARC
文件中的条目类型
在爬虫从
WARC
1.8升级到1.14之后,我们注意到我们的StormCrawler条目的响应类型已经从"
WARC
- type : response“更改为"
WARC
-Type: resource”。对如何切换回"
WARC
-Type: response“有什么建议吗?
浏览 12
提问于2019-11-21
得票数 0
回答已采纳
2
回答
用python打开
warc
文件
我试图使用以下链接中的工具箱使用python打开一个
warc
文件:import
warc
一切都很好,f对象是:但是,当我试图使用以下方法读取文件中的所有内容时: print record>", line 1, in &l
浏览 11
修改于2014-09-11
得票数 6
回答已采纳
1
回答
根据报头将
WARC
文件分割成块:
WARC
/1.0 Python
我对编程很陌生,我正试图通过将
WARC
文件分割成块,然后将每个块存储在字典中来处理
WARC
文件。
WARC
/1.0
WARC
-Date: 2020-08-04T01:43:40ZContent-Le
浏览 7
修改于2020-10-06
得票数 2
1
回答
Python:如何拆分
WARC
文件?
我的目标是将CommonCrawl中的
WARC
文件拆分并排序为单独的记录。示例文件:
WARC
/1.0
WARC
-Date: 2020-08-04T01:43:40ZContent-Length: 500
浏览 78
提问于2020-10-22
得票数 1
2
回答
高效读取
WARC
文件
我正在使用python的“
WARC
”库读取
warc
文件。我正在使用的当前文件大约是4.50GB。问题是;html_lists = [line for line in file]用这个,我拆开文本,去掉我不需要的邮票
warc
_stamp = str(soup).split(r"\
浏览 1
修改于2018-08-13
得票数 0
2
回答
将
warc
(
Warc
)文件转换为XML文件的Java实用程序
writer.close(); // PageRepository iterates through the inStream and returns each
WARC
浏览 0
修改于2015-11-27
得票数 1
2
回答
使用python读取
warc
文件
我想读取一个
warc
文件,我基于写了下面的代码,但是没有打印出来!!>>import
warc
>>for record in f:然而,当我写下下面的命令时,我得到了结果<
war
浏览 142
修改于2017-05-23
得票数 1
1
回答
WARC
文件中的记录数
我目前正在解析来自CommonCrawl语料库的
WARC
文件,我想知道在不迭代所有
WARC
记录的情况下,有多少条记录。
WARC
1.1标准是否定义了这些信息?
浏览 42
提问于2021-01-23
得票数 0
回答已采纳
1
回答
哪个块代表
WARC
-块摘要?
在下面的第09行,有以下一行:
WARC
-Block-Digest: sha1:CLODKYDXCHPVOJMJWHJVT3EJJDKI2RTQLine 02:
WARC
-Type: requestLine 04: Content-Type: application
浏览 8
修改于2021-08-13
得票数 0
回答已采纳
1
回答
公共爬行请求返回403
WARC
我正在尝试从普通的爬行档案中抓取一些
WARC
文件,但我似乎没有将成功的请求传递给服务器。下面提供了一个最小的python示例来复制错误。我尝试在请求头中添加UserAgent,但它确实有帮助。debug(): common_crawl_data = {"filename":"crawl-data/CC-MAIN-2016-07/segments/1454702018134.95/
warc
/CC-MAIN-20160205195338-00121-ip-10-236-18
浏览 42
提问于2022-04-30
得票数 1
回答已采纳
1
回答
Hadoop进程
WARC
文件
我的项目目前正在处理的
WARC
文件是GZIPed。 使用当前InputFileFormat,文件将被发送到一个映射器,并且不会被拆分。我知道这是加密文件的正确行为。
浏览 5
提问于2016-10-30
得票数 1
2
回答
wget --
warc
-文件--递归的,防止写入单个文件
我运行wget来创建一个
warc
存档,如下所示:-rw-r--r-- 1 david wheel 657K Sep 2 15:18 /tmp/epfl.
warc
.gz .我只需要epfl.
warc
浏览 5
提问于2016-09-02
得票数 3
回答已采纳
1
回答
使用Logstash、ElasticSearch和Kibana处理
Warc
文件
我想知道如何使用
WARC
文件,并使用Kibana可视化它。
WARC
-Type: metadata
WARC
-Date: 2008-04-30T20:48:25Z
WARC
-Concurrent-To: <urn:uuid:e7c9eff8-f5bc-4aeb-b3d2-9
浏览 3
提问于2016-11-21
得票数 0
回答已采纳
1
回答
Python不能完全读取"
warc
.gz“文件。
对于我的工作,我刮刮网站,并将它们写到gzipped档案中(扩展名为"
warc
.gz")。我使用Python2.7.11和
Warc
0.2.1库。示例:import
warc
warc
_file =
warc
.open(
warc
_path) 这将创建完美的"<em
浏览 0
修改于2016-03-23
得票数 2
回答已采纳
1
回答
从
WARC
文件导入数据(WebArchive)
我正在处理一个不太正常的用例,其中数据存在于
WARC
文件中。和我想把数据导入到Neo4j中。我能想到的一种解决方案是解析
WARC
文件(一些要读取的java代码),然后将结构化数据写入CSV,这样就可以使用某个导入工具加载它。 提取到CSV是将数据加载到Neo4j的唯一选择吗?
浏览 0
提问于2017-07-03
得票数 0
1
回答
基于url从
WARC
文件中检索记录
我必须根据Target-URI从*.
warc
.gz文件中检索记录。文档指出,这需要创建外部CDXJ索引文件。编辑:我正在使用
warc
库,它们似乎没有在
warc
文件上提供直接的f.seek()。
浏览 1
修改于2018-03-20
得票数 2
回答已采纳
1
回答
从
WARC
.gz文件中提取标头
我有一个包含数据的web.
warc
.gz文件,我需要提取
WARC
头。我已经安装了Tomcat和Wayback (1.6),试图使用./
warc
header脚本来派生,这是由Wayback提供的,但我一直收到关于我使用的格式的错误消息:~/Desktop/output.csv typ
浏览 25
修改于2014-02-21
得票数 3
1
回答
导入
warc
时出错“没有模块名为'__builtin__'”
如何在python 3中使用
warc
包?已发生异常:没有名为的ModuleNotFoundError模块
浏览 7
提问于2021-03-25
得票数 1
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
点击加载更多
领券