首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何抓取特定语言的网页

如何抓取特定语言的网页
EN

Stack Overflow用户
提问于 2019-04-05 09:54:44
回答 2查看 535关注 0票数 1

我试图收集所有可用的文本信息(尽可能多)从网页乌兹别克语(为我的研究)。做这件事最好的方法是什么?

我找到了通用爬虫,但不确定是否容易提取特定的语言文本。

EN

回答 2

Stack Overflow用户

发布于 2022-11-05 12:08:00

有很多方法你可以做到这一点。例如,我最近创建了一个使用的爬虫,在这里我使用多种语言提取内容。我分析了包含本地: en-GB、en-US等的URL模式。

在这里输入图像描述每个URL都包含Local,所以如果您只想使用特定的语言,请确保检查本地语言,并创建一个只捕获所需链接的筛选器。

票数 0
EN

Stack Overflow用户

发布于 2022-11-17 12:23:52

我使用一个命令从公共爬行数据中提取了所有Telugu语言页面。

代码语言:javascript
复制
$ duckdb -c """
    LOAD httpfs;
    LOAD parquet;

    SET s3_region='us-east-1';
    SET s3_access_key_id='s3_secret_access_key';
    SET s3_secret_access_key='s3_secret_access_key';

    COPY (select * from PARQUET_SCAN('s3://commoncrawl/cc-index/table/cc-main/warc/crawl=CC-MAIN-2022-40/subset=warc/*.parquet') where content_languages ilike '%tel%') TO 'telugu.csv' (DELIMITER ',', HEADER TRUE);
"""

公共爬行开始为索引文件提供语言注释。鸭数据库可以读取地板文件,远程文件,它也可以读取一系列的地板文件。

使用parquethttpfs扩展,我们可以使用上面的命令同时读取整个公共爬行索引。

在运行该命令之前,请安装duckdb及其扩展。

代码语言:javascript
复制
$ brew install duckdb

$ duckdb -c 'INSTALL parquet;'
$ duckdb -c 'INSTALL httpfs;'

我还写了一个详细的关于提取CC数据子集的博客文章

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55532752

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档