文章/答案/技术大牛

发布

社区首页 >问答首页 >如何抓取特定语言的网页

问如何抓取特定语言的网页
EN

Stack Overflow用户

提问于 2019-04-05 09:54:44

回答 2查看 535关注 0票数 1

我试图收集所有可用的文本信息(尽可能多)从网页乌兹别克语(为我的研究)。做这件事最好的方法是什么？

我找到了通用爬虫，但不确定是否容易提取特定的语言文本。

web-crawler

common-crawl

回答 2

Stack Overflow用户

发布于 2022-11-05 12:08:00

有很多方法你可以做到这一点。例如，我最近创建了一个使用的爬虫，在这里我使用多种语言提取内容。我分析了包含本地: en-GB、en-US等的URL模式。

在这里输入图像描述每个URL都包含Local，所以如果您只想使用特定的语言，请确保检查本地语言，并创建一个只捕获所需链接的筛选器。

票数 0

Stack Overflow用户

发布于 2022-11-17 12:23:52

我使用一个命令从公共爬行数据中提取了所有Telugu语言页面。

$ duckdb -c """
    LOAD httpfs;
    LOAD parquet;

    SET s3_region='us-east-1';
    SET s3_access_key_id='s3_secret_access_key';
    SET s3_secret_access_key='s3_secret_access_key';

    COPY (select * from PARQUET_SCAN('s3://commoncrawl/cc-index/table/cc-main/warc/crawl=CC-MAIN-2022-40/subset=warc/*.parquet') where content_languages ilike '%tel%') TO 'telugu.csv' (DELIMITER ',', HEADER TRUE);
"""

公共爬行开始为索引文件提供语言注释。鸭数据库可以读取地板文件，远程文件，它也可以读取一系列的地板文件。

使用parquet和httpfs扩展，我们可以使用上面的命令同时读取整个公共爬行索引。

在运行该命令之前，请安装duckdb及其扩展。

$ brew install duckdb

$ duckdb -c 'INSTALL parquet;'
$ duckdb -c 'INSTALL httpfs;'

我还写了一个详细的关于提取CC数据子集的博客文章。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55532752

复制

相似问题

问如何抓取特定语言的网页
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何抓取特定语言的网页EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何抓取特定语言的网页
EN