我试图收集所有可用的文本信息(尽可能多)从网页乌兹别克语(为我的研究)。做这件事最好的方法是什么?
我找到了通用爬虫,但不确定是否容易提取特定的语言文本。
发布于 2022-11-05 12:08:00
有很多方法你可以做到这一点。例如,我最近创建了一个使用的爬虫,在这里我使用多种语言提取内容。我分析了包含本地: en-GB、en-US等的URL模式。
在这里输入图像描述每个URL都包含Local,所以如果您只想使用特定的语言,请确保检查本地语言,并创建一个只捕获所需链接的筛选器。
发布于 2022-11-17 12:23:52
我使用一个命令从公共爬行数据中提取了所有Telugu语言页面。
$ duckdb -c """
LOAD httpfs;
LOAD parquet;
SET s3_region='us-east-1';
SET s3_access_key_id='s3_secret_access_key';
SET s3_secret_access_key='s3_secret_access_key';
COPY (select * from PARQUET_SCAN('s3://commoncrawl/cc-index/table/cc-main/warc/crawl=CC-MAIN-2022-40/subset=warc/*.parquet') where content_languages ilike '%tel%') TO 'telugu.csv' (DELIMITER ',', HEADER TRUE);
"""公共爬行开始为索引文件提供语言注释。鸭数据库可以读取地板文件,远程文件,它也可以读取一系列的地板文件。
使用parquet和httpfs扩展,我们可以使用上面的命令同时读取整个公共爬行索引。
在运行该命令之前,请安装duckdb及其扩展。
$ brew install duckdb
$ duckdb -c 'INSTALL parquet;'
$ duckdb -c 'INSTALL httpfs;'我还写了一个详细的关于提取CC数据子集的博客文章。
https://stackoverflow.com/questions/55532752
复制相似问题