我尝试从网页中获取文本内容。例如Google.com
我在控制台上写道:
$ ('#SIvCob').innerText并获取:
"Google offered in: русский"这就是我所发现的文本。现在我想把它保存到文件(.txt)。
两个时刻:我搜索的项目不是只有一个,实际上是7-10。而且,每秒都有一个刷新!我去写一个循环。
我知道copy()函数,也知道在控制台上单击鼠标右键和“另存为”,但我需要一个代码,它会自动执行此操作。
提前谢谢。
发布于 2018-10-08 06:09:28
浏览器没有可写入文件系统的API,因为这会带来安全风险。但是您可以使用Nodejs和它们的File System API来编写文本文件。
您还需要使用HTTP API来获取web内容。你还需要解析你的超文本标记语言,你可以用fast-html-parser或者你选择的任何其他模块来做。(high5,htmlparser,htmlparser2,htmlparser2-dom,hubbub,libxmljs,ms/file,parse5,...)
var http = require('http');
var fs = require('fs');
var parser = require('node-html-parser');
var options = {
host: 'www.google.com',
port: 80,
path: '/index.html'
};
var file = '/path/to/myFile.txt';
http.get(options, function(res) {
res.setEncoding('utf8');
var body = '';
res.on('data', function (chunk) {body += chunk});
res.on('end', function () {
var dom = parser.parse(body);
var text = dom.querySelector('#SIvCob').text;
fs.writeFile(file, text, function (err) {
if (err) throw err;
console.log('The file has been saved!');
});
});
});https://stackoverflow.com/questions/52692941
复制相似问题