假设我有一个有文章的新闻网站,我有一个空白的文章页面,除了标题、照片和文本文章本身,我通常会手动填写。而不是填充它,假设我已经从网页上抓取了整个div类。我想将此内容直接导入到页面上,并以最少的步骤发布它。
(我希望我给你的是一张照片。想象一下,我的汽车完全是从丢失的发动机中制造出来的,我希望我雇来的偷发动机的猴子不要把发动机堆在外面,而是把它们带进车里,安装到汽车里,然后把它们开给汽车经销商。)我会在网上抓取一些东西,比如维基百科上关于高尔夫的页面,然后把它放到我的页面上。我不想一遍又一遍地复制、粘贴和单击发布。我想让我已经知道如何构建的网络刮板再走一步,在我的空白页面网站上对某个div类进行查找和替换,而不是将数据写到我计算机硬盘上的文件中(尽管也许用Python在我的硬盘上写入数据,然后让JS或其他东西读取我硬盘上的HTML文件,然后将其写入到我的网页上将是一种方法。
有没有可以做到这一点的程序?你知道有哪些模块可以通过Python来实现这一点吗?你知道有人写了这样的东西放到GitHub上吗?
我并不打算抄袭新闻网站,只是举一个简单的例子……如果我这里有整个div类的"content“...在我的硬盘上另存为http://www.zerohedge.com/news/2017-02-18/merkel-says-there-problem-euro-blames-mario-draghi文件(您可以通过在主article>文本上的任意位置单击“检查”右键单击“copy> copy as outerHTML>”并在文本编辑器中粘贴为HTML文件来查看此文件(同样,这是我用网络刮取器所做的事情),我如何才能将其粘贴到空白的“新文章”页面中,并通过按下按钮自动发布到我的网站上?我可以点击几个按钮,但不需要复制和粘贴。
我会一遍又一遍地(合法地)处理网页的某些部分,我相信这可以通过某种方式实现自动化。我听说财经新闻网站一直在根据数据撰写文章,所以我需要的东西可能会存在。我可能正在运行我从基本神经网络中抓取的文本,或者将其提供给GANs。我想如果你好奇我在做什么,可以用这种方式做一些有趣的事情。
发布于 2017-02-19 04:39:55
如果你使用Python来做这件事,我觉得最快的方法是让网络爬虫将搜索结果保存到你的网站前端共享访问的JSON文件或SQL数据库中(将你提取的HTML存储为文本字符串)。
如果你采用JSON方式,只需向它发送一个AJAX请求以获取网站,并将其放在要将代码转储到的元素上的使用innerHTML中。
如果你走SQL路线,只需要有一个可以发送POST请求的网站的python脚本,让python脚本从数据库中提取你想要的网站数据,并将其作为JSON返回给浏览器,然后执行上述操作。
直接转到JSON的好处是不必建立到SQL服务器的连接并处理SQL查询到JSON的转换步骤。但是,SQL数据库的好处是,如果crawler使用多个线程,则不必担心写入JSON文件的任何问题;如果没有正确锁定文件,则可能会有写入冲突。
https://stackoverflow.com/questions/42320163
复制相似问题