O社区,我正在为一个应用程序编写伪代码,该应用程序通过读取页面的源代码从远程主机(web服务器,而不是我自己的主机)中提取歌词。这是假定:
我并不是在寻找源代码来回答这个问题,但是用于查询远程网页的纯文本内容的技术术语是什么呢?
如果我能确定网页命名方案,我可以将URL对象的指针设置为适当的网页,对吗?唯一的限制是不正常的大写,只有在完全相同的地方找到明文才有效。
你有什么意见建议?我在想像这样的“巴克65",唱着”我看起来不错“
目前的目标:
我只是在找方向。如果我完全走错了方向,请告诉我。这只是为了伪码。我不是在找答案,也不是找人帮忙,我需要帮助来决定我需要做什么。是否有用于提取您所知道的明文的外部库?我想要完成的任务有哪些技术名称?
谢谢,泰勒
发布于 2012-06-07 23:40:48
这种方法称为屏幕或数据刮擦。请注意,使用它通常会破坏目标服务的服务条款。通常,这并不是一种健壮的方法,这就是为什么类似API的服务能够保证它们的运行方式是可取的。
您的方法听起来似乎在很大程度上是有效的,但是要记住一些事情。
发布于 2012-06-07 23:42:12
从网站中提取内容的技术术语是网络抓取,你可以在谷歌上搜索。这里有很多在线库,对于java来说,有jsoup。虽然写你自己的正则表达式很容易。我会做的第一件事,我使用卷发和从网站上得到的内容只是为了测试,这将给你一个公平的想法做什么。
发布于 2012-06-07 23:42:13
您必须使用HTML解析器。最受欢迎的是汤汁。
注意你所做的事情的法律方面;)
https://stackoverflow.com/questions/10941259
复制相似问题