首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从网页源代码中提取明文(从网站获取大量歌词)

从网页源代码中提取明文(从网站获取大量歌词)
EN

Stack Overflow用户
提问于 2012-06-07 23:29:19
回答 3查看 1.3K关注 0票数 2

O社区,我正在为一个应用程序编写伪代码,该应用程序通过读取页面的源代码从远程主机(web服务器,而不是我自己的主机)中提取歌词。这是假定:

  • 歌词以纯文本显示。
  • 包含歌词的部分源代码可由Java前端应用程序读取。

我并不是在寻找源代码来回答这个问题,但是用于查询远程网页的纯文本内容的技术术语是什么呢?

如果我能确定网页命名方案,我可以将URL对象的指针设置为适当的网页,对吗?唯一的限制是不正常的大写,只有在完全相同的地方找到明文才有效。

你有什么意见建议?我在想像这样的“巴克65",唱着”我看起来不错“

  • URL =新URL(http://www.elyrics.net/read/b/buck-65-lyrics/i-look-good-lyrics.html);
    • 我可以代替“巴克-65-歌词”和“我看-好歌词”,以反映用户的输入?
    • 重定向到PostgreSQL表的输入

目前的目标:

  • 用户将请求{歌曲、艺术家、专辑}的名称,Java前端将查询远程网页。
  • 完整的源代码(包含明文)将使用Java前端提取。
  • 歌词将从源代码中提取(不知何故)
  • 如果PostgreSQL服务器当前没有索引歌曲,则会将其添加到表中。
  • 将对明文进行操作,以适应该方案的目标。

我只是在找方向。如果我完全走错了方向,请告诉我。这只是为了伪码。我不是在找答案,也不是找人帮忙,我需要帮助来决定我需要做什么。是否有用于提取您所知道的明文的外部库?我想要完成的任务有哪些技术名称?

谢谢,泰勒

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2012-06-07 23:40:48

这种方法称为屏幕或数据刮擦。请注意,使用它通常会破坏目标服务的服务条款。通常,这并不是一种健壮的方法,这就是为什么类似API的服务能够保证它们的运行方式是可取的。

您的方法听起来似乎在很大程度上是有效的,但是要记住一些事情。

  • 如果您正在与之交互的web服务需要非常精确的URL方案,则不应该将用户提供的数据直接输入其中,因为它可能会因缺少单词、缩写或拼写错误而变得混乱。你最好先进行某种搜索,然后使用搜索的最佳结果。
  • 读取HTML数据比您想象的要复杂得多。使用像汤汁这样的现有库来帮助您。
票数 1
EN

Stack Overflow用户

发布于 2012-06-07 23:42:12

从网站中提取内容的技术术语是网络抓取,你可以在谷歌上搜索。这里有很多在线库,对于java来说,有jsoup。虽然写你自己的正则表达式很容易。我会做的第一件事,我使用卷发和从网站上得到的内容只是为了测试,这将给你一个公平的想法做什么。

票数 0
EN

Stack Overflow用户

发布于 2012-06-07 23:42:13

您必须使用HTML解析器。最受欢迎的是汤汁

注意你所做的事情的法律方面;)

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10941259

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档