首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >连接到网站查找一个单词(编译海量数据/网络爬虫)

连接到网站查找一个单词(编译海量数据/网络爬虫)
EN

Stack Overflow用户
提问于 2014-10-27 09:11:13
回答 1查看 65关注 0票数 0

我目前正在C#中开发一个单词完成应用程序,在启动和运行UI、设置键盘挂钩以及其他类似的东西之后,我意识到我需要一个WordList。唯一的问题是,我似乎找不到一个与适当的信息。我也不想花整整一周的时间手工格式化和收集一个WordList。我想要的信息是"TheWord,定义,动词/等等“。

所以,它击中了我。为什么不下载一个只有单词的基本单词列表(已经这样做了;大约有109,523个单词),编写一个遍历每个单词的程序,连接到互联网,从某个任意的站点检索数据(定义等),并从所述信息中创建XML数据。它可以是100%的自动化,我只需要等待一个小时,取决于我的互联网连接速度。

然而,这使我提出了几个问题。

  1. 我应该如何连接到一个网站来查找这些单词?,<<,这是我的实际问题。
  2. 我如何从网站上读到这些信息?
  3. 我会因为这件事而激怒我的ISP或网站吗?
  4. 这真是个坏主意吗?LOL。

你们觉得我该怎么做?

编辑

有人注意到Dictionary.com在url中使用这个词作为后缀。这将使遍历word文件变得更加容易。我还看到网页存储在XHTML(或者仅仅是HTML)中。这里是“猫”这个词的来源。http://pastebin.com/hjZj6AC1

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-10-27 09:50:54

对于你标记为实际问题的内容,你只需要从网站下载数据并找到你需要的东西。CsQuery是一个很好的工具,它允许您使用jquery。你可以这样做:

代码语言:javascript
复制
var dom = CQ.CreateFromUrl("http://www.jquery.com");
string definition = dom.Select(".definitionDiv").Text();
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26584202

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档