我正在编写一个书签,它将从站点中提取信息,并将其发送到用户帐户以供以后使用。这通常包括获取非结构化信息并使其结构化的问题。举个例子,一个爱好者想把一个项目留到以后再做。有许多部分,他们需要获得和指示遵循。在一个博客上,作者可以将这些说明称为“指南”、“食谱”或“任意数量的同义词”。一个人可以列出带有<li>标签的信息来排序这些步骤,而另一个人则可能没有。
将非结构化数据转化为结构化信息的一般策略是什么?是否有其他策略来确定哪些内容是相关的?(即内锥度或可读性)
发布于 2011-04-14 18:09:59
这个问题似乎没有一个很好的计算机科学答案,所以我决定改变方法,让用户按照他们认为合适的方式组织数据。
发布于 2011-03-14 16:44:25
Hmm...maybe你可以和Google一起用这个吗?看一看头部和元标签也是个好主意。您还可以列出单词的使用频率。见鬼,你甚至可以有一个弹出警报,要求用户输入有关页面的数据。
https://stackoverflow.com/questions/5301580
复制相似问题