我发现谷歌的In Quotes是一个非常棒的应用程序,作为一名CS人员,我必须了解它是如何工作的。您认为它如何将新闻文章转换为归因于特定人物的引文列表?当然,有一些错误,但他们的算法似乎比简单的启发式或多个正则表达式更智能。例如,引用可以归因于某人,即使他/她的名字只在最后一段中提到。
有什么想法吗?有什么关于这个主题的已知论文吗?
发布于 2008-12-25 13:21:19
这很简单,它检查单词,但它们之间可以有任何东西,只要它们仍然是有序的。“你好,世界!”将成为regex /hello .*的世界/
发布于 2008-10-25 18:17:20
我没有任何论文,但有一些想法。谷歌引用了一组人的话。通过谷歌新闻和其他媒体访问,对他们来说很容易。
他们有另一组主题。Google匹配主题集合与person集合(两个集合都是有限的)。最后一组都是引号,
如果你注意到了,这个主题包含一个在引号中突出显示的单词。所以它在主题集合和每个人集合的引用集合之间有一个关系。由于谷歌是信息的主人,因此很容易在所有这些集合之间找到链接。
发布于 2008-10-25 22:45:02
我对你的问题没有答案,但我的建议是,你可以直接通过Google moderator询问谷歌工程师。你可能不会很快得到答案(或者根本得不到),但你会得到一个准确的答案。
https://stackoverflow.com/questions/236722
复制相似问题