首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >比较两个英文字符串的相似之处

比较两个英文字符串的相似之处
EN

Stack Overflow用户
提问于 2011-08-17 00:27:30
回答 3查看 339关注 0票数 5

所以这是我的问题。我有两段文字,我需要看看它们是否相似。不是在字符串度量的意义上,而是在意义上。以下两段是相关的,但我需要了解它们是否涵盖了“相同”的主题。任何解决这个问题的帮助或指导都将不胜感激。

化石燃料是通过自然过程形成的燃料,例如埋在地下的死生物的厌氧分解。生物的年龄和由此产生的化石燃料通常是数百万年,有时甚至超过6.5亿年。化石燃料含有很高比例的碳,包括煤、石油和天然气。化石燃料从低碳的挥发性物质:甲烷等氢比,到液体石油,再到由几乎纯碳(如无烟煤)组成的非挥发性物质。甲烷可单独存在于油气田,与石油有关,或以甲烷包埋物的形式存在。人们普遍认为,它们是通过数百万年来暴露在地壳中的热量和压力而形成的,这些化石是由死植物的化石遗骸形成的。这一生物成因理论最早由格奥尔格·阿格里科拉在1556年提出,后来在18世纪由米哈伊尔·洛蒙诺索夫提出。

第二:

化石燃料重整是从天然气等化石燃料中生产氢或其他有用产品的一种方法。这是在一种叫做重整装置的处理装置中实现的,该装置在高温下与化石燃料反应蒸汽。蒸汽甲烷重整装置广泛应用于工业生产氢气。也有兴趣开发小得多的单位,基于类似的技术,生产氢作为燃料电池的原料。小型蒸汽重整装置供应燃料电池是目前研究和开发的主题,通常涉及甲醇或天然气的重整,但其他燃料也被考虑使用,如丙烷、汽油、汽车气、柴油和乙醇。

EN

回答 3

Stack Overflow用户

发布于 2011-08-17 00:34:00

这是个很高的要求。如果我是你,我会开始读自然语言处理。NLP是一个相当大的领域--我建议专门查看维基百科文本分析文章的“过程”一节中提到的内容。

我认为,如果您使用信息检索命名实体识别情感分析,您应该在路上过得很好。

票数 5
EN

Stack Overflow用户

发布于 2011-08-17 00:33:31

总的来说,我认为这仍然是一个有待解决的问题。自然语言处理仍然是一个新兴的领域,虽然我们可以做一些非常好的事情,但是要进行这种分类和分类仍然是非常困难的。

我不是NLP方面的专家,但您可能需要查看讨论情感分析和作者身份检测的这些讲演幻灯片。您可能使用的用于进行文本比较的技术与您将用于上述分析的技术相关,您可能会发现这是一个很好的起点。

希望这能有所帮助!

票数 3
EN

Stack Overflow用户

发布于 2011-08-17 07:17:12

您还可以查看机器学习中的潜在Dirichlet分配(LDA)模型。这里的想法是找到每个文档(或段落)的低维表示,简单地作为对某些“主题”的分发。该模型使用一组文件/段落以无监督的方式进行培训。

如果您在您的段落集合上运行LDA,那么通过查看隐藏主题向量的相似性,您可以发现给定的两个段落是否相关。

当然,基线是不使用LDA,而是使用频率一词(增加tf/国防军)来测量相似性(向量空间模型)。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7086708

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档