首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在python中处理主题建模中不同顺序相同单词的二元语法?例如。‘租期延长’和‘延长租期’

如何在python中处理主题建模中不同顺序相同单词的二元语法?例如。‘租期延长’和‘延长租期’
EN

Stack Overflow用户
提问于 2019-03-13 23:00:12
回答 1查看 339关注 0票数 0

你好Stackoverflow社区,

我正在向你们大家请教如何在python的主题建模中以不同的顺序处理同一单词的二元语法。

我有一个主题模型,其中表示相同意思的两个二元模型被视为不同的特征,因为它们的顺序不同。我需要一种方法,必须将这两个二元语法视为同义词。

欢迎您的意见和建议。

例如。‘租约扩展’和‘扩展租约’我想把它们当作词矩阵中的同一个词

任何类型的建议和想法都非常受欢迎。

先谢谢你,尼查尔

EN

回答 1

Stack Overflow用户

发布于 2019-04-12 19:07:28

在将这些二元语法视为可互换之前,您必须确保它们确实是可互换的。如果不是,它将降低您的分析质量。“foot_doctor”和“doctor_foot”可能指的不是同一件事--特别是如果你采取了其他预处理步骤,比如词干提取或词汇化,比如把“医生的脚”变成“医生的脚”。

假设这些二元语法的含义是可互换的:将它们视为可互换的-您可以将其中一个重写为另一个。Python提供了大量的built-in string functions。在您的示例中,使用replace(),我们可以用一个二元语法替换另一个二元语法。

代码语言:javascript
复制
oldfakedoc = 'my landlord gave me a lease extension'
newfakedoc = oldfakedoc.replace('lease extension', 'extension lease')
print (newfakedoc)

提供my landlord gave me a extension lease。循环遍历所有要替换的二元模型,然后运行模型。

如果您不想对所有文档进行词干或词条分类,但有大量相关单词的主题,比如"jump“和”jump“,也可以使用这种方法。此外,请确保不覆盖原始数据,以便在需要时可以返回并重新构建这些替换的位置。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55144994

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档