你好Stackoverflow社区,
我正在向你们大家请教如何在python的主题建模中以不同的顺序处理同一单词的二元语法。
我有一个主题模型,其中表示相同意思的两个二元模型被视为不同的特征,因为它们的顺序不同。我需要一种方法,必须将这两个二元语法视为同义词。
欢迎您的意见和建议。
例如。‘租约扩展’和‘扩展租约’我想把它们当作词矩阵中的同一个词
任何类型的建议和想法都非常受欢迎。
先谢谢你,尼查尔
发布于 2019-04-12 19:07:28
在将这些二元语法视为可互换之前,您必须确保它们确实是可互换的。如果不是,它将降低您的分析质量。“foot_doctor”和“doctor_foot”可能指的不是同一件事--特别是如果你采取了其他预处理步骤,比如词干提取或词汇化,比如把“医生的脚”变成“医生的脚”。
假设这些二元语法的含义是可互换的:将它们视为可互换的-您可以将其中一个重写为另一个。Python提供了大量的built-in string functions。在您的示例中,使用replace(),我们可以用一个二元语法替换另一个二元语法。
oldfakedoc = 'my landlord gave me a lease extension'
newfakedoc = oldfakedoc.replace('lease extension', 'extension lease')
print (newfakedoc)提供my landlord gave me a extension lease。循环遍历所有要替换的二元模型,然后运行模型。
如果您不想对所有文档进行词干或词条分类,但有大量相关单词的主题,比如"jump“和”jump“,也可以使用这种方法。此外,请确保不覆盖原始数据,以便在需要时可以返回并重新构建这些替换的位置。
https://stackoverflow.com/questions/55144994
复制相似问题