谁能告诉我哪个词干是最好的。另外,我有一个文本,我只想将列表中的单词干掉,而让其余的标记保持原样。下面是我的代码。
文本: swot del swot analys 2013年优势弱品牌价值7美元。‘,'5亿产品客户环境记录合并和收购直销繁忙模型commod ( comput hardw )产品差客户服务器低投资研发弱pat投资组合太少零售锁定低差异化机会威胁扩展服务器和企业解决方案忙于通过收购增强其在紧急市场平板电脑市场的地位增长对智能手机和平板电脑利润率的需求增长对硬件产品的需求缓慢增长笔记本电脑市场的缓慢增长速度笔记本电脑市场竞争激烈的品牌优势。’,‘“在合并和收购中竞争。”,“在过去的五年里,戴尔花费了130亿美元进行成功的合并和收购,这为忙碌的人带来了pat,新的上限,资产和技能。”,“直接销售繁忙模式。”,“戴尔将很难在这样的市场中竞争或至少击退失去的市场份额。”,“激烈的竞争。”,“公司在忙碌的部分面对激烈的竞争。”,“公司在繁忙的部分面对激烈的竞争。”,“在价格方面竞争。”,质量,品牌,技术,转售,分销和产品范围,包括ac,appl,hp,ibm,lenovo和toshib。‘]
单词列表是力量‘,’专业‘,’耐久性‘,’军事姿态‘,’长套装‘,’强度‘,'metier',’军事力量‘,'strong_suit',’力量‘,'forte',’耐力‘,’效率‘,'strong_point',’专业‘,’姿态‘,’说服力‘,’能力‘,’军事能力‘,'durability','intensity_level’。
代码是:
br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent','Chrome')]
html = br.open(url).read()
titles = br.title()
readable_article= Document(html).summary()
readable_title = Document(html).short_title()
soup = bs4.BeautifulSoup(readable_article)
Final_Article = soup.text
#final.append(titles)
#final.append(url)
#final.append(Final_Article)
raw = nltk.clean_html(html)
cleaned = re.sub(r'& ?(ld|rd)quo ?[;\]]', '\"', raw)
tokens = nltk.wordpunct_tokenize(cleaned)
lancaster = stem.lancaster.LancasterStemmer()
word = words('strength')
Words = [lancaster.stem(e) for e in word]
t = [lancaster.stem(t) for t in tokens if t in Words]
text = nltk.Text(t)
find = ' '.join(str(e) for e in Words请帮帮忙
发布于 2014-07-25 02:10:06
我想你的问题更多的是一个基于观点的问题。每个词干分析器都是使用一些成熟的词干提取算法创建的。就我个人而言,我更喜欢Porter词干算法,因为它的简单性和基本性质。你可以在这里阅读更多内容:Porter Stemmeing Algorithm (with implementation)
https://stackoverflow.com/questions/24940629
复制相似问题