文章/答案/技术大牛

发布

社区首页 >问答首页 >是否需要去掉括号以进行标记化？RegexpTokenizer

问是否需要去掉括号以进行标记化？RegexpTokenizer
EN

Stack Overflow用户

提问于 2020-04-17 14:13:46

回答 1查看 337关注 0票数 0

第一次尝试使用nltk的RegexpTokenizer进行赋值(必要)。不知道我是不是应该去掉括号？

您需要提取令牌并将它们附加到列表‘令牌’中

...not，当然，如果我做得对的话。

import re
import nltk
from nltk.tokenize import RegexpTokenizer
from nltk.probability import *
from itertools import chain
from tqdm import tqdm
import codecs
from nltk.corpus import stopwords 
nltk.download('stopwords')

df_text = pd.read_csv(r"C:\Users\User\Downloads\JobPostings.csv")

lower = []
for item in df_text['job_description']:
    lower = [item]
    lower.append(item.lower())

tokenizer_test = RegexpTokenizer(r"\s+", gaps=True)
tokens_test = tokenizer_test.tokenize(item)

token = [tokens_test]
print(token)

产出如下：

[“数据”、“科学家”、“职员”、“或”、“校长”、“At”、“realtor.com”、“查看”、“所有”、“就业”、“圣诞老人”、“克拉拉”、“CA”、“At”、“realtor.com”、“我们”、“过程”、“we”、“of”、“数据”、“每一天”、“和”，“转换”、“数据”、“信息”、“那”、“权力”、“决策”、“为”、“百万”、“”、“购房者”、“租房者”、“梦想家”、“真实”、“房地产”、“专业人士”。“我们”、“目标”、“目标”、“彻底”、“简化”、“家”，“买卖”、“帮助”、“更多”、“人们”、“成就”、“”、“美国”、“梦想”、“on”、“我们”、“Realtor.com”、“网站”、“移动”、“应用程序”。“我们”、“数据”、“科学”、“程序”、“帮助”、“发展”、“它”、“它”、“全面”、“潜力”、“作为”、“a”、“关键”、“成员”、“成员”、“数据”、“科学”、“团队”、“你”、“意志”、“要”、“负责任”，‘'for'，'the'，'development'，'of'，’创新性'，‘概念'，’研究'，‘预测’，‘建模，’，‘和’，‘机器’，‘学习’，‘算法’。‘责任：’执行‘，’探索性‘，’分析‘，'on'，’realtor.com‘s，’财富‘，'of'，’数据‘，包括’，‘消费者’，“网络”、“和”、“移动”、“行为”、“和”、“北方”、“美国”、“大多数”、“全面”、“最新”、“上市”、“和”、“房地产”、“数据”、“集合”、“有效”、“合作伙伴”、“与”、“产品”、“工程”、“团队”、“到”、“建设”，“新”、“数据驱动”、“和”、“机器”、“基于学习”、“功能”、“我们”、“专业”、“软件”、“领导”、“货币化”、“产品”、“to”、“启用”、“真实”、“状态”、“专业人员”、“to”、“be”、“more”、“生产性”、“有效”，“帮助”、“改进”、“范围”、“我们”、“数据”、“集合”、“通过”、“识别”、“新”、“数据”、“收集”、“收集”、“采购”、“机会”、“on”、“an”、“持续”、“基础”，“驱动器”、“A/B”、“多元”、“测试”、“和”、“设计”、“”、“实验”、“到”、“便利”、“测试”、“新”、“新”、“产品”、“设计”、“特征”、“与”、“a”、“焦点”、“改进”、“参与”、“保留”、“和”、“转换”、“选择”、“应用”、“和”、“调音”、“a”、“多样化”、“集合”、“of”、“tools”、“to”、“一致性”、“解题”、“挑战性”、“业务”、“目标”、“创建”、“自动化”、“学习”、“系统”、“那”、“优雅地”、“规模”、“to”，“增长”、“复杂性”、“期待”、“发展”、“预测”、“解释性”、“模型”、“和”、“机器”、“学习”、“算法”、“生成”、“描述性”、“可视化”、“和”、“演示”、“到”、“交流”、“洞察力”、“导师”、“a”、“团队”、“关于”、“数据”、“科学家”，“of”、“data”、“探险”、“machine”、“learning”、“and”、“developing”、“data-based”、“products”、“Work”、with 'with‘、'a’、'sense‘、'of’、‘所有权’、'and‘、’紧迫感‘、'products’、‘products’、'for‘、’实验性‘、’基于数据的‘、“产品”、'Work’、‘with’、‘Requirements’、‘Requirements’、‘Requirements’。“is”、“或”、“博士”、“”、“统计学”、“数学”、“运算”、“研究”、“计算机”、“科学”、“定量”、“分析”、“经济学”、“或”、“相关”、“领域”、“是”、“必需”、“7+”、“年份”、“相关”、“经验”，在“”、“数据”、“科学”、“数据”、“分析”、“或”、“应用”、“统计”、“经验”、“与”、“机器”、“学习”、“NLP”、“数据”、“数据”、“挖掘”、“统计”、“建模”、“工具”、“基础”、“算法”、“经验”、“in”，“r、”、“Perl”、“Perl”、“Python”、“火花”、“或”、“其他”、“语言”、“和”、“框架”、“适当”、“为”、“大型”、“规模”、“分析”、“of”、“数值”、“文本”、“”、“图像”、“和”、“视频”、“数据”、“强”、“技能”，在“”、“数据”、“收集”、“按摩”、“和”、“特征化”、“工作”、“经验”、“与”、“关系”、“数据库”、“SQL”、“经验”、“与”、“实验”、“设计”、“和”、“A/B”、“多元”、“测试”、“经验”、“已证明”，“跟踪”、“记录”、“开发”、“在线”、“数据”、“产品”、“坚强”、“创造性”、“思考”、“解决问题”、“技能”、“优秀”、“口头”、“口头”、“书面”、“交流”、“和”、“演示”、“技能”]

编辑:试过了.有什么想法？

df_text_jd = df_text.job_description

lower = []
for item in df_text_jd:
    lower.append(item.lower().replace('(','').replace(')',''))

l = []  
for token in item:
    tokenizer_test = RegexpTokenizer(r'\s+', gaps=True)
    token = tokenizer_test.tokenize(item)

    l.append(token)

l

python

tokenize

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-04-17 15:25:26

您可以通过修改将小写项附加到较低列表的行来替换括号：

lower.append(item.lower().replace('(','').replace(')',''))

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61273721

复制

相似问题

问是否需要去掉括号以进行标记化？RegexpTokenizer
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是否需要去掉括号以进行标记化？RegexpTokenizerEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是否需要去掉括号以进行标记化？RegexpTokenizer
EN