首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >是否需要去掉括号以进行标记化?RegexpTokenizer

是否需要去掉括号以进行标记化?RegexpTokenizer
EN

Stack Overflow用户
提问于 2020-04-17 14:13:46
回答 1查看 337关注 0票数 0

第一次尝试使用nltk的RegexpTokenizer进行赋值(必要)。不知道我是不是应该去掉括号?

您需要提取令牌并将它们附加到列表‘令牌’中

...not,当然,如果我做得对的话。

代码语言:javascript
复制
import re
import nltk
from nltk.tokenize import RegexpTokenizer
from nltk.probability import *
from itertools import chain
from tqdm import tqdm
import codecs
from nltk.corpus import stopwords 
nltk.download('stopwords')

df_text = pd.read_csv(r"C:\Users\User\Downloads\JobPostings.csv")

lower = []
for item in df_text['job_description']:
    lower = [item]
    lower.append(item.lower())

tokenizer_test = RegexpTokenizer(r"\s+", gaps=True)
tokens_test = tokenizer_test.tokenize(item)

token = [tokens_test]
print(token)

产出如下:

[“数据”、“科学家”、“职员”、“或”、“校长”、“At”、“realtor.com”、“查看”、“所有”、“就业”、“圣诞老人”、“克拉拉”、“CA”、“At”、“realtor.com”、“我们”、“过程”、“we”、“of”、“数据”、“每一天”、“和”,“转换”、“数据”、“信息”、“那”、“权力”、“决策”、“为”、“百万”、“”、“购房者”、“租房者”、“梦想家”、“真实”、“房地产”、“专业人士”。“我们”、“目标”、“目标”、“彻底”、“简化”、“家”,“买卖”、“帮助”、“更多”、“人们”、“成就”、“”、“美国”、“梦想”、“on”、“我们”、“Realtor.com”、“网站”、“移动”、“应用程序”。“我们”、“数据”、“科学”、“程序”、“帮助”、“发展”、“它”、“它”、“全面”、“潜力”、“作为”、“a”、“关键”、“成员”、“成员”、“数据”、“科学”、“团队”、“你”、“意志”、“要”、“负责任”,‘'for','the','development','of',’创新性',‘概念',’研究',‘预测’,‘建模,’,‘和’,‘机器’,‘学习’,‘算法’。‘责任:’执行‘,’探索性‘,’分析‘,'on',’realtor.com‘s,’财富‘,'of',’数据‘,包括’,‘消费者’,“网络”、“和”、“移动”、“行为”、“和”、“北方”、“美国”、“大多数”、“全面”、“最新”、“上市”、“和”、“房地产”、“数据”、“集合”、“有效”、“合作伙伴”、“与”、“产品”、“工程”、“团队”、“到”、“建设”,“新”、“数据驱动”、“和”、“机器”、“基于学习”、“功能”、“我们”、“专业”、“软件”、“领导”、“货币化”、“产品”、“to”、“启用”、“真实”、“状态”、“专业人员”、“to”、“be”、“more”、“生产性”、“有效”,“帮助”、“改进”、“范围”、“我们”、“数据”、“集合”、“通过”、“识别”、“新”、“数据”、“收集”、“收集”、“采购”、“机会”、“on”、“an”、“持续”、“基础”,“驱动器”、“A/B”、“多元”、“测试”、“和”、“设计”、“”、“实验”、“到”、“便利”、“测试”、“新”、“新”、“产品”、“设计”、“特征”、“与”、“a”、“焦点”、“改进”、“参与”、“保留”、“和”、“转换”、“选择”、“应用”、“和”、“调音”、“a”、“多样化”、“集合”、“of”、“tools”、“to”、“一致性”、“解题”、“挑战性”、“业务”、“目标”、“创建”、“自动化”、“学习”、“系统”、“那”、“优雅地”、“规模”、“to”,“增长”、“复杂性”、“期待”、“发展”、“预测”、“解释性”、“模型”、“和”、“机器”、“学习”、“算法”、“生成”、“描述性”、“可视化”、“和”、“演示”、“到”、“交流”、“洞察力”、“导师”、“a”、“团队”、“关于”、“数据”、“科学家”,“of”、“data”、“探险”、“machine”、“learning”、“and”、“developing”、“data-based”、“products”、“Work”、with 'with‘、'a’、'sense‘、'of’、‘所有权’、'and‘、’紧迫感‘、'products’、‘products’、'for‘、’实验性‘、’基于数据的‘、“产品”、'Work’、‘with’、‘Requirements’、‘Requirements’、‘Requirements’。“is”、“或”、“博士”、“”、“统计学”、“数学”、“运算”、“研究”、“计算机”、“科学”、“定量”、“分析”、“经济学”、“或”、“相关”、“领域”、“是”、“必需”、“7+”、“年份”、“相关”、“经验”,在“”、“数据”、“科学”、“数据”、“分析”、“或”、“应用”、“统计”、“经验”、“与”、“机器”、“学习”、“NLP”、“数据”、“数据”、“挖掘”、“统计”、“建模”、“工具”、“基础”、“算法”、“经验”、“in”,“r、”、“Perl”、“Perl”、“Python”、“火花”、“或”、“其他”、“语言”、“和”、“框架”、“适当”、“为”、“大型”、“规模”、“分析”、“of”、“数值”、“文本”、“”、“图像”、“和”、“视频”、“数据”、“强”、“技能”,在“”、“数据”、“收集”、“按摩”、“和”、“特征化”、“工作”、“经验”、“与”、“关系”、“数据库”、“SQL”、“经验”、“与”、“实验”、“设计”、“和”、“A/B”、“多元”、“测试”、“经验”、“已证明”,“跟踪”、“记录”、“开发”、“在线”、“数据”、“产品”、“坚强”、“创造性”、“思考”、“解决问题”、“技能”、“优秀”、“口头”、“口头”、“书面”、“交流”、“和”、“演示”、“技能”]

编辑:试过了.有什么想法?

代码语言:javascript
复制
df_text_jd = df_text.job_description

lower = []
for item in df_text_jd:
    lower.append(item.lower().replace('(','').replace(')',''))

l = []  
for token in item:
    tokenizer_test = RegexpTokenizer(r'\s+', gaps=True)
    token = tokenizer_test.tokenize(item)

    l.append(token)

l
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-04-17 15:25:26

您可以通过修改将小写项附加到较低列表的行来替换括号:

代码语言:javascript
复制
lower.append(item.lower().replace('(','').replace(')',''))
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61273721

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档