首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >需要提取pandas dataframe中两个字符串之间的所有内容

需要提取pandas dataframe中两个字符串之间的所有内容
EN

Stack Overflow用户
提问于 2017-06-26 11:03:38
回答 1查看 932关注 0票数 0

我有熊猫数据帧中的数据。我需要提取以“影响因子:”开头并以"&#“结尾的字符串之间的所有内容。如果内容没有“影响因子:”,我希望数据帧的那一行为null

这是来自单行的样本数据。

保存到EndNote online &# Add to Marked List &#影响因素:期刊2和引文报告500 &#其他信息&# IDS编号: EW5UR &#

我想要像下面这样的内容在一个数据帧。期刊2和引用报告500期刊6和引用报告120期刊50和引用报告360期刊30和引用报告120

EN

回答 1

Stack Overflow用户

发布于 2017-06-26 11:34:07

您好,您可以在这里使用正则表达式:

代码语言:javascript
复制
result = your_df.your_col.apply(lambda x: re.findall('Impact Factor:(.*?)&#',x))

你可能也想去掉空格,在这种情况下,你可以使用:

代码语言:javascript
复制
result = your_df.your_col.apply(lambda x: re.findall('Impact Factor:\s*(.*?)\s*&#',x))
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44752613

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档