我有熊猫数据帧中的数据。我需要提取以“影响因子:”开头并以"&#“结尾的字符串之间的所有内容。如果内容没有“影响因子:”,我希望数据帧的那一行为null
这是来自单行的样本数据。
保存到EndNote online &# Add to Marked List &#影响因素:期刊2和引文报告500 &#其他信息&# IDS编号: EW5UR &#
我想要像下面这样的内容在一个数据帧。期刊2和引用报告500期刊6和引用报告120期刊50和引用报告360期刊30和引用报告120
发布于 2017-06-26 11:34:07
您好,您可以在这里使用正则表达式:
result = your_df.your_col.apply(lambda x: re.findall('Impact Factor:(.*?)&#',x))你可能也想去掉空格,在这种情况下,你可以使用:
result = your_df.your_col.apply(lambda x: re.findall('Impact Factor:\s*(.*?)\s*&#',x))https://stackoverflow.com/questions/44752613
复制相似问题