我得到了一个包含大量</sub>符号的txt文件。例如,
Zn对胶体(AgIn)xZn2(1-x)S2纳米晶光致发光的影响
现在我尝试使用regex将上面的信息提取为txt文件,但我的理想输出是
Zn对胶体(AgIn)xZn2(1-x)S2纳米晶光致发光的影响
我目前的代码只能用大量的<sub>提取信息,如何得到理想的输出?
发布于 2022-07-21 08:44:50
我不确定这是否是您想要的,但是您可以使用我制作的这个小Python脚本打印出没有<sub>和</sub>字符的行,并使用输出进行进一步的处理。
def main():
remove_list = ['<sub>', '</sub>']
with open('data.txt') as current_file:
for i, line in enumerate(current_file):
for item in remove_list:
line = line.replace(item, '')
print(line)
if __name__ == '__main__':
main()只需将此代码保存为main.py,并在放置xml数据的同一目录中创建data.txt文件即可。
以python3 main.py的形式运行脚本,在终端中显示输出,或者以python3 main.py > output.txt的形式运行它,将输出附加到文本文件中。
https://stackoverflow.com/questions/73059760
复制相似问题