我有一个文本文件,从中提取了这两个段落块。下面给出了文本示例。
文本示例:
EXONERAR,com validade de 19 de agosto de 2020, de - NILSON de Centralizada de Servi,ID FUNCIONAL 2100423-4,do cargo em comiss o o de Coordenador,símbolo DAS-8
E 212,da Coordenadoria de Gest o Centralizada DE Servi os,da Superintend de Gest de Gest,e 113da Secretaria de LogícontarE 214/code>,E 115>.过程编号SEI-120001/010643/2020NADIA NAKAMURA VIEIRA,ID 5099589-8,do cargo em comiss o de Assessor Especial,símbolo DG,da Secretaria de Estado de Planejamento e Gest oE 228。过程编号SEI-150001/004627/2020EXONERAR,com validade a contar de 26 de novembro de 2020,BRUNO RAFAEL ROCHA COSTA,ID FUNCIONAL . 5108093-1,do cargo em comiss o de Assessor,símbolo DAS-7E 240,E 141 da portos de Planejamento e Gest oE 242,da Presid,da Superintend de Des- portos do Estado do de里约热内卢- SUDERJ,da Secretaria de Es- tado de Esporte de Esporte,<>code E143/code>Lazer>Lazer>Laze244<>;3 0 0 0 2/0 0 4 11 /2 0 2 0 .EXONERAR,com validade a de 16 de novembro de 2020,LUIS HENRIQUE FERREIRA de AQUINO,ID FUNCIONAL 编号1914315-0,do cargo em comiss o de Assistente II,símbolo DE 6E 256,da E 157/code>秘书a de Estado de Planejamento e Gest oE 258。过程编号SEI120001/014825/2020:
在上面的文本块中,我只想将粗体值作为一个单独的行从每个段落中获取。
我已经尝试过的
r"\b(?:(?:EXONERAR|d[ae]|por|símbolo)\s([^,]+?)(?: e Gestão)?,|\b(?!SEI\b)([A-Z\d]+-\s*\d+)|SEI-\s*([\d /]+)\b)"当前输出:
https://regex101.com/r/FCimoW/1
我的当前输出几乎没有问题,但问题是不匹配所有需要的部分,例如大写名称部分。
发布于 2020-12-01 17:09:01
https://stackoverflow.com/questions/65094987
复制相似问题