在我写我自己的方法之前,我很好奇是否有一个正则表达式可以帮助我。
上下文
在对术语进行统计分析之前,我正在清理原始文本。文本来自网站,因此包括菜单(许多菜单来自许多网站)。
典型的列表/菜单显示如下(除项目之间有一行中断外):
学生服务 指导与支持 核心服务 招生及记录 经济援助 咨询 评估测试 激磁定向 家教 职业转业中心 学生欢迎中心
当前的任务,,我想删除所有列表
我需要删除文本块,在第一、第三或第四个单词之后出现行中断,但只有当这种模式连续重复3次或更多次时(我不想删除“学生总是成功”之类的短句)。
regex能识别这种模式吗?
注意:我在java工作。
用样例文本更新
[[我想删除这份名单]]办公室和服务
学生服务
活动与运动
纪录及注册
费用和财政援助
遵从与多样性
校友
教员/工作人员资源
BMCC基金会
人力资源
BMCC Homepage>Academics>Health Education>Course列表
[(我想删除这份名单)]健康教育之家
课程清单
教职员工
[(我想删除这份名单)]社区健康教育
老年学
学校健康教育
公共卫生
探视招生
课程清单
[[我想把课文写在下面])卫生教育部提供下列课程。
2 HRS,2小时,0实验室HRS。HED 100健康教育
这是一门健康教育的入门调查课程。该课程为学生提供知识、技能和行为模式,以增强他们的身体、情感、社会、智力和精神健康,并促进他们的健康决策能力。主要教学领域包括:健康和健康;压力;性行为;酗酒、吸烟和滥用药物;营养和体重管理;以及身体健康。完成HED 110 -综合健康教育的学生将不会获得这门课程的学分。
3 HRS,3小时,0实验室HRS。HED 110综合健康教育
这门健康教育课程提供了一种全面的方法,为学生提供知识、技能和行为模式,以提高他们的身体、情感、社会、智力和精神健康,并促进他们的健康决策能力。专业领域包括:酒精、烟草和滥用药物、精神和情感健康、性行为和家庭生活、营养、身体健康、心血管健康、环境健康和保健服务。HED 110满足HE 100的所有学位要求。完成HED 100 -健康教育的学生将不会获得这门课程的学分。
发布于 2017-07-13 17:27:46
假设关于单词数量的部分不重要,尝试(([A-Za-z& ])*(\n|\r|\r\n)){5,}的regex模式,例如这里。
根据需要修改这五个量词,这只是一个例子。如果没有结束的新行,五就不可能将两行与额外的换行符或三行列表匹配。
https://stackoverflow.com/questions/45086930
复制相似问题