首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Regex:识别和删除列表和菜单

Regex:识别和删除列表和菜单
EN

Stack Overflow用户
提问于 2017-07-13 16:59:32
回答 1查看 60关注 0票数 1

在我写我自己的方法之前,我很好奇是否有一个正则表达式可以帮助我。

上下文

在对术语进行统计分析之前,我正在清理原始文本。文本来自网站,因此包括菜单(许多菜单来自许多网站)。

典型的列表/菜单显示如下(除项目之间有一行中断外):

学生服务 指导与支持 核心服务 招生及记录 经济援助 咨询 评估测试 激磁定向 家教 职业转业中心 学生欢迎中心

当前的任务,,我想删除所有列表

我需要删除文本块,在第一、第三或第四个单词之后出现行中断,但只有当这种模式连续重复3次或更多次时(我不想删除“学生总是成功”之类的短句)。

regex能识别这种模式吗?

注意:我在java工作。

用样例文本更新

[[我想删除这份名单]]办公室和服务

学生服务

活动与运动

纪录及注册

费用和财政援助

遵从与多样性

校友

教员/工作人员资源

BMCC基金会

人力资源

BMCC Homepage>Academics>Health Education>Course列表

[(我想删除这份名单)]健康教育之家

课程清单

教职员工

[(我想删除这份名单)]社区健康教育

老年学

学校健康教育

公共卫生

探视招生

课程清单

[[我想把课文写在下面])卫生教育部提供下列课程。

2 HRS,2小时,0实验室HRS。HED 100健康教育

这是一门健康教育的入门调查课程。该课程为学生提供知识、技能和行为模式,以增强他们的身体、情感、社会、智力和精神健康,并促进他们的健康决策能力。主要教学领域包括:健康和健康;压力;性行为;酗酒、吸烟和滥用药物;营养和体重管理;以及身体健康。完成HED 110 -综合健康教育的学生将不会获得这门课程的学分。

3 HRS,3小时,0实验室HRS。HED 110综合健康教育

这门健康教育课程提供了一种全面的方法,为学生提供知识、技能和行为模式,以提高他们的身体、情感、社会、智力和精神健康,并促进他们的健康决策能力。专业领域包括:酒精、烟草和滥用药物、精神和情感健康、性行为和家庭生活、营养、身体健康、心血管健康、环境健康和保健服务。HED 110满足HE 100的所有学位要求。完成HED 100 -健康教育的学生将不会获得这门课程的学分。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-07-13 17:27:46

假设关于单词数量的部分不重要,尝试(([A-Za-z& ])*(\n|\r|\r\n)){5,}的regex模式,例如这里

根据需要修改这五个量词,这只是一个例子。如果没有结束的新行,五就不可能将两行与额外的换行符或三行列表匹配。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45086930

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档