文章/答案/技术大牛

发布

社区首页 >问答首页 >regex在点\分号空间拆分，但忽略urls，例如

问regex在点\分号空间拆分，但忽略urls，例如
EN

Stack Overflow用户

提问于 2019-03-07 17:27:50

回答 1查看 83关注 0票数 0

我试着分析和匹配大量的法律文本，把它们分割成不同的句子。我有下面的正则表达式，它只适用于几行简单的文本，很好：

[^\.\!\?\;\n]*[\.\!\?\;\n](\s+)

好了！然后呢？或者说这里很不相关但是。而且，由于分隔符在我试图使用的文本中很常见。问题是，上面的正则表达式只是找到那些分隔符，后面跟着一个空格字符。例如，下列案文将不适当匹配：

会员国法律或根据与卫生专业人员签订的合同，并受第3款所述条件和保障措施的制约；出于公共卫生领域的公共利益的原因，有必要进行处理，例如防止对健康的严重跨界威胁，或确保https://ec.europa.eu/ploteus/en/compare的高标准比较工具采用7项可比程序(例如认证/审计)，并按照会员国的要求进行登记。保健和医药产品或医疗器械的质量和安全，根据欧盟或成员国法律，其中规定了适当和具体的措施，以保障数据主体的权利和自由，特别是专业保密；处理是.

以下是整个章节：

由于公共卫生领域的公共利益需要进行处理，例如防止对健康的严重跨界威胁，或在https://ec.europa确保高标准的比较工具。

根本不匹配。

任何帮助改善上述正则表达式将是非常感谢的！

谢谢

regex

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-03-08 17:55:25

我认为你想要的名字是一个句子标记器。首先，我可以推荐一个图书馆：Github.com/jdkato/散文，它应该把工作做得很有魅力。

就我个人而言，我从未用过。祝好运!

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55049688

复制

相似问题

问regex在点\分号空间拆分，但忽略urls，例如
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问regex在点\分号空间拆分，但忽略urls，例如EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问regex在点\分号空间拆分，但忽略urls，例如
EN