我想从一个字符串中提取机场代码和航空公司代码。机场/城市代码是3个字母的字母代码。航空公司代码由2个字母字母和字母数字代码组成。
航空公司代码示例
AA ==美国航空公司。
机场代码
JFK ==约翰·F·肯尼迪国际机场
LGA == LaGuardia机场
我有世界上所有机场代码和航空公司代码的清单。我想提取的字符串类型是这样的。
JFKAAX/BOSAACHIM100.00Q9USMEXQ125.00YLEE/CH30500.00ENDROE0.56893458
这里有一个模糊性,因为KAA也可以被识别为一个机场。这是有效的机场代码。
如何使用NER来提取这两个项。如果NER不合适,还有其他方法吗?
发布于 2015-01-15 22:46:43
我使用了简单的正则表达式,判断它是否正常:
In [1]: a = 'JFKAAX/BOSAACHIM100.00Q9USMEXQ125.00YLEE/CH30500.00ENDROE0.56893458'
In [4]: import re
In [15]: re.findall('(\w{3})(\d*(\.\d*)?)(\w{2})', a)
Out[15]:
[('JFK', '', '', 'AA'),
('BOS', '', '', 'AA'),
('CHI', '', '', 'M1'),
('00Q', '9', '', 'US'),
('MEX', '', '', 'Q1'),
('00Y', '', '', 'LE'),
('CH3', '0500.00', '.00', 'EN'),
('DRO', '', '', 'E0'),
('568', '934', '', '58')]你能提供你张贴的字符串应该输出什么吗?您可以用括号标记机场名称和航空公司名称,例如:x
https://stackoverflow.com/questions/27960065
复制相似问题