我很穷(脏?)具有以下格式的化学品信息数据:
ID Chemicals
1701 3 Tanks - 1 - Benzoyl Chloride and 2 - Benzoflex
1840 Two 520 Class IIIB inside and Two 16,800 Condensate tanks
1840 Two 520 Class IIIB inside and Two 16,800 Condensate tanks
1938 2 tanks - 1,100 gallons diesel & 1,100 gallons gasoline
1888 4 tanks - 3 - 20,000 gallon and 1 - 10,000 gallon Gas, Diesel and K-1我需要解析这些数据来搜索每个超级字符串中可识别的化学物质。解析完这些数据后,我可以在常用的化学数据库中搜索子集,以返回(不同质量的)每个子集的点击量。主要的问题是,我不知道如何以高效和结构化的方式开始解析这些数据。有几个想法,我正在玩:
现在我正在尝试方法2,在实现了带有可怕结果的方法1之后,但是我发现构建和维护要忽略的“键”列表太麻烦了。
如果我想遵循选项三,哪些python机器学习库可以提供此功能?
发布于 2015-11-24 00:52:43
你可以考虑:
您将缩小输入数据范围,只关注与化学相关的元素:因此,随后可能会应用许多分析工具/算法。
https://stackoverflow.com/questions/33883313
复制相似问题