首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用机器学习来解析包含化学数据的复杂字符串?

使用机器学习来解析包含化学数据的复杂字符串?
EN

Stack Overflow用户
提问于 2015-11-24 00:22:03
回答 1查看 733关注 0票数 0

我很穷(脏?)具有以下格式的化学品信息数据:

代码语言:javascript
复制
ID  Chemicals
1701    3 Tanks - 1 - Benzoyl Chloride and 2 - Benzoflex
1840    Two 520 Class IIIB inside and Two 16,800 Condensate tanks
1840    Two 520 Class IIIB inside and Two 16,800 Condensate tanks
1938    2 tanks - 1,100 gallons diesel & 1,100 gallons gasoline
1888    4 tanks - 3 - 20,000 gallon and 1 - 10,000 gallon  Gas, Diesel and K-1

我需要解析这些数据来搜索每个超级字符串中可识别的化学物质。解析完这些数据后,我可以在常用的化学数据库中搜索子集,以返回(不同质量的)每个子集的点击量。主要的问题是,我不知道如何以高效和结构化的方式开始解析这些数据。有几个想法,我正在玩:

  1. 将每个超字符串解析为所有子字符串的组合,使用空格作为子字符串的分隔符,然后搜索子字符串的所有组合。
  2. 做上面的事,但只在去掉关键字之后,我才知道没有用(坦克,等级,内部等)
  3. 使用带监督学习的机器学习算法来解析数据--在有监督学习的情况下,由我反馈被解析的数据是否有助于从外部化学数据库中提供有用的匹配。

现在我正在尝试方法2,在实现了带有可怕结果的方法1之后,但是我发现构建和维护要忽略的“键”列表太麻烦了。

如果我想遵循选项三,哪些python机器学习库可以提供此功能?

EN

回答 1

Stack Overflow用户

发布于 2015-11-24 00:52:43

你可以考虑:

  • 从一个全面的化学词汇开始。
  • 执行一个n克(可能3或4?)解析超级字符串
  • 只保留那些在化学词汇中至少包含一个术语的ngram。
  • 对每个超级字符串中与化学相关的结果进行进一步的分析。

您将缩小输入数据范围,只关注与化学相关的元素:因此,随后可能会应用许多分析工具/算法。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33883313

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档