抱歉,标题很模糊,但我在这方面有点新。让我来解释一下我的问题和好奇心。
我有5个不同的网页,每页包含50个问题。因此,我总共有250个问题,如果我仔细观察,我可以看到其中一些问题也在重复,每一个页面的问题都可以链接到它的源和或特征,如
1.自然选择是什么?
还有其他的。
那么,我如何将这些问题添加到某种形式--我可以添加这些标记--然后运行一个程序来查找最重复的问题,或者在这5篇论文中贡献更多问题的章节或某些问题的出现趋势。
xml?RDF?语义网?
请引导我到正确的方向,我应该学习什么或做些什么来把这些问题从物理论文转换成语义足以被网络应用程序阅读的东西。
如果你对这个问题有任何混淆,请问一问。
发布于 2013-12-03 06:57:12
如果您想使用另一个程序处理数据,XML或JSON将是很好的格式。大多数语言都有很好的库来解析这两种格式。
有两种方法可以以两种格式组织数据:层次式和标记式。下面是一些如何表示它的示例:
XML层次结构:
<document>
<subject name="biology">
<chapter name="evolution">
<subChapter name="Natural Selection">
<question points="4">Some question</question>
</subChapter>
</chapter>
</subject>
</document>XML标记:
<document>
<question>
<content>Some question</content>
<subject>Biology</subject>
<chapter>Evolution</chapter>
<subChapter>Natural Selection</subChapter>
<points>4</points>
</question>
</document>第二个将更容易解析,但包含更多的冗余信息。还有许多其他方法可以组织数据。
JSON等级:
{
"Biology": {
"Evolution": {
"Natural Selection": [
{"question": "Some Question", "points":4},
{"question": "Some other Question", "points":2}
]
}
}
}JSON标签:
[{"question": "Some Question",
"subject": "Biology",
"chapter": "Evolution",
"subChapter": "Natural Selection",
"points":4
}] https://stackoverflow.com/questions/20344346
复制相似问题