我是OpenRefine的新手,所以如果我犯了一个简单的错误,请容忍我。我正在解析一个HTML网站来收集一些日期。
在获取各个页面时一切都进行得很顺利,但是现在HTML的解析失败了。我正在创建一个新的列,基于保存所有页面HTML的列。我正在尝试获取特定DIV20中的数据。
在“基于此列的创建列”窗口中,它为我在使用value.parseHtml().select("DIV")[20]时提供了一个预览,这正是我所需要的.执行它只会给我空白的细胞。它甚至告诉我,它是“用grel:value.parseHtml().select(”DIV“)20填充0行”
知道我做错什么了吗?
发布于 2014-10-17 15:34:21
您只需要使用.toString()完成JSON.org对象的字符串输出。
我们在wiki上解释了这一点:https://github.com/OpenRefine/OpenRefine/wiki/StrippingHTML#extract-html-attributes-text-links-with-integrated-grel-commands
我还用这个例子更新了select()函数:https://github.com/OpenRefine/OpenRefine/wiki/GREL-Other-Functions#selectelement-e-string-s
https://stackoverflow.com/questions/26402803
复制相似问题