两天前,我开始使用Syntaxnet,我想知道如何使用/导出输出(ascii树或conll )的格式,这种格式易于解析(即: Json、XML、python图)。
谢谢你的帮助!
发布于 2016-06-24 11:38:26
在进入ascii树之前(我认为您正在跟踪demo.sh),输入经过标记和解析。删除命令管道中的最后一步。
修改后的demo.sh文件如下所示:-
PARSER_EVAL=bazel-bin/syntaxnet/parser_eval
MODEL_DIR=syntaxnet/models/parsey_mcparseface
[[ "$1" == "--conll" ]] && INPUT_FORMAT=stdin-conll || INPUT_FORMAT=stdin
$PARSER_EVAL \
--input=$INPUT_FORMAT \
--output=stdout-conll \
--hidden_layer_sizes=64 \
--arg_prefix=brain_tagger \
--graph_builder=structured \
--task_context=$MODEL_DIR/context.pbtxt \
--model_path=$MODEL_DIR/tagger-params \
--slim_model \
--batch_size=1024 \
--alsologtostderr \
| \
$PARSER_EVAL \
--input=stdin-conll \
--output=stdout-conll \
--hidden_layer_sizes=512,512 \
--arg_prefix=brain_parser \
--graph_builder=structured \
--task_context=$MODEL_DIR/context.pbtxt \
--model_path=$MODEL_DIR/parser-params \
--slim_model \
--batch_size=1024 \
--alsologtostderr \然后你可以跑:-
$ echo 'Bob brought the pizza to Alice.' | syntaxnet/demo.sh 1>sample.txt 2>dev/null您的结果将存储在sample.txt中,它看起来如下:-
1 Bob _ NOUN NNP _ 2 nsubj _ _
2 brought _ VERB VBD _ 0 ROOT _ _
3 the _ DET DT _ 4 det _ _
4 pizza _ NOUN NN _ 2 dobj _ _
5 to _ ADP IN _ 2 prep _ _
6 Alice _ NOUN NNP _ 5 pobj _ _
7 . _ . . _ 2 punct _ _在这里,您可以通过使用\n分割数据,轻松地获得关于每个单词的头、词性和节点类型的信息。
ascii树本身就是通过使用上面的方法构建的。
发布于 2017-01-02 15:11:03
我来这里是为了寻找一个关于词性输出的传说。它是在一个删除的答案中共享的--其他用户可能无法看到。
到目前为止,缩略语的部分似乎与佩恩语音标记部分的句子相匹配。此处引用该表,以防页面下降或发生更改:
发布于 2017-04-01 13:34:11
我写了一篇博客文章,解释了如何将任何给定语言的SyntaxNet输出输入到Python,特别是NLTK,并将它的输出与依赖图和树类一起使用。
您可以在这里查看:http://www.davidsbatista.net/blog/2017/03/25/syntaxnet/
https://stackoverflow.com/questions/37875614
复制相似问题