我正在尝试解析一行,其中包含由分隔符分隔的字符串,并将其转换为这些字符串的序列。它应该能够在字符串中包含任何字符,如果一个字段包含一个分隔符,那么它周围需要双引号。为了在这样的字段中有双引号,双引号被转义。
我的语法是这样的:
class CsvParser(val input: ParserInput, val delimiter: String = ",") extends Parser {
def line: Rule1[Seq[String]] = rule {record ~ EOI}
def record = rule(oneOrMore(field).separatedBy(delimiter))
def QUOTE = "\""
def ESCAPED_QUOTE = "\\\""
def DELIMITER_QUOTE = delimiter+"\""
def WS = " \t".replace(delimiter, "")
def field = rule{whiteSpace ~ ((QUOTE ~ escapedField ~ QUOTE) | unquotedField) ~ whiteSpace}
def escapedField = rule { capture(zeroOrMore(noneOf(QUOTE) | ESCAPED_QUOTE)) ~> (_.replace(ESCAPED_QUOTE, QUOTE)) }
def unquotedField = rule { capture(zeroOrMore(noneOf(DELIMITER_QUOTE))) }
def whiteSpace = rule(zeroOrMore(anyOf(WS)))
}当我用"quote\"key",1,2调用它时,我得到了Invalid input 'k', expected whiteSpace, ',' or 'EOI' (line 1, column 9)
我做错了什么?我将如何调试这个?(还有一个额外的问题:如何扩展语法以允许分隔符成为像##这样的多个字符?)
谢谢!
发布于 2015-07-17 15:55:44
Parboiled2似乎没有回溯地执行规则。
在这种特殊情况下
def escapedField = rule { capture(zeroOrMore(noneOf(QUOTE) | ESCAPED_QUOTE)) ~> (_.replace(ESCAPED_QUOTE, QUOTE)) } noneOf(QUOTE)捕获\ from \“然后返回,而不是回溯并试图捕获完整的\”。
该错误通过使用
def escapedField = rule { capture(ESCAPED_QUOTE | zeroOrMore(noneOf(QUOTE))) ~> (_.replace(ESCAPED_QUOTE, QUOTE)) } https://stackoverflow.com/questions/31458447
复制相似问题