我正在Marpa中实现一个新的DSL,并且(来自Regexp::Grammars)我非常满意。我的语言支持一组一元和二进制运算符、具有C风格标识符的对象以及使用熟悉的点表示法调用的方法。例如:
foo.has(bar == 42 AND baz == 23)
我发现了Marpa的语法描述语言提供的优先规则特性,并且非常依赖它,所以我几乎只有一个G1规则Expression。摘录(为了简洁起见,省略了许多备选方案和语义操作):
Expression ::=
NumLiteral
| '(' Expression ')' assoc => group
|| Expression ('.') Identifier
|| Expression ('.') Identifier Args
| Expression ('==') Expression
|| Expression ('AND') Expression
Args ::= ('(') ArgsList (')')
ArgsList ::= Expression+ separator => [,]
Identifier ~ IdentifierHeadChar IdentifierBody
IdentifierBody ~ IdentifierBodyChar*
IdentifierHeadChar ~ [a-zA-Z_]
IdentifierBodyChar ~ [a-zA-Z0-9_]
NumLiteral ~ [0-9]+如您所见,我使用的是无扫描界面(SLIF)。我的问题是,这也分析了,例如:
foo.AND(5)Marpa知道在点之后只能有一个标识符,所以它甚至不考虑AND可能是一个关键字这一事实。我知道我可以通过一个单独的词法阶段来避免这个问题,这个阶段明确地将AND识别为一个关键字,但是这个小小的剪纸并不值得去做。
是否有办法将Identifier规则限制为非关键字标识符?
发布于 2014-11-24 17:39:41
我不知道如何用语法来表达这样的事情。您可以为标识符引入一个中间的非终端,它将检查条件,不过:
#!/usr/bin/perl
use warnings;
use strict;
use Syntax::Construct qw{ // };
use Marpa::R2;
my %reserved = map { $_ => 1 } qw( AND );
my $grammar = 'Marpa::R2::Scanless::G'->new(
{ bless_package => 'main',
source => \( << '__GRAMMAR__'),
:default ::= action => store
:start ::= S
S ::= Id
| Id NumLiteral
Id ::= Identifier action => allowed
Identifier ~ IdentifierHeadChar IdentifierBody
IdentifierBody ~ IdentifierBodyChar*
IdentifierHeadChar ~ [a-zA-Z_]
IdentifierBodyChar ~ [a-zA-Z0-9_]
NumLiteral ~ [0-9]+
:discard ~ whitespace
whitespace ~ [\s]+
__GRAMMAR__
});
for my $value ('ABC', 'ABC 42', 'AND 1') {
my $value = $grammar->parse(\$value, 'main');
print $$value, "\n";
}
sub store {
my (undef, $id, $arg) = @_;
$arg //= 'null';
return "$id $arg";
}
sub allowed {
my (undef, $id) = @_;
die "Reserved keyword $id" if $reserved{$id};
return $id
}https://stackoverflow.com/questions/27109840
复制相似问题