我需要用JFlex创建一个解析器来从输入文件中提取所有单词,包括那些带有重音字符的单词,如a,é,í,ó,u,ñ,...
我的问题是,即使用UTF8编码和%unicode标记设置所有文件,我也不能让它识别这些字符。
.lex文件如下所示:
import java_cup.runtime.*;
%%
%class ParserLex
%unicode
%public
%final
%cup
%init{
%init}
%{
private Symbol sym(int type) {
return sym(type, yytext());
}
private Symbol sym(int type, Object value) {
return new Symbol(type, yyline, yycolumn, value);
}
%}
Token = [áéíóú]
ANY = .
%%
{Token}
{ System.out.println(yytext()); }
{ANY}
{ }我的测试类是这样的:
class ParserTest {
public static void main(String[] args) throws IOException {
InputStreamReader reader = new InputStreamReader(new FileInputStream(args[0]), "UTF8");
ParserLex parser = new ParserLex(reader);
for (Symbol sym = parser.next_token(); sym.sym != 0; sym = parser.next_token()) {
}
reader.close();
}
}对这个问题有什么想法或建议吗?
发布于 2013-07-01 15:35:27
我最近发现jFlex输出的错误如下
Warning in file "scanner.jflex" (line 42):
Rule can never be matched:
"???" { return new Symbol(Symbols.CIRCLED_MINUS, 1, yycolumn + 1, null); }对于我的UTF-8字符文字
"⊖" { return new Symbol(Symbols.CIRCLED_MINUS, 1, yycolumn + 1, null); }在Linux上,我更改了LANG环境变量以指定编码,例如C.UTF-8,并删除了警告。使用命令行选项-Dfile.encoding=UTF-8更便于移植。我还找到了feature request 29,暗示jFlex遵循系统默认编码。
https://stackoverflow.com/questions/16571232
复制相似问题