文章/答案/技术大牛

发布

社区首页 >问答首页 >解析和导航UTF-8字节流的惯用方法

问解析和导航UTF-8字节流的惯用方法
EN

Stack Overflow用户

提问于 2016-11-04 04:37:20

回答 1查看 388关注 0票数 1

我正在开发Rust中的词法分析器/记号赋予器，它需要将UTF-8输入文件(以&[u8]形式给出)解析成单独的char进行解析，但还必须跟踪文件中的字节位置。在稍后的阶段--比如在输入中需要报告错误时--我需要根据字节和回溯来定位有问题的字符，以找到其行上的相对位置。

将字节流解析为字符(跟踪字节位置)的惯用方法是什么?标准库中有没有函数可以让我计算出后面有多少个尾随字节，或者一个字节是前导字节还是尾字节，或者我必须根据Unicode标准自己实现这些函数？

例如，如下所示：

// First to parse some input stream:
let input: &[u8] = "something";
for (chr, bytepos) in parse(input) {
    // ...
}

// Later to locate a character based on the byte position and
// use is_leading_byte() to step backwards and count the number
// of characters since the start of the line:
let chr: u8 = input[some_bytepos];
chr.is_leading_byte();
chr.is_trailing_byte();

rust

unicode

utf-8

回答 1

Stack Overflow用户

发布于 2016-11-04 15:31:32

看起来char_indices解决了我的两个问题：

let input: &str = "something";
for (offset, chr) in input.char_indices() {
    // ...
}

在以后的阶段，可以使用split_at来查找字符并倒着计数该行中前面的字符的数量

let input: &str = "something";
let where: usize = 4;
let (left,_) = input.split_at(where);
for (offset, chr) in left.char_indices().rev() {
    if chr == '\n' {
        break;
    }
    // ...
}

Matthieu M.指出一个警告:迭代和计算Unicode代码点并不一定对应于人们本能地认为是单个字母的脚本；这是由于多个代码点可以组成一个字素的事实。An example can be found in the documentation of chars()。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40410805

复制

相似问题

问解析和导航UTF-8字节流的惯用方法
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问解析和导航UTF-8字节流的惯用方法EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问解析和导航UTF-8字节流的惯用方法
EN