首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >剖面Regex词汇

剖面Regex词汇
EN

Stack Overflow用户
提问于 2011-08-18 23:15:16
回答 1查看 331关注 0票数 4

我在PHP中创建了一个路由器,它采用DSL (基于Rails 3路由)并将其转换为Regex。它有可选段(用(嵌套的)括号表示)。以下是当前的词法算法:

代码语言:javascript
复制
private function tokenize($pattern)
{
    $rules = array(
        self::OPEN_PAREN_TYPE  => '/^(\()/',
        self::CLOSE_PAREN_TYPE => '/^(\))/',
        self::VARIABLE_TYPE    => '/^:([a-z0-9_]+)/',
        self::TEXT_TYPE        => '/^([^:()]+)/',
    );

    $cursor = 0;
    $tokens = array();
    $buffer = $pattern;
    $buflen = strlen($buffer);

    while ($cursor < $buflen)
    {
        $chunk = substr($buffer, $cursor);

        $matched = false;
        foreach ($rules as $type => $rule)
        {
            if (preg_match($rule, $chunk, $matches))
            {
                $tokens[] = array(
                    'type'  => $type,
                    'value' => $matches[1],
                );

                $matched = true;
                $cursor += strlen($matches[0]);
            }
        }

        if (!$matched)
        {
            throw new \Exception(sprintf('Problem parsing route "%s" at char "%d".', $pattern, $cursor));
        }
    }

    return $tokens;
}

我错过了什么明显的提速吗?有没有办法完全放弃preg_*,或者将正则表达式合并成一个模式,等等?

下面是xhprof调用图(基准测试使用了2500条唯一的测试路径):

我知道最好的解决方案是不对每个请求调用这个(我计划用APC缓存等等),但是对于那些在没有启用APC的情况下使用这个库的人来说,这是最有效的。

编辑:

我还编写了一个快速状态机版本,它的性能似乎更好。我仍然对这两个方面的建议持开放态度,因为我认为第一个代码更优雅。

代码语言:javascript
复制
private function tokenize2($pattern)
{
    $buffer = '';
    $invariable = false;

    $tokens = array();
    foreach (str_split($pattern) as $char)
    {
        switch ($char)
        {
            case '(':
                if ($buffer)
                {
                    $tokens[] = array(
                        'type'  => $invariable ? self::VARIABLE_TYPE : self::TEXT_TYPE,
                        'value' => $buffer,
                    );
                    $buffer = '';
                    $invariable = false;
                }

                $tokens[] = array(
                    'type' => self::OPEN_PAREN_TYPE,
                );
                break;
            case ')':
                if ($buffer)
                {
                    $tokens[] = array(
                        'type'  => $invariable ? self::VARIABLE_TYPE : self::TEXT_TYPE,
                        'value' => $buffer,
                    );
                    $buffer = '';
                    $invariable = false;
                }

                $tokens[] = array(
                    'type' => self::CLOSE_PAREN_TYPE,
                );
                break;
            case ':':
                if ($buffer)
                {
                    $tokens[] = array(
                        'type'  => $invariable ? self::VARIABLE_TYPE : self::TEXT_TYPE,
                        'value' => $buffer,
                    );
                    $buffer = '';
                    $invariable = false;
                }

                $invariable = true;
                break;
            default:
                if ($invariable && !(ctype_alnum($char) || '_' == $char ))
                {
                    $invariable = false;
                    $tokens[] = array(
                        'type'  => self::VARIABLE_TYPE,
                        'value' => $buffer,
                    );

                    $buffer = '';
                    $invariable = false;
                }

                $buffer .= $char;
                break;
        }
    }

    if ($buffer)
    {
        $tokens[] = array(
        'type'  => $invariable ? self::VARIABLE_TYPE : self::TEXT_TYPE,
        'value' => $buffer,
        );
        $buffer = '';
    }

    return $tokens;

最后,出于性能考虑,我只使用了状态机,并使用APC缓存了整个lexing进程(因为.(为什么不可以)。

如果有人有什么贡献的话,我很乐意给出答案。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-10-25 18:53:38

有趣的代码:)。

我不太清楚你在说什么“用APC缓存整个lexing过程”,所以我可能是在建议您已经在做什么。

你能只缓存输入URL,以及实际的词汇处理上面的结果吗?这里不需要应用任何基于权限的限制,因此缓存是全局的。路线的数量往往是有限的,即使在一个大的地点,有一些非常热门的地方。完全绕过lexing,并在以前使用的任何路由上访问缓存。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7115259

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档