搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

如何替换BERT标记器特殊标记

tokenizer1 = AutoTokenizer.from_pretrained("vinai/bertweet-base", normalization=True)，它比bert-base-uncased的分词器更完整问题是，当我对一些文本进行标记化时，这个标记器有不同的特殊标记： special_tokens={'bos_token': '<s>', 'eos_token': '</s>',

浏览 4修改于2021-10-28得票数 0

1回答

在json对象的字符串化列表上使用ply.lex

我有一个json对象的字符串化的python列表，我已经对其进行了部分词法分析。所以我希望有人能帮我写一个或者是一个可以安全地去掉这些“u” 谢谢你的帮助。

浏览 1提问于2012-10-27得票数 1

1回答

收缩的sparkNLP标记化

我使用了spacy和其他分词器，它们通过将缩写分为"they“和"'re”来处理缩写，比如"they're“。根据这个参考资料，第105-107页sparkNLP也应该以这种方式分词：https://books.google.com/books?setInputCol("text").setOutputCol("document") tokenizer = Tokenizer().setInputCols(["document&q

浏览 29提问于2021-10-19得票数 0

2回答

为什么分词和文件名扩展不适用于`[.]]‘中的条件表达式？

来自Bash参考手册shell扫描参数展开、命令替换和算术扩展的结果，这些结果没有出现在双引号内，用于分词。来自Filename展开部分的规则：没有设置-f选项。为什么文件名扩展也不适

浏览 0修改于2017-04-13得票数 0

2回答

在bash手册中，“扩展是在命令行被拆分成单词之后执行的”，这是什么意思？

我正在读，它说它有7种类型的扩展/替代，包括“分词”。另一方面，它在该项目的开头说：请让我知道什么是“扩展执行后，命令行已被分割成文字”。意思是。word1 = commandword3 = var2$1 = "word"

浏览 4修改于2016-08-25得票数 2

回答已采纳

1回答

泰语Maxent模型生成

在使用ApacheOpenNlp为泰语等语言创建模型时，使用分词化的语料库来训练MxentModel是好的，还是应该使用未分词化的句子。

浏览 2提问于2017-04-28得票数 1

1回答

从solr分析服务请求分词

我已经安装了solr及其中文分词软件包。它在中工作得很好。solr分析工具可以很好地与中文分词软件包配合使用。我的问题是，如何将分词请求传递给solr，以及如何获得良好的响应？

浏览 1修改于2012-05-08得票数 0

0回答

如何最近用户自己词向量到这800万种？

我的项目有自己一批预料，里面有部分词不在这800万词向量中，我如何自己训练这部分词，才能追加到这800万种

浏览 228提问于2019-05-07

2回答

使用ICU进行分词

我想知道是否有可能在ICU中进行分词，根据一些分词标准将中文文本分割成一系列的单词。所以下面的文本可能没有任何意义，但它应该说明我对哪种输出感兴趣)：说ICU50能够分词想知道你们中是否有人在ICU中使用过分词，或者知道如何进行分词，或者是否有关于如何进行分词的好链接。

浏览 3修改于2017-05-23得票数 0

回答已采纳

1回答

将IFS设置为非空白字符的Bash中的分字

这个名为"args“的脚本有助于演示分词示例：printf "%d args:" $#echo$ .但是，当我用非空白字符(比如: )替换IFS时，如果我直接将字符串作为参数传递，脚本就不会执行分词操作。1 args: <one:two:three> 但是，如果我(1)将字符串分配给一个变量，然

浏览 1修改于2020-12-30得票数 8

回答已采纳

2回答

如何在Elasticsearch中根据最大词数对句子进行标记化？

我有一个字符串，比如“这是一个美丽的一天”，我应该使用什么分词器或者分词器和分词过滤器之间的什么组合来生成包含最多2个单词的输出？

浏览 28提问于2019-12-16得票数 1

回答已采纳

1回答

MALLET标记器

您好，我想使用mallet的主题建模，但是当我将数据导入到mallet中时，我可以提供我自己的分词器或文本文档的分词化版本吗？我发现MALLET的标记器不适合我的用法...

浏览 2提问于2010-09-17得票数 2

回答已采纳

2回答

分词:正常；分词:保持:全部；？

这些似乎是在做同样的事情，有什么区别吗？ word-break:normal; word-break: keep-all;

浏览 6提问于2017-06-25得票数 3

回答已采纳

1回答

安卓系统中意外的StreamTokenizer行为

();给定以下Inputstream (从文件读取)原生Java打印输出Token[';'], line 1Token['['], line 1Token[']'], line 1 Token[CA]

浏览 0修改于2011-11-05得票数 5

回答已采纳

2回答

k8s自动分词器不工作，没有多少文档可读

我试图设置k8s自动分词器，我通过了：并做了很多实验，但无法使它工作。我有两种选择，但都不起作用：在主服务器上部署自动分词器，我尝试了：helm install my-release stable/cluster-autoscaler --set autoDiscovery.clusterName关于如何在不使用kops或EKS的情况下设置自动分词器的文档非常有限。我也想知道我们市场上有多少自动分频器解决方案？对于自动分词器来说，在线学习资源似乎不多。编辑:我终于按照以下指南运行了自动分词

浏览 1修改于2020-04-07得票数 0

回答已采纳

1回答

SyntaxError:编译ejs时的意外令牌

但如果我试着把分词包括在内：我知道错误： SyntaxError: Unexpected token / in C:\Users\Dacvid\Desktop\Comp Web\views

浏览 4修改于2020-02-24得票数 0

回答已采纳

1回答

如何使用内置的mediawiki支持lua脚本来解析wikitext？

}{m#fro\fro弱}}，从{{etyl fro_feign}{m#fro薄弱}}，{{m_m_fro feindre}，{{m_fro feindre}}，{{m_fro feindre}的过去分词，{{m_fro feindre}，{{m_fro feindre}，从{etyl la la en}}，{{m_fro_fro feindre}，{{m_fro feindre}的过去分词，{{m_frofeindre}}，{{m_fro feindre}}，{{m_fro feindre}}的过去分词，{{m_fro_fro feind

浏览 2提问于2018-10-15得票数 1

回答已采纳

2回答

Laravel Pretty URL srt_replace不起作用

我使用这个代码的导航菜单网址的漂亮的网址，但对于更多的2部分词，我有重定向页面到404在laravel，但对于一部分词没有问题 <a class="dropdown-item" href="/category

浏览 18修改于2020-04-24得票数 0

1回答

分词是POSIX的一部分吗？

我知道Bash有分词，但zsh没有，而且我不熟悉其他(csh、tcsh、ksh等)，但我想知道它是否是任何标准的一部分。换句话说，sh是否有分词功能，或者它是纯Bash特性？

浏览 0修改于2018-04-01得票数 5

回答已采纳

2回答

在局部中使用部分？

把部分词放进部分词？

浏览 0修改于2012-07-27得票数 4

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

如何替换BERT标记器特殊标记

在json对象的字符串化列表上使用ply.lex

收缩的sparkNLP标记化

为什么分词和文件名扩展不适用于`[.]]‘中的条件表达式？

在bash手册中，“扩展是在命令行被拆分成单词之后执行的”，这是什么意思？

泰语Maxent模型生成

从solr分析服务请求分词

如何最近用户自己词向量到这800万种？

使用ICU进行分词

将IFS设置为非空白字符的Bash中的分字

如何在Elasticsearch中根据最大词数对句子进行标记化？

MALLET标记器

分词:正常；分词:保持:全部；？

安卓系统中意外的StreamTokenizer行为

k8s自动分词器不工作，没有多少文档可读

SyntaxError:编译ejs时的意外令牌

如何使用内置的mediawiki支持lua脚本来解析wikitext？

Laravel Pretty URL srt_replace不起作用

分词是POSIX的一部分吗？

在局部中使用部分？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐