腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
如何替换BERT标记器特殊标记
tokenizer1 = AutoTokenizer.from_pretrained("vinai/bertweet-base", normalization=True),它比bert-base-uncased的
分词
器更完整问题是,当我对一些文本进行标记化时,这个标记器有不同的特殊标记: special_tokens={'bos_
token
': '<s>', 'eos_
token
': '</s>',
浏览 4
修改于2021-10-28
得票数 0
1
回答
在json对象的字符串化列表上使用ply.lex
我有一个json对象的字符串化的python列表,我已经对其进行了部
分词
法分析。所以我希望有人能帮我写一个或者是一个可以安全地去掉这些“u” 谢谢你的帮助。
浏览 1
提问于2012-10-27
得票数 1
1
回答
收缩的sparkNLP标记化
我使用了spacy和其他
分词
器,它们通过将缩写分为"they“和"'re”来处理缩写,比如"they're“。根据这个参考资料,第105-107页sparkNLP也应该以这种方式
分词
:https://books.google.com/books?setInputCol("text").setOutputCol("document") tokenizer = Tokenizer().setInputCols(["document&q
浏览 29
提问于2021-10-19
得票数 0
2
回答
为什么
分词
和文件名扩展不适用于`[.]]‘中的条件表达式?
来自Bash参考手册shell扫描参数展开、命令替换和算术扩展的结果,这些结果没有出现在双引号内,用于
分词
。来自Filename展开部分的规则:没有设置-f选项。为什么文件名扩展也不适
浏览 0
修改于2017-04-13
得票数 0
2
回答
在bash手册中,“扩展是在命令行被拆分成单词之后执行的”,这是什么意思?
我正在读,它说它有7种类型的扩展/替代,包括“
分词
”。另一方面,它在该项目的开头说: 请让我知道什么是“扩展执行后,命令行已被分割成文字”。意思是。word1 = commandword3 = var2$1 = "word"
浏览 4
修改于2016-08-25
得票数 2
回答已采纳
1
回答
泰语Maxent模型生成
在使用ApacheOpenNlp为泰语等语言创建模型时,使用
分词
化的语料库来训练MxentModel是好的,还是应该使用未
分词
化的句子。
浏览 2
提问于2017-04-28
得票数 1
1
回答
从solr分析服务请求
分词
我已经安装了solr及其中文
分词
软件包。它在中工作得很好。solr分析工具可以很好地与中文
分词
软件包配合使用。 我的问题是,如何将
分词
请求传递给solr,以及如何获得良好的响应?
浏览 1
修改于2012-05-08
得票数 0
0
回答
如何最近用户自己词向量到这800万种?
我的项目有自己一批预料,里面有部
分词
不在这800万词向量中,我如何自己训练这部
分词
,才能追加到这800万种
浏览 228
提问于2019-05-07
2
回答
使用ICU进行
分词
我想知道是否有可能在ICU中进行
分词
,根据一些
分词
标准将中文文本分割成一系列的单词。所以下面的文本可能没有任何意义,但它应该说明我对哪种输出感兴趣):说ICU50能够
分词
想知道你们中是否有人在ICU中使用过
分词
,或者知道如何进行
分词
,或者是否有关于如何进行
分词
的好链接。
浏览 3
修改于2017-05-23
得票数 0
回答已采纳
1
回答
将IFS设置为非空白字符的Bash中的分字
这个名为"args“的脚本有助于演示
分词
示例:printf "%d args:" $#echo$ .但是,当我用非空白字符(比如: )替换IFS时,如果我直接将字符串作为参数传递,脚本就不会执行
分词
操作。1 args: <one:two:three> 但是,如果我(1)将字符串分配给一个变量,然
浏览 1
修改于2020-12-30
得票数 8
回答已采纳
2
回答
如何在Elasticsearch中根据最大词数对句子进行标记化?
我有一个字符串,比如“这是一个美丽的一天”,我应该使用什么
分词
器或者
分词
器和
分词
过滤器之间的什么组合来生成包含最多2个单词的输出?
浏览 28
提问于2019-12-16
得票数 1
回答已采纳
1
回答
MALLET标记器
您好,我想使用mallet的主题建模,但是当我将数据导入到mallet中时,我可以提供我自己的
分词
器或文本文档的
分词
化版本吗?我发现MALLET的标记器不适合我的用法...
浏览 2
提问于2010-09-17
得票数 2
回答已采纳
2
回答
分词
:正常;
分词
:保持:全部;?
这些似乎是在做同样的事情,有什么区别吗? word-break:normal; word-break: keep-all;
浏览 6
提问于2017-06-25
得票数 3
回答已采纳
1
回答
安卓系统中意外的StreamTokenizer行为
();给定以下Inputstream (从文件读取)原生Java打印输出
Token
[';'], line 1
Token
['['], line 1
Token
[']'], line 1
Token
[CA]
浏览 0
修改于2011-11-05
得票数 5
回答已采纳
2
回答
k8s自动
分词
器不工作,没有多少文档可读
我试图设置k8s自动
分词
器,我通过了:并做了很多实验,但无法使它工作。我有两种选择,但都不起作用: 在主服务器上部署自动
分词
器,我尝试了:helm install my-release stable/cluster-autoscaler --set autoDiscovery.clusterName关于如何在不使用kops或EKS的情况下设置自动
分词
器的文档非常有限。我也想知道我们市场上有多少自动分频器解决方案?对于自动
分词
器来说,在线学习资源似乎不多。编辑:我终于按照以下指南运行了自动
分词
浏览 1
修改于2020-04-07
得票数 0
回答已采纳
1
回答
SyntaxError:编译ejs时的意外令牌
但如果我试着把
分词
包括在内:我知道错误: SyntaxError: Unexpected
token
/ in C:\Users\Dacvid\Desktop\Comp Web\views
浏览 4
修改于2020-02-24
得票数 0
回答已采纳
1
回答
如何使用内置的mediawiki支持lua脚本来解析wikitext?
}{m#fro\fro弱}},从{{etyl fro_feign}{m#fro薄弱}},{{m_m_fro feindre},{{m_fro feindre}},{{m_fro feindre}的过去
分词
,{{m_fro feindre},{{m_fro feindre},从{etyl la la en}},{{m_fro_fro feindre},{{m_fro feindre}的过去
分词
,{{m_frofeindre}},{{m_fro feindre}},{{m_fro feindre}}的过去
分词
,{{m_fro_fro feind
浏览 2
提问于2018-10-15
得票数 1
回答已采纳
2
回答
Laravel Pretty URL srt_replace不起作用
我使用这个代码的导航菜单网址的漂亮的网址,但对于更多的2部
分词
,我有重定向页面到404在laravel,但对于一部
分词
没有问题 <a class="dropdown-item" href="/category
浏览 18
修改于2020-04-24
得票数 0
1
回答
分词
是POSIX的一部分吗?
我知道Bash有
分词
,但zsh没有,而且我不熟悉其他(csh、tcsh、ksh等),但我想知道它是否是任何标准的一部分。 换句话说,sh是否有
分词
功能,或者它是纯Bash特性?
浏览 0
修改于2018-04-01
得票数 5
回答已采纳
2
回答
在局部中使用部分?
把部
分词
放进部
分词
?
浏览 0
修改于2012-07-27
得票数 4
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券