首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使法语文本FEMMES.COM索引为女性的语言变体

如何使法语文本FEMMES.COM索引为女性的语言变体
EN

Stack Overflow用户
提问于 2017-04-29 03:28:47
回答 2查看 54关注 0票数 0

我需要FEMMES.COM被标记为基词女性的单数+复数形式。

自定义分析器Config

“分析器”:[{ "@odata.type":"#Microsoft.Azure.Search.CustomAnalyzer","name":"text_language_search_custom_analyzer",“记号器”:@odata.type "tokenFilters":“小写”,"asciifolding“,“"#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer",”:“名称”:"text_language_search_custom_analyzer_ms_tokenizer","maxTokenLength":300,"isSearchTokenizer":false,“语言”:“英语”},"tokenFilters":[],"charFilters":[]}

分析用于女性的API调用

{“分析器”:"text_language_search_custom_analyzer",“文本”:“女性”}

女性API响应分析

{ "@odata.context":“@odata.context”:{“令牌”:“女性”,"startOffset":0,"endOffset":6,“位置”:0 },{“令牌”:“女性”,"startOffset":0,"endOffset":6,“立场”:0}

分析FEMMES.COM的API响应

{ "@odata.context":“@odata.context”:{“令牌”:“女性”,"startOffset":0,"endOffset":6,“位置”:0 },{“令牌”:"com","startOffset":7,"endOffset":10,“立场”:1}

分析FEMMES的API响应

{ "@odata.context":“@odata.context”:{“令牌”:“女性”,"startOffset":0,"endOffset":6,“位置”:0 },{“令牌”:“女性”,"startOffset":0,"endOffset":6,“位置”:0 },{“令牌”:"com","startOffset":7,"endOffset":10,“位置”:1}

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-06-14 02:13:13

我先前的回答是不正确的。Azure搜索实现实际上在令牌过滤器之前应用了语言标记器。这在本质上使WordDelimiterToken过滤器在我的用例中毫无用处。

最后我不得不做的是在上传到Azure进行索引之前对数据进行预处理。在我的C#代码中,我添加了一些正则表达式逻辑,在发送到Azure之前,它会像FEMMES2017一样将文本分解成2017年的女性。这样,当文本到达Azure时,索引器将使用语言标记器将女性单独正确地标记为女性和女性。

票数 0
EN

Stack Overflow用户

发布于 2017-04-29 05:24:01

我想经过一些实验我自己想出来了。我发现MappingCharFilter可以用来代替。在索引器完成标记化之前。这使柠檬化/堵塞能够按照所涉条件发挥预期的作用。我需要与其他用例进行更彻底的集成测试,但我认为这将解决任何面临相同类型问题的人的问题。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43691489

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档