我是Azure认知搜索的新手。我有一个docx文件,存储在azure存储中。我使用#Microsoft.Skills.Text.SplitSkill将文档分割成多个页面(块).But,当我索引这个技能的输出时,我得到整个docx文件content.how,我从SplitSkill返回“页面”,这样用户就可以看到他们搜索找到的原始文档的部分,而不是返回整个文档吗?
请提前协助me.Thank。
发布于 2020-08-31 21:44:51
拆分技巧允许您将文本分割成较小的块/页,然后再通过其他认知技能进行处理。
下面是一个极简的技巧集,它可以进行分裂和翻译:
"skillset": [
{
"@odata.type": "#Microsoft.Skills.Text.SplitSkill",
"textSplitMode": "pages",
"maximumPageLength": 1000,
"defaultLanguageCode": "en",
"inputs": [
{
"name": "text",
"source": "/document/content"
},
{
"name": "languageCode",
"source": "/document/language"
}
],
"outputs": [
{
"name": "textItems",
"targetName": "mypages"
}
]
},
{
"@odata.type": "#Microsoft.Skills.Text.TranslationSkill",
"name": "#2",
"description": null,
"context": "/document/mypages/*",
"defaultFromLanguageCode": null,
"defaultToLanguageCode": "es",
"suggestedFrom": "en",
"inputs": [
{
"name": "text",
"source": "/document/mypages/*"
}
],
"outputs": [
{
"name": "translatedText",
"targetName": "translated_text"
}
]
}
]请注意,拆分技能在丰富树中的"\document\mypages“节点下生成了文本元素的集合。同样,通过向翻译技能提供上下文"\document\mypages*“,我们告诉翻译技巧在”每一页“上执行翻译。
不过,我要指出的是,文档仍将在文档级别进行索引。技能集并不是真正为“改变索引的基数”而构建的。尽管如此,解决方法可能是将每个页面作为单独的元素投影到知识存储中,然后创建一个单独的索引,该索引实际上侧重于对每个页面进行索引。
在这里了解更多关于知识商店预测的信息:https://learn.microsoft.com/en-us/azure/search/knowledge-store-concept-intro
https://stackoverflow.com/questions/60951080
复制相似问题