搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

高频追问点与语料匹配度分析 (Intent-Corpus Alignment)
很多品牌觉得做了很多内容却没效果，本质上是因为品牌语料（Corpus）与用户意图（Intent）在 AI 的向量空间里根本不在一个维度。]
9310编辑于 2026-02-23
来自专栏NLP小白的学习历程
cornell movie-dialogs corpus 康奈尔大学电影对话语料介绍及下载可用于dialog，chatbot
数据集地址： http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html ? ======================================================================== 英文版： Cornell Movie-Dialogs Corpus description C) Details on the collection procedure D) Contact A) Brief description: This corpus
1.7K30发布于 2020-11-13
来自专栏JadePeng的技术博客
搜索引擎RAG召回效果评测MTEB介绍与使用入门
= list(corpus.keys()) self.corpus = [corpus[cid] for cid in self.corpus_ids] self.relevant_docs (corpus_start_idx + self.corpus_chunk_size, len(self.corpus)) sub_corpus_embeddings = np.asarray(corpus_model.encode( self.corpus[corpus_start_idx:corpus_end_idx], (corpus_start_idx + self.corpus_chunk_size, len(corpus_embeddings)) sub_corpus_embeddings = self.corpus_ids[corpus_start_idx + sub_corpus_id] queries_result_list[name
1.4K10编辑于 2024-02-27
来自专栏素质云笔记
极简使用︱Glove-python词向量训练与使用
Corpus 类有助于从令牌的interable构建一个语料库。还支持基本的pagragraph向量。 sentense = [['你','是','谁'],['我','是','中国人']] corpus_model = Corpus() corpus_model.fit(sentense, window =10) #corpus_model.save('corpus.model') print('Dict size: %s' % len(corpus_model.dictionary)) print(' Collocations: %s' % corpus_model.matrix.nnz) 其中corpus_model.fit(corpus, window=10, ignore_missing=False 保存与加载： corpus_model.save('corpus.model') corpus_model = Corpus.load('corpus.model') （4）使用：求相似词根据glove
5.5K51发布于 2019-05-26
来自专栏素质云笔记
练习题 - 基于快速文本标题匹配的知识问答实现（一，基础篇）
其中corpus 是一个字符list； corpus_update是为了增量学习； corpus_unigrams 其实是corpus+corpus_update,训练出来之后，模型里面保存的内容，意思为 corpus_ndocs / 1.0)，其中corpus_ndocs 样本总条数。 = sum(v[0] for v in corpus_unigrams.itervalues()) n2p1 = len(corpus_unigrams) + nwords_corpus + 1 for word_count_corpus = 0 corpus_prob = (word_count_corpus + 1.0) / n2p1 cwd = 0 for doc_word +corpus_update数据集的单词个数，corpus数据集中的单词个数] corpus_ndocs = 3 t = mkstemp() write_model(corpus_ndocs, corpus_unigrams
1K20发布于 2019-05-27
来自专栏R语言及实用科研软件
🤠 Wordcloud | 风中有朵雨做的'词云'哦！~
接着我们把上面整理好的list中每个元素都整理成一个单独的Corpus。 dataset_corpus <- lapply(dataset_s, function(x) Corpus(VectorSource( toString(x) ))) ---- 然后再把Cporus dataset_corpus_all <- dataset_corpus 6去除部分词汇修饰一下，去除标点、数字、无用的词汇等等。 dataset_corpus_all <- lapply(dataset_corpus_all, tm_map, removePunctuation) dataset_corpus_all <- lapply (dataset_corpus_all, tm_map, removeNumbers) dataset_corpus_all <- lapply(dataset_corpus_all, tm_map,
38010编辑于 2023-09-04
来自专栏AI机器学习与深度学习算法
使用 HanLP 统计二元语法中的频次
') def load_corpus(corpus_path): ''' 通过语料库的路径加载语料库 :param corpus_path: :return: ''' return CorpusLoader.convert2SentenceList(corpus_path) sents = load_corpus("my_corpus.txt") ') def load_corpus(corpus_path): ''' 通过语料库的路径加载语料库 :param corpus_path: :return: ''' return CorpusLoader.convert2SentenceList(corpus_path) # my_corpus.txt在当前路径下 sents = load_corpus ') def statistical_single_word(corpus_path, output_path): """ 统计语料库中的单个单词的词频 :param corpus_path
1.6K10发布于 2020-08-04
来自专栏python3
python实现文本分类
(corpus_path, seg_path): ''''' corpus_path是未分词语料库路径 seg_path是分词后语料库存储路径 ''' catelist = os.listdir(corpus_path) # 获取corpus_path下的所有子目录 ''''' 其中子目录的名字就是类别名，例如： train_corpus /art/21.txt中，'train_corpus/'是corpus_path，'art'是catelist中的一个成员 ''' # 获取每个目录（类别）下所有的文件 seg_path = "D:/work/train/train/train_corpus_seg/" # 分词后分类语料库路径 corpus_segment(corpus_path "D:/work/test/test/test_corpus_seg/" # 分词后分类语料库路径 corpus_segment(corpus_path,seg_path)
1.7K20发布于 2020-01-07
来自专栏AI派
使Twitter数据对百事可乐和可口可乐进行客户情感分析
<- Corpus(VectorSource(data_pepsi$text)) pepsi_corpus <- tm_map(pepsi_corpus,tolower) pepsi_corpus (removeSlash)) pepsi_corpus <- tm_map(pepsi_corpus,removePunctuation) pepsi_corpus <- tm_map(pepsi_corpus <- Corpus(VectorSource(data_cola$text)) cola_corpus <- tm_map(cola_corpus,tolower) cola_corpus <- tm_map(cola_corpus,removeWords,stopwords(“en”)) cola_corpus <- tm_map(cola_corpus,content_transformer (removeSlash)) cola_corpus <- tm_map(cola_corpus,removePunctuation) cola_corpus <- tm_map(cola_corpus
91610发布于 2021-03-19
来自专栏数据分析与挖掘
bert加载数据代码
numpy as np from sklearn.utils import shuffle class BERTDataset(Dataset): def __init__(self, corpus_path at once or not self.on_memory = on_memory # directory of corpus dataset self.corpus_path = corpus_path # define special symbols self.pad_index = 0 self.unk_index = 1 if self.corpus_lines < 1000 else 1000)): self.random_file. , "r", encoding="utf-8") for _ in range(np.random.randint(self.corpus_lines if self.corpus_lines
75820发布于 2020-08-26
来自专栏自然语言处理
动手学深度学习(十) NLP 语言模型与数据集
= f.read() print(len(corpus_chars)) print(corpus_chars[: 40]) corpus_chars = corpus_chars.replace('\ n', ' ').replace('\r', ' ') corpus_chars = corpus_chars[: 10000] 63282 想要有直升机想要和你飞到宇宙去想要和你融化在一起融化在宇宙里 = [char_to_idx[char] for char in corpus_chars] # 将每个字符转化为索引，得到一个索引的序列 sample = corpus_indices[: 20] = f.read() corpus_chars = corpus_chars.replace('\n', ' ').replace('\r', ' ') corpus_chars = ) // batch_size * batch_size # 保留下来的序列的长度 corpus_indices = corpus_indices[: corpus_len] # 仅保留前corpus_len
63720发布于 2020-02-25
来自专栏人工智能头条
机器学习做中文邮件内容分类，准确识别垃圾邮件，真香！
=filteredmaildf['Body'] labels=filteredmaildf['isSpam'] corpus=list(corpus) labels=list( from sklearn.model_selection import train_test_split# 对数据进行划分train_corpus, test_corpus, train_labels, # 进行归一化norm_train_corpus = normalize_corpus(train_corpus)norm_test_corpus = normalize_corpus(test_corpus (corpus, tokenize=False): normalized_corpus = [] for text in corpus: filtered_text = textParse (norm_train_corpus)tfidf_test_features = tfidf_vectorizer.transform(norm_test_corpus) 其中bow_extractor
2.1K20编辑于 2022-03-03
来自专栏giantbranch's blog
ClusterFuzz的bot源码(fuzz engine的选择与调度之libfuzzer)阅读
# Check for seed corpus and add it into corpus directory. engine_common.unpack_seed_corpus_if_needed (target_path, corpus_dir) 假如策略里面有CORPUS_SUBSET_STRATEGY，选择一些数量的corpus作为初始的corpus # Pick a few testcases _create_temp_corpus_dir('subset') libfuzzer.copy_from_corpus(corpus_subset_dir, corpus_dir, subset_size _create_temp_corpus_dir('new') corpus_directories = [new_corpus_dir] + options.fuzz_corpus_dirs _merge_new_units(target_path, options.corpus_dir, new_corpus_dir, options.fuzz_corpus_dirs
29500编辑于 2024-12-31
来自专栏NLP/KG
Similarities：精准相似度计算与语义匹配搜索工具包，多维度实现多种算法，覆盖文本、图像等领域，支持文搜、图搜文、图搜图匹配搜索
+ '\n') #3.Semantic Search model.add_corpus(corpus) res = model.most_similar(queries=sentences, topn , s in c.items(): print(f'\t{model.corpus[corpus_id]}: {s:.4f}') output: 如何更换花呗绑定银行卡 vs 花呗更改绑定银行卡 print(f'\t{m.corpus[corpus_id]}: {s:.4f}') output: 如何更换花呗绑定银行卡花呗更改绑定银行卡 sim score: 0.8203384355246909 , s in c.items(): print(f'\t{m.corpus[corpus_id].filename}: {s:.4f}') print('-' * 50 = glob.glob('data/*.jpg') + glob.glob('data/*.png') corpus_imgs = [Image.open(i) for i in corpus_fps
5.7K32编辑于 2023-08-12
来自专栏菜鸟学数据分析之R语言
数据可视化|如何用wordcloud绘制词云图？
doc_id不可替换成别的词创建数据框格式的文本 #创建数据框格式的文本，第一列是doc_id,第二列是文章内容 TEXT_ds<-DataframeSource(TEXT_title) 构建语料库 Corpus Corpus<-tm_map(Corpus,removePunctuation)#删除标点符号 Corpus<-tm_map(Corpus,tolower)#转换为小写 Corpus<-tm_map(Corpus ,removeNumbers)#删除数字 Corpus <- tm_map(Corpus,stripWhitespace)#删除空白字符 Corpus <- tm_map(Corpus,function (x){removeWords(x,stopwords())}) Corpus <- tm_map(Corpus,PlainTextDocument)#转换为纯文本针对语料库断字处理，生成词频权重矩阵 Term_matrix<-TermDocumentMatrix(Corpus) > Term_matrix <<TermDocumentMatrix (terms: 2462, documents:
1.8K31发布于 2020-08-05
来自专栏朴素人工智能
制作年轻人的第一个python包【fastbm25】
, "I am from China, I like math." ] tokenized_corpus = [doc.lower().split(" ") for doc in corpus] ', 2, -0.06000000000000001)] 对于中文输入不用分词，可以使用这个方法 from fastbm25 import fastbm25 corpus = [ "张三考上了清华 ", "我们都有光明的未来." ] model = fastbm25(corpus) query = "我考上了大学" result = model.top_k_sentence(query,k , "I am from China, I like math." ] tokenized_corpus = [doc.lower().split(" ") for doc in corpus] model = fastbm25(tokenized_corpus) document_a = "where are you from".lower().split() document_b = "where
1K10编辑于 2022-11-29
来自专栏NLP/KG
解锁搜索新境界！让文本语义匹配助你轻松找到你需要的一切！(快速上手baseline)
+ '\n') # 3.Semantic Search model.add_corpus(corpus) res = model.most_similar(queries=sentences, topn , s in c.items(): print(f'\t{model.corpus[corpus_id]}: {s:.4f}') 2023-09-11 02:43:19.744 | DEBUG , s in c.items(): print(f'\t{model.corpus[corpus_id]}: {s:.4f}') 2023-09-11 02:46:32.262 | DEBUG = [i + str(id) for id, i in enumerate(corpus * 10)] model = AnnoySimilarity(corpus=corpus_new) (corpus * 10)] print(corpus_new) model = HnswlibSimilarity(corpus=corpus_new) print(model
66410编辑于 2023-10-11
来自专栏CDN及云技术分享
用python比较两篇文章的相似度以判断重复度
] vectorized_corpus = [] vocab = sorted(set(chain(*[i.lower().split() for i in corpus]))) for i in corpus: vectorized_corpus.append((i, vectorize(i, vocab))) return vectorized_corpus " sent3 = "this is a sentence" all_sents = [sent1,sent2,sent3] corpus, vocab = corpus2vectors (all_sents) return corpus, vocab def test_cosine(): corpus, vocab = create_test_corpus() for sentx, senty in product(corpus, corpus): print(sentx[0]) print(senty[0])
1.3K10编辑于 2023-12-22
来自专栏giantbranch's blog
使用go-fuzz进行简单的fuzzing实践
} 在文件目录执行go-fuzz-build，就会生成png-fuzz.zip 之后直接运行go-fuzz命令即可 $ go-fuzz 2021/11/03 09:21:10 workers: 1, corpus is not provided, starting from an empty corpus #2 INITED ft: 27 corp: 1/1b exec/s: 0 rss: 29Mb #414 会有更好的覆盖率，corpus可以从github.com/dvyukov/go-fuzz-corpus获取 $ . /go-fuzz-corpus/png/corpus/ INFO: Running with entropic power schedule (0xFF, 100). /go-fuzz-corpus/png/corpus/ INFO: -max_len is not provided; libFuzzer will not generate inputs larger
26100编辑于 2024-12-31
来自专栏机器学习/数据可视化
基于LDA算法的Twitter文本分析
corpora, models, similaritiesimport loggingimport tempfileimport nltknltk.download('stopwords')from nltk.corpus ：In 12:corpus = df["Tweet"].tolist()corpus[:5]Out12:["@MeltingIce Assuming max acceleration of 2 to 3 : 13, '@space_station': 14, ...... }词袋表示生成语料corpus内容：将单词转换成词袋表示In 18:corpus = [dictionary.doc2bow(text '), corpus) 建模TF-IDF模型In 20:tfidf = models.TfidfModel(corpus) # 1-模型初始化corpus_tfidf = tfidf[corpus] = lda[corpus_tfidf] In 22:lda.show_topics(total_topics, 3)Out22:[(0, '0.006*"..." + 0.006*"tesla" +
35710编辑于 2024-06-04

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

高频追问点与语料匹配度分析 (Intent-Corpus Alignment)

cornell movie-dialogs corpus 康奈尔大学电影对话语料介绍及下载可用于dialog，chatbot

搜索引擎RAG召回效果评测MTEB介绍与使用入门

极简使用︱Glove-python词向量训练与使用

练习题 - 基于快速文本标题匹配的知识问答实现（一，基础篇）

🤠 Wordcloud | 风中有朵雨做的'词云'哦！~

使用 HanLP 统计二元语法中的频次

python实现文本分类

使Twitter数据对百事可乐和可口可乐进行客户情感分析

bert加载数据代码

动手学深度学习(十) NLP 语言模型与数据集

机器学习做中文邮件内容分类，准确识别垃圾邮件，真香！

ClusterFuzz的bot源码(fuzz engine的选择与调度之libfuzzer)阅读

Similarities：精准相似度计算与语义匹配搜索工具包，多维度实现多种算法，覆盖文本、图像等领域，支持文搜、图搜文、图搜图匹配搜索

数据可视化|如何用wordcloud绘制词云图？

制作年轻人的第一个python包【fastbm25】

解锁搜索新境界！让文本语义匹配助你轻松找到你需要的一切！(快速上手baseline)

用python比较两篇文章的相似度以判断重复度

使用go-fuzz进行简单的fuzzing实践

基于LDA算法的Twitter文本分析

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

高频追问点与语料匹配度分析 (Intent-Corpus Alignment)

cornell movie-dialogs corpus 康奈尔大学电影对话语料介绍及下载 可用于dialog，chatbot

搜索引擎RAG召回效果评测MTEB介绍与使用入门

极简使用︱Glove-python词向量训练与使用

练习题 - 基于快速文本标题匹配的知识问答实现（一，基础篇）

🤠 Wordcloud | 风中有朵雨做的'词云'哦！~

使用 HanLP 统计二元语法中的频次

python实现文本分类

使Twitter数据对百事可乐和可口可乐进行客户情感分析

bert加载数据代码

动手学深度学习(十) NLP 语言模型与数据集

机器学习做中文邮件内容分类，准确识别垃圾邮件，真香！

ClusterFuzz的bot源码(fuzz engine的选择与调度之libfuzzer)阅读

Similarities：精准相似度计算与语义匹配搜索工具包，多维度实现多种算法，覆盖文本、图像等领域，支持文搜、图搜文、图搜图匹配搜索

数据可视化|如何用wordcloud绘制词云图？

制作年轻人的第一个python包【fastbm25】

解锁搜索新境界！让文本语义匹配助你轻松找到你需要的一切！(快速上手baseline)

用python比较两篇文章的相似度以判断重复度

使用go-fuzz进行简单的fuzzing实践

基于LDA算法的Twitter文本分析

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

cornell movie-dialogs corpus 康奈尔大学电影对话语料介绍及下载可用于dialog，chatbot