首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 高频追问点与语料匹配度分析 (Intent-Corpus Alignment)

    很多品牌觉得做了很多内容却没效果,本质上是因为品牌语料(Corpus)与用户意图(Intent)在 AI 的向量空间里根本不在一个维度。]

    8410编辑于 2026-02-23
  • 来自专栏NLP小白的学习历程

    cornell movie-dialogs corpus 康奈尔大学电影对话语料介绍及下载 可用于dialog,chatbot

    数据集地址: http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html ? ======================================================================== 英文版: Cornell Movie-Dialogs Corpus description C) Details on the collection procedure D) Contact A) Brief description: This corpus

    1.7K30发布于 2020-11-13
  • 来自专栏JadePeng的技术博客

    搜索引擎RAG召回效果评测MTEB介绍与使用入门

    = list(corpus.keys()) self.corpus = [corpus[cid] for cid in self.corpus_ids] self.relevant_docs (corpus_start_idx + self.corpus_chunk_size, len(self.corpus)) sub_corpus_embeddings = np.asarray(corpus_model.encode( self.corpus[corpus_start_idx:corpus_end_idx], (corpus_start_idx + self.corpus_chunk_size, len(corpus_embeddings)) sub_corpus_embeddings = self.corpus_ids[corpus_start_idx + sub_corpus_id] queries_result_list[name

    1.4K10编辑于 2024-02-27
  • 来自专栏R语言及实用科研软件

    🤠 Wordcloud | 风中有朵雨做的'词云'哦!~

    接着我们把上面整理好的list中每个元素都整理成一个单独的Corpus。 dataset_corpus <- lapply(dataset_s, function(x) Corpus(VectorSource( toString(x) ))) ---- 然后再把Cporus dataset_corpus_all <- dataset_corpus 6去除部分词汇 修饰一下, 去除标点、数字、无用的词汇等等。 dataset_corpus_all <- lapply(dataset_corpus_all, tm_map, removePunctuation) dataset_corpus_all <- lapply (dataset_corpus_all, tm_map, removeNumbers) dataset_corpus_all <- lapply(dataset_corpus_all, tm_map,

    34810编辑于 2023-09-04
  • 来自专栏AI机器学习与深度学习算法

    使用 HanLP 统计二元语法中的频次

    ') def load_corpus(corpus_path): ''' 通过语料库的路径加载语料库 :param corpus_path: :return: ''' return CorpusLoader.convert2SentenceList(corpus_path) sents = load_corpus("my_corpus.txt") ') def load_corpus(corpus_path): ''' 通过语料库的路径加载语料库 :param corpus_path: :return: ''' return CorpusLoader.convert2SentenceList(corpus_path) # my_corpus.txt在当前路径下 sents = load_corpus ') def statistical_single_word(corpus_path, output_path): """ 统计语料库中的单个单词的词频 :param corpus_path

    1.6K10发布于 2020-08-04
  • 来自专栏素质云笔记

    极简使用︱Glove-python词向量训练与使用

    Corpus 类有助于从令牌的interable构建一个语料库。 还支持基本的pagragraph向量。 sentense = [['你','是','谁'],['我','是','中国人']] corpus_model = Corpus() corpus_model.fit(sentense, window =10) #corpus_model.save('corpus.model') print('Dict size: %s' % len(corpus_model.dictionary)) print(' Collocations: %s' % corpus_model.matrix.nnz) 其中corpus_model.fit(corpus, window=10, ignore_missing=False 保存与加载: corpus_model.save('corpus.model') corpus_model = Corpus.load('corpus.model') (4)使用:求相似词 根据glove

    5.4K51发布于 2019-05-26
  • 来自专栏素质云笔记

    练习题 - 基于快速文本标题匹配的知识问答实现(一,基础篇)

    其中corpus 是一个字符list; corpus_update是为了增量学习; corpus_unigrams 其实是corpus+corpus_update,训练出来之后,模型里面保存的内容,意思为 corpus_ndocs / 1.0),其中corpus_ndocs 样本总条数。 = sum(v[0] for v in corpus_unigrams.itervalues()) n2p1 = len(corpus_unigrams) + nwords_corpus + 1 for word_count_corpus = 0 corpus_prob = (word_count_corpus + 1.0) / n2p1 cwd = 0 for doc_word +corpus_update数据集的单词个数,corpus数据集中的单词个数] corpus_ndocs = 3 t = mkstemp() write_model(corpus_ndocs, corpus_unigrams

    1K20发布于 2019-05-27
  • 来自专栏python3

    python实现文本分类

    (corpus_path, seg_path): ''''' corpus_path是未分词语料库路径 seg_path是分词后语料库存储路径 ''' catelist = os.listdir(corpus_path) # 获取corpus_path下的所有子目录 ''''' 其中子目录的名字就是类别名,例如: train_corpus /art/21.txt中,'train_corpus/'是corpus_path,'art'是catelist中的一个成员 ''' # 获取每个目录(类别)下所有的文件 seg_path = "D:/work/train/train/train_corpus_seg/" # 分词后分类语料库路径 corpus_segment(corpus_path "D:/work/test/test/test_corpus_seg/" # 分词后分类语料库路径 corpus_segment(corpus_path,seg_path)

    1.7K20发布于 2020-01-07
  • 来自专栏AI派

    使Twitter数据对百事可乐和可口可乐进行客户情感分析

    <- Corpus(VectorSource(data_pepsi$text)) pepsi_corpus <- tm_map(pepsi_corpus,tolower) pepsi_corpus (removeSlash)) pepsi_corpus <- tm_map(pepsi_corpus,removePunctuation) pepsi_corpus <- tm_map(pepsi_corpus <- Corpus(VectorSource(data_cola$text)) cola_corpus <- tm_map(cola_corpus,tolower) cola_corpus <- tm_map(cola_corpus,removeWords,stopwords(“en”)) cola_corpus <- tm_map(cola_corpus,content_transformer (removeSlash)) cola_corpus <- tm_map(cola_corpus,removePunctuation) cola_corpus <- tm_map(cola_corpus

    90110发布于 2021-03-19
  • 来自专栏数据分析与挖掘

    bert加载数据代码

    numpy as np from sklearn.utils import shuffle class BERTDataset(Dataset): def __init__(self, corpus_path at once or not self.on_memory = on_memory # directory of corpus dataset self.corpus_path = corpus_path # define special symbols self.pad_index = 0 self.unk_index = 1 if self.corpus_lines < 1000 else 1000)): self.random_file. , "r", encoding="utf-8") for _ in range(np.random.randint(self.corpus_lines if self.corpus_lines

    74820发布于 2020-08-26
  • 来自专栏自然语言处理

    动手学深度学习(十) NLP 语言模型与数据集

    = f.read() print(len(corpus_chars)) print(corpus_chars[: 40]) corpus_chars = corpus_chars.replace('\ n', ' ').replace('\r', ' ') corpus_chars = corpus_chars[: 10000] 63282 想要有直升机 想要和你飞到宇宙去 想要和你融化在一起 融化在宇宙里 = [char_to_idx[char] for char in corpus_chars] # 将每个字符转化为索引,得到一个索引的序列 sample = corpus_indices[: 20] = f.read() corpus_chars = corpus_chars.replace('\n', ' ').replace('\r', ' ') corpus_chars = ) // batch_size * batch_size # 保留下来的序列的长度 corpus_indices = corpus_indices[: corpus_len] # 仅保留前corpus_len

    61220发布于 2020-02-25
  • 来自专栏人工智能头条

    机器学习做中文邮件内容分类,准确识别垃圾邮件,真香!

    =filteredmaildf['Body'] labels=filteredmaildf['isSpam'] corpus=list(corpus) labels=list( from sklearn.model_selection import train_test_split# 对数据进行划分train_corpus, test_corpus, train_labels, # 进行归一化norm_train_corpus = normalize_corpus(train_corpus)norm_test_corpus = normalize_corpus(test_corpus (corpus, tokenize=False): normalized_corpus = [] for text in corpus: filtered_text = textParse (norm_train_corpus)tfidf_test_features = tfidf_vectorizer.transform(norm_test_corpus) 其中bow_extractor

    2.1K20编辑于 2022-03-03
  • 来自专栏NLP/KG

    Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索

    + '\n') #3.Semantic Search model.add_corpus(corpus) res = model.most_similar(queries=sentences, topn , s in c.items(): print(f'\t{model.corpus[corpus_id]}: {s:.4f}') output: 如何更换花呗绑定银行卡 vs 花呗更改绑定银行卡 print(f'\t{m.corpus[corpus_id]}: {s:.4f}') output: 如何更换花呗绑定银行卡 花呗更改绑定银行卡 sim score: 0.8203384355246909 , s in c.items(): print(f'\t{m.corpus[corpus_id].filename}: {s:.4f}') print('-' * 50 = glob.glob('data/*.jpg') + glob.glob('data/*.png') corpus_imgs = [Image.open(i) for i in corpus_fps

    5.5K32编辑于 2023-08-12
  • 来自专栏菜鸟学数据分析之R语言

    数据可视化|如何用wordcloud绘制词云图?

    doc_id不可替换成别的词 创建数据框格式的文本 #创建数据框格式的文本,第一列是doc_id,第二列是文章内容 TEXT_ds<-DataframeSource(TEXT_title) 构建语料库 Corpus Corpus<-tm_map(Corpus,removePunctuation)#删除标点符号 Corpus<-tm_map(Corpus,tolower)#转换为小写 Corpus<-tm_map(Corpus ,removeNumbers)#删除数字 Corpus <- tm_map(Corpus,stripWhitespace)#删除空白字符 Corpus <- tm_map(Corpus,function (x){removeWords(x,stopwords())}) Corpus <- tm_map(Corpus,PlainTextDocument)#转换为纯文本 针对语料库断字处理,生成词频权重矩阵 Term_matrix<-TermDocumentMatrix(Corpus) > Term_matrix <<TermDocumentMatrix (terms: 2462, documents:

    1.7K31发布于 2020-08-05
  • 来自专栏giantbranch's blog

    ClusterFuzz的bot源码(fuzz engine的选择与调度之libfuzzer)阅读

    # Check for seed corpus and add it into corpus directory. engine_common.unpack_seed_corpus_if_needed (target_path, corpus_dir) 假如策略里面有CORPUS_SUBSET_STRATEGY,选择一些数量的corpus作为初始的corpus # Pick a few testcases _create_temp_corpus_dir('subset') libfuzzer.copy_from_corpus(corpus_subset_dir, corpus_dir, subset_size _create_temp_corpus_dir('new') corpus_directories = [new_corpus_dir] + options.fuzz_corpus_dirs _merge_new_units(target_path, options.corpus_dir, new_corpus_dir, options.fuzz_corpus_dirs

    25300编辑于 2024-12-31
  • 来自专栏朴素人工智能

    制作年轻人的第一个python包【fastbm25】

    , "I am from China, I like math." ] tokenized_corpus = [doc.lower().split(" ") for doc in corpus] ', 2, -0.06000000000000001)] 对于中文输入不用分词,可以使用这个方法 from fastbm25 import fastbm25 corpus = [ "张三考上了清华 ", "我们都有光明的未来." ] model = fastbm25(corpus) query = "我考上了大学" result = model.top_k_sentence(query,k , "I am from China, I like math." ] tokenized_corpus = [doc.lower().split(" ") for doc in corpus] model = fastbm25(tokenized_corpus) document_a = "where are you from".lower().split() document_b = "where

    97910编辑于 2022-11-29
  • 来自专栏giantbranch's blog

    使用go-fuzz进行简单的fuzzing实践

    } 在文件目录执行go-fuzz-build,就会生成png-fuzz.zip 之后直接运行go-fuzz命令即可 $ go-fuzz 2021/11/03 09:21:10 workers: 1, corpus is not provided, starting from an empty corpus #2 INITED ft: 27 corp: 1/1b exec/s: 0 rss: 29Mb #414 会有更好的覆盖率,corpus可以从github.com/dvyukov/go-fuzz-corpus获取 $ . /go-fuzz-corpus/png/corpus/ INFO: Running with entropic power schedule (0xFF, 100). /go-fuzz-corpus/png/corpus/ INFO: -max_len is not provided; libFuzzer will not generate inputs larger

    22500编辑于 2024-12-31
  • 来自专栏爬虫逆向案例

    NLTK-003:词典资源

    词汇列表语料库 nltk.corpus.words 仅仅包含词汇列表的语料库,可以用来寻找文本语料中不常见的或者拼写错误的词汇 import nltk def unusual_words(text): ('French'))#法语停用词 名字语料库 nltk.corpus.names 包括8000个按性别分类的名字。 男女的名字存储在单独的文件 names = nltk.corpus.names cfd = nltk.ConditionalFreqDist( (fileid, name[-1]) for entries = nltk.corpus.cmudict.entries() for entr in entries: print(entr) 输出结果: 对任意一个词,词典资源都有语音的代码 ——不同的声音有着不同的标签称作音素 比较词表 nltk.corpus.swadesh 包括几种语言的约200个常用词的列表 from nltk.corpus import swadesh swadesh.fileids

    79330发布于 2021-11-22
  • 来自专栏CDN及云技术分享

    用python比较两篇文章的相似度以判断重复度

    ] vectorized_corpus = [] vocab = sorted(set(chain(*[i.lower().split() for i in corpus]))) for i in corpus: vectorized_corpus.append((i, vectorize(i, vocab))) return vectorized_corpus " sent3 = "this is a sentence" all_sents = [sent1,sent2,sent3] corpus, vocab = corpus2vectors (all_sents) return corpus, vocab def test_cosine(): corpus, vocab = create_test_corpus() for sentx, senty in product(corpus, corpus): print(sentx[0]) print(senty[0])

    1.2K10编辑于 2023-12-22
  • 来自专栏机器学习/数据可视化

    基于LDA算法的Twitter文本分析

    corpora, models, similaritiesimport loggingimport tempfileimport nltknltk.download('stopwords')from nltk.corpus :In 12:corpus = df["Tweet"].tolist()corpus[:5]Out12:["@MeltingIce Assuming max acceleration of 2 to 3 : 13, '@space_station': 14, ...... }词袋表示生成语料corpus内容:将单词转换成词袋表示In 18:corpus = [dictionary.doc2bow(text '), corpus) 建模TF-IDF模型In 20:tfidf = models.TfidfModel(corpus) # 1-模型初始化corpus_tfidf = tfidf[corpus] = lda[corpus_tfidf] In 22:lda.show_topics(total_topics, 3)Out22:[(0, '0.006*"..." + 0.006*"tesla" +

    32710编辑于 2024-06-04
领券