首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏素质云笔记

    重磅︱R+NLP:text2vec包——New 文本分析生态系统 No.1(一,简介)

    那么前面一类有三个开源的包,后面这一类我倒是看到得不多,恰好是在我关注了许久的一个包里面有,它就是text2vec啦。该包提供了一个强大API接口,能够很好地处理文本信息。 这个生态系统也是笔者见到过的,R语言里面最好、最全面的包了,包含了很多类型的算法以及成熟的应用。而且包的介绍十分详尽,很棒!! 系列文章: 重磅︱R+NLP:text2vec包——New 文本分析生态系统 No.1(一,简介) R+NLP︱text2vec包——BOW词袋模型做监督式情感标注案例(二,情感标注) R+NLP︱text2vec ——————————— 三、LDA主题模型 LDA主题模型是基于lda包开发的(Jonathan Chang),在下次发布的时候该主题模型的引擎就会嵌入到lda包之中,目前text2vec

    1.2K10发布于 2019-05-26
  • 来自专栏素质云笔记

    R+NLP︱text2vec包——BOW词袋模型做监督式情感标注案例(二,情感标注)

    https://blog.csdn.net/sinat_26917383/article/details/53260117 在之前的开篇提到了text2vec,笔者将其定义为 开篇内容参考: 重磅︱R+NLP:text2vec包——New 文本分析生态系统 No.1(一,简介) 文档可以以多种方式表达,单独词组、n-grams、特征hashing化的方法等。 近年来,BoW模型被广泛应用于计算机视觉中。 ———————————————————————————————— 二、text2vec基于BOW的情感标注 本文选用的是text2vec开发者自带的数据集,有ID、sentiment代表情感正负面 ———————————————————————————————— 应用一:在text2vec中灵活的进行数据转化、并建模 从第三章节来看,数据转化一般是形成DTM之后,或者通过fit或者通过

    1.9K20发布于 2019-05-26
  • 来自专栏福大大架构师每日一题

    weaviate v1.29.7震撼发布!全面升级HuggingFace&Mistral向量化模块,性能与体验双重跃升!

    2025年5月13日,伴随着AI应用的不断深入和知识图谱的火热发展,领先的开源向量数据库Weaviate迎来了重要版本v1.29.7的发布。 此次v1.29.7版本虽未带来全新特性,但对已有模块做了极具深度的调整和优化,特别是围绕主流向量化模块Text2Vec HuggingFace和Text2Vec Mistral: • 支持最新API,兼容性更强 Text2Vec Mistral模块同步升级 类似HuggingFace模块,Mistral文本向量化模块也同步更新以支持最新模型嵌入API。 OpenAI Text2Vec最大Token数限制调整 Weaviate团队降低了OpenAI Text2Vec模块单次请求的最大Token数限制。 调整OpenAI Text2Vec请求最大Token数限制参数(如有自定义) 4.

    57210编辑于 2025-05-14
  • 来自专栏素质云笔记

    R+NLP︱text2vec包——四类文本挖掘相似性指标 RWMD、cosine、Jaccard 、Euclidean (三,相似距离)

       在之前的开篇提到了text2vec,笔者将其定义为R语言文本分析"No.1",她是一个文本分析的生态系统。笔者在学习之后发现开发者简直牛!基于分享精神,将自学笔记记录出来。 开篇内容参考: 重磅︱R+NLP:text2vec包——New 文本分析生态系统 No.1(一,简介) R+NLP︱text2vec包——BOW词袋模型做监督式情感标注案例(二,情感标注)   不展开描述,因为很常见,其中文本分析还有Hamming距离       详情戳我转的博客:机器学习中应用到的各种距离介绍(附上Matlab代码) ———————————————————————————— EMD主要应用在图像处理和语音信号处理领域。       EMD 实际上是线性规划中运输问题的最优解。首先,简要描述下运输问题。我们假设这个例子是从多个工厂运输货物到多个仓库。 2、EMD算法在自然语言处理领域的应用       通过词嵌入(Word Embedding),我们可以得到词语的分布式低维实数向量表示,我们可以计算词语之间的距离,即我们可以得到dij,因此可以将EMD

    2K20编辑于 2022-05-09
  • 来自专栏技术人生黄勇

    教程|使用免费GPU 资源搭建专属知识库 ChatGLM2-6B + LangChain

    requirements.txt 下载模型 Embedding 模型 git clone https://huggingface.co/GanymedeNil/text2vec-large-chinese $PWD/text2vec 照例按照上面的步骤,下载好模型,传到机器学习平台的服务器上,我放在了这个目录下:/mnt/workspace/text2vec。 修改模型地址‍ 打开 configs/model_config.py 文件,找到参数 embedding_model_dict 修改 "text2vec" 的值为:/mnt/workspace/text2vec "text2vec-base": "shibing624/text2vec-base-chinese", "text2vec": "/mnt/workspace/text2vec", .

    53710编辑于 2024-07-19
  • 来自专栏机器学习AI算法工程

    最准的中文文本相似度计算工具

    text2vec, chinese text to vetor. 篇章粒度,可以通过gensim库的doc2vec得到,应用较少,本项目不实现。 get similarity score between text1 and text2 from text2vec import Similarity a = '如何更换花呗绑定银行卡' b = '

    15.5K31发布于 2020-04-08
  • 来自专栏素质云笔记

    R+NLP︱text2vec包——四类文本挖掘相似性指标

    不展开描述,因为很常见,其中文本分析还有Hamming距离 详情戳我转的博客:机器学习中应用到的各种距离介绍(附上Matlab代码) ———————————————————————————— EMD主要应用在图像处理和语音信号处理领域。 ? EMD 实际上是线性规划中运输问题的最优解。首先,简要描述下运输问题。我们假设这个例子是从多个工厂运输货物到多个仓库。 2、EMD算法在自然语言处理领域的应用 通过词嵌入(Word Embedding),我们可以得到词语的分布式低维实数向量表示,我们可以计算词语之间的距离,即我们可以得到dij,因此可以将EMD 链接:http://ir.dlut.edu.cn/news/detail/362 ————————————————————————————————————————————— 三、R语言︱text2vec 包中的四大相似性距离 text2vec环境中有这么四个求距离的函数: sim2(x, y, method):分别计算x*y个相似性; psim2(x, x, method

    2.2K30发布于 2019-05-28
  • 来自专栏素质云笔记

    NLP︱词向量经验总结(功能作用、高维可视化、R语言实现、大规模语料、延伸拓展)

    包) 参考博客:text2vec(参考博客:重磅︱R+NLP:text2vec包——New 文本分析生态系统 No.1(一,简介)) —————————————————————————————————— —————————————— 二、词向量表示精度 不同的词向量表达方式也有着不同的优劣势, 1、NLP︱高级词向量表达(一)——GloVe(理论、相关测评结果、R&python实现、相关应用) 2、NLP R语言中的词向量的包还是比较少的,而且大多数的应用都还不够完善,笔者之前发现有李舰老师写的tm.word2vec包 重磅︱文本挖掘深度学习之word2vec的R语言实现 tm.word2vec包里面的内容太少了 近日发现了其他两个:一个是text2vec,一个是rword2vec。 其中text2vec是现在主要的研究方向: 重磅︱R+NLP:text2vec包简介(GloVe词向量、LDA主题模型、各类距离计算等) ——————————————————————————————

    2.9K10发布于 2019-05-26
  • 来自专栏程序员树先生

    基于 ChatGLM-6B 搭建个人专属知识库

    6b # 下载 Embedding 模型 git clone https://huggingface.co/GanymedeNil/text2vec-large-chinese /your_path/text2vec "ernie-tiny": "nghuyong/ernie-3.0-nano-zh", "ernie-base": "nghuyong/ernie-3.0-base-zh", "text2vec ": "/your_path/text2vec" } llm_model_dict = { "chatyuan": "ClueAI/ChatYuan-large-v2", "chatglm

    4.2K155编辑于 2023-05-16
  • 来自专栏大模型应用

    大模型应用:语料库治理实战:基于 text2vec+BERT 的由浅入深解析.41

    价值导向的偏差:如果训练数据中包含大量不文明用语,模型很可能在无意中生成类似内容,这在商业应用中可能带来品牌声誉风险。 治理要点:建立精细化的领域分类系统,为不同应用场景构建领域纯净或领域平衡的语料集。3. 语料库治理的取舍 语料库治理并非简单的“剔除所有问题”,而是一门融合的艺术。 最佳实践总结:分层治理:根据模型用途设定不同的质量标准量化监控:建立可衡量的质量指标,持续追踪迭代优化:通过模型表现反馈调整治理策略人工审核:在关键环节保留专家判断三、模型应用选择1. text2vec-base-chinese 规则细筛:业务精修阶段目标:应用业务特定规则进行精细筛选核心任务:关键词过滤:保留包含领域关键词的文本长度筛选:根据应用场景设定合理的文本长度范围文体过滤:保留目标文体(如正式文档、对话记录等)来源可信度 语义去重:基于text2vec识别语义相似的重复文本3. 质量评分:使用BERT模型评估文本质量并打分4. 规则细筛:应用业务特定规则进行精细筛选5. 质量评估:综合验证语料整体质量指标6.

    11910编辑于 2026-03-10
  • 来自专栏技术人生黄勇

    M3E 可能是最强大的开源中文嵌入模型

    01 — 最近在研究和部署使用 LangChain + LLM(ChatGPT/ChatGLM) 构建企业专有知识库时,接触到两个 embedding (嵌入)模型:text2vec,m3e-base。‍‍‍‍ 例如配置文件中这段: embedding_model_dict = { "text2vec-base": "shibing624/text2vec-base-chinese", "text2vec 记忆模块等 s2c, 即 sentence to code ,代表了自然语言和程序语言之间的嵌入能力,适用任务:代码检索 兼容性,代表了模型在开源社区中各种项目被支持的程度,由于 m3e 和 text2vec base 两个版本,可以按需选用 ALL IN ONE,M3E 旨在提供一个 ALL IN ONE 的文本嵌入模型,不仅支持同质句子相似度判断,还支持异质文本检索,你只需要一个模型就可以覆盖全部的应用场景

    3.1K10编辑于 2024-07-19
  • 来自专栏技术那些事

    从 MCP 到 RAG 再到 Agent:AI 应用架构的下一次跃迁

    AI 应用正从“单模型智能”向“多智能体协同”快速演化。从 RAG(知识增强)到 Agent(智能行动),再到 MCP(模型上下文协议),这三者构成了新一代 AI 应用的核心架构。 典型场景:企业知识问答系统智能客服文档搜索与问答机器人 常用技术栈:向量数据库:Milvus、Pinecone、ChromaEmbedding 模型:OpenAI、BGE、text2vec检索优化:Hybrid 典型用途:企业统一知识接入层;第三方应用插件标准;多智能体协同协议。通过 MCP,AI 系统不再是孤岛,而能组成一个可交互、可管理的“智能网络”。 四、三者的协同关系可以将三者看作一套分层的 AI 应用架构:┌────────────────────────┐│     Agent 层(智能行动) │ ← 执行任务、决策与协作├────────── AI 应用正从单一模型的“孤立智能”,进化为多智能体协作的“分布式智能”。未来的企业应用,将不只是“用一个模型”,而是“组装一个智能生态”。

    48420编辑于 2025-10-31
  • 来自专栏进击的Coder

    TensorFlow验证码识别

    所以这里我们的 label 数据最好使用 One-Hot 编码,即如果验证码文本是 1234,那么应该词表索引位置置 1,总共的长度是 40,我们用程序实现一下 One-Hot 编码和文本的互相转换: def text2vec 1]) text = '' for item in vector: text += VOCAB[np.argmax(item)] return text 这里 text2vec 例如这里调用一下这两个方法,我们将 1234 文本转换为 One-Hot 编码,然后在将其转回来: vector = text2vec('1234') text = vec2text(vector) print captcha array captcha_array = generate_captcha(text) # get vector vector = text2vec

    3.3K61发布于 2018-04-04
  • 来自专栏素质云笔记

    fastrtext︱R语言使用facebook的fasttext快速文本分类算法

    https://pommedeterresautee.github.io/fastrtext/index.html 相关博客: 重磅︱文本挖掘深度学习之word2vec的R语言实现 重磅︱R+NLP:text2vec 包——New 文本分析生态系统 No.1(一,简介) 其中text2vec包中有词向量Glove的运算。

    1.2K50发布于 2019-05-26
  • 来自专栏leehao

    DB-GPT安装部署使用初体验

    引自官网: DB-GPT是一个开源的AI原生数据应用开发框架(AI Native Data App Development framework with AWEL(Agentic Workflow Expression 目的是构建大模型领域的基础设施,通过开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单 数据3.0 时代,基于模型、数据库,企业/开发者可以用更少的代码搭建自己的专属应用。 总而言之:基于大模型的数据集大成者的应用。 tongyi_proxyllm # PROXYLLM_BACKEND = qwen-1.8b-chat (可选模型, 免费) PROXYLLM_BACKEND = qwen-turbo EMBEDDING_MODEL=text2vec 其他功能 模型管理 应用开发 插件开发 智能体编排语言(AWEL) 这个看上去很6的样子

    2K12编辑于 2025-02-11
  • 来自专栏MavenTalk

    ChatGLM实战:基于LangChain构建自己的私有知识库

    LangChain是什么 LangChain是一个用于构建基于大型语言模型(LLM)的应用程序的库。 它为开发者提供了一种便捷的方式,可以将LLM与其他计算或知识源结合起来,从而创造出更加智能和强大的应用程序。 LangChain的目标是帮助开发者充分发挥大型语言模型的优势,使其在各种领域,如自然语言处理、问答系统、文本生成等方面得到更广泛的应用。 ernie-base": "nghuyong/ernie-3.0-base-zh", "text2vec-base": "shibing624/text2vec-base-chinese", #"text2vec ": "GanymedeNil/text2vec-large-chinese", "text2vec": "/root/prj/ChatGLM-6B/THUDM/text2vec-large-chinese

    6.9K41编辑于 2023-09-06
  • 来自专栏从流域到海域

    应用自然语言处理(NLP)解码电影

    该模型通过调用 glove = GlobalVectors$new 进行训练,它在text2vec包中可用。 短语之间的关系 学习过矢量之后,应用主成分分析,并在具有两个主成分的二维图上绘制出各个单词,因为难于以两维以上的方式进行可视化。由此产生的关系由下图描述。

    1.3K80发布于 2018-01-31
  • 来自专栏厚积薄发

    深度学习之卷积神经网络(CNN)的应用-验证码的生成与识别

    44 return gray 45 else: 46 return img 47 48 49 # 文本转向量 50 def text2vec (text) 101 102 """ 103 #向量(大小MAX_CAPTCHA*CHAR_SET_LEN)用0,1编码 每63个编码一个字符,这样顺利有,字符也有 104 vec = text2vec ("F5Sd") 105 text = vec2text(vec) 106 print(text) # F5Sd 107 vec = text2vec("SFd5") 108 text = vec2text batch_x[i,:] = image.flatten() / 255 # (image.flatten()-128)/128 mean为0 129 batch_y[i,:] = text2vec

    92320发布于 2020-09-03
  • 来自专栏jeremy的技术点滴

    使用keras破解验证码

    idx idx_char_mappings[idx] = c MAX_CAPTCHA = 5 CHAR_SET_LEN = len(captcha_chars) # 验证码转化为向量 def text2vec sample_idx_label_mappings: label = sample_idx_label_mappings[target_idx] else: label = text2vec

    2.2K60发布于 2018-05-10
  • 来自专栏小徐学爬虫

    R语言舆情监控与可视化统计

    模拟舆情数据生成(实际应用中替换为真实数据)set.seed(123)n <- 500 # 样本量​# 生成模拟数据sentiment_data <- tibble( id = 1:n, content sentiment_trend.png", plot = sentiment_trend, width = 10, height = 6)# saveWidget(wordcloud, "wordcloud.html")实际应用说明 使用API(如微博、Twitter、Reddit等)网页爬虫(rvest包)数据库连接(RMySQL/RSQLite)2、情感分析增强:使用更专业的词典(如BosonNLP情感词典)采用机器学习模型(如text2vec tidyverse", "tidytext", "lubridate", "wordcloud2", "plotly"))最后给点实际部署时建议:最好设置定时任务自动抓取数据(如cronR包),同时也要构建Shiny应用生成动态报告

    22410编辑于 2025-07-07
领券