首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏素质云笔记

    R+NLP︱text2vec包——BOW词袋模型做监督式情感标注案例(二,情感标注)

    近年来,BoW模型被广泛应用于计算机视觉中。 (dictionary): {"John": 1, "likes": 2,"to": 3, "watch": 4, "movies": 5,"also": 6, "football": 7, ———————————————————————————————— 二、text2vec基于BOW的情感标注 本文选用的是text2vec开发者自带的数据集,有ID、sentiment代表情感正负面 1 1 5: you_need 1 1 6: need 1 1 7: ———————————————————————————————— 应用一:在text2vec中灵活的进行数据转化、并建模 从第三章节来看,数据转化一般是形成DTM之后,或者通过fit或者通过

    1.9K20发布于 2019-05-26
  • 来自专栏技术人生黄勇

    教程|使用免费GPU 资源搭建专属知识库 ChatGLM2-6B + LangChain

    不改的话,模型启动会去联网下载7个1G多的模型文件。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍ requirements.txt 下载模型 Embedding 模型 git clone https://huggingface.co/GanymedeNil/text2vec-large-chinese $PWD/text2vec 照例按照上面的步骤,下载好模型,传到机器学习平台的服务器上,我放在了这个目录下:/mnt/workspace/text2vec。 修改模型地址‍ 打开 configs/model_config.py 文件,找到参数 embedding_model_dict 修改 "text2vec" 的值为:/mnt/workspace/text2vec "text2vec-base": "shibing624/text2vec-base-chinese", "text2vec": "/mnt/workspace/text2vec", .

    58910编辑于 2024-07-19
  • 来自专栏素质云笔记

    重磅︱R+NLP:text2vec包——New 文本分析生态系统 No.1(一,简介)

    那么前面一类有三个开源的包,后面这一类我倒是看到得不多,恰好是在我关注了许久的一个包里面有,它就是text2vec啦。该包提供了一个强大API接口,能够很好地处理文本信息。 这个生态系统也是笔者见到过的,R语言里面最好、最全面的包了,包含了很多类型的算法以及成熟的应用。而且包的介绍十分详尽,很棒!! 系列文章: 重磅︱R+NLP:text2vec包——New 文本分析生态系统 No.1(一,简介) R+NLP︱text2vec包——BOW词袋模型做监督式情感标注案例(二,情感标注) R+NLP︱text2vec ——————————— 三、LDA主题模型 LDA主题模型是基于lda包开发的(Jonathan Chang),在下次发布的时候该主题模型的引擎就会嵌入到lda包之中,目前text2vec

    1.2K10发布于 2019-05-26
  • 来自专栏福大大架构师每日一题

    weaviate v1.29.7震撼发布!全面升级HuggingFace&Mistral向量化模块,性能与体验双重跃升!

    2025年5月13日,伴随着AI应用的不断深入和知识图谱的火热发展,领先的开源向量数据库Weaviate迎来了重要版本v1.29.7的发布。 此次v1.29.7版本虽未带来全新特性,但对已有模块做了极具深度的调整和优化,特别是围绕主流向量化模块Text2Vec HuggingFace和Text2Vec Mistral: • 支持最新API,兼容性更强 Text2Vec Mistral模块同步升级 类似HuggingFace模块,Mistral文本向量化模块也同步更新以支持最新模型嵌入API。 OpenAI Text2Vec最大Token数限制调整 Weaviate团队降低了OpenAI Text2Vec模块单次请求的最大Token数限制。 调整OpenAI Text2Vec请求最大Token数限制参数(如有自定义) 4.

    62910编辑于 2025-05-14
  • 来自专栏Web 技术

    【Swift4】(7) 枚举 | 应用

    30820编辑于 2023-10-07
  • 来自专栏素质云笔记

    R+NLP︱text2vec包——四类文本挖掘相似性指标 RWMD、cosine、Jaccard 、Euclidean (三,相似距离)

       在之前的开篇提到了text2vec,笔者将其定义为R语言文本分析"No.1",她是一个文本分析的生态系统。笔者在学习之后发现开发者简直牛!基于分享精神,将自学笔记记录出来。 开篇内容参考: 重磅︱R+NLP:text2vec包——New 文本分析生态系统 No.1(一,简介) R+NLP︱text2vec包——BOW词袋模型做监督式情感标注案例(二,情感标注)   不展开描述,因为很常见,其中文本分析还有Hamming距离       详情戳我转的博客:机器学习中应用到的各种距离介绍(附上Matlab代码) ———————————————————————————— EMD主要应用在图像处理和语音信号处理领域。       EMD 实际上是线性规划中运输问题的最优解。首先,简要描述下运输问题。我们假设这个例子是从多个工厂运输货物到多个仓库。 2、EMD算法在自然语言处理领域的应用       通过词嵌入(Word Embedding),我们可以得到词语的分布式低维实数向量表示,我们可以计算词语之间的距离,即我们可以得到dij,因此可以将EMD

    2K20编辑于 2022-05-09
  • 来自专栏机器学习AI算法工程

    最准的中文文本相似度计算工具

    text2vec, chinese text to vetor. 篇章粒度,可以通过gensim库的doc2vec得到,应用较少,本项目不实现。 get similarity score between text1 and text2 from text2vec import Similarity a = '如何更换花呗绑定银行卡' b = '

    15.6K31发布于 2020-04-08
  • 来自专栏素质云笔记

    NLP︱词向量经验总结(功能作用、高维可视化、R语言实现、大规模语料、延伸拓展)

    包) 参考博客:text2vec(参考博客:重磅︱R+NLP:text2vec包——New 文本分析生态系统 No.1(一,简介)) —————————————————————————————————— —————————————— 二、词向量表示精度 不同的词向量表达方式也有着不同的优劣势, 1、NLP︱高级词向量表达(一)——GloVe(理论、相关测评结果、R&python实现、相关应用) 2、NLP 7、词的类比和线性空间 如果我们想要进行单词比较(由a得到b,是因为由A得到B),可以认为对于每个词w,我们有条件概率比的等式 ? 以下就是一个案例: ? 类比是可以找到单词之间对等关系。 近日发现了其他两个:一个是text2vec,一个是rword2vec。 其中text2vec是现在主要的研究方向: 重磅︱R+NLP:text2vec包简介(GloVe词向量、LDA主题模型、各类距离计算等) ——————————————————————————————

    2.9K10发布于 2019-05-26
  • 来自专栏C++核心准则原文翻译

    自学鸿蒙应用开发(7)- Picker组件

    本文介绍在鸿蒙应用中Picker组件的基本用法。 增加Picker组件 如下代码中46行~56行所示,在布局中增加Picker组件。 <?

    85320发布于 2020-12-31
  • 来自专栏wannshan(javaer,RPC)

    jdk7 AbstractQueuedSynchronizer(AQS) 应用分析

    //先拿ReentrantLock分析看看 public class ReentrantLock implements Lock, java.io.Serializable { private static final long serialVersionUID = 7373984872572414699L; /** Synchronizer providing all implementation mechanics */ private final Sync sync;//获取锁

    1.2K61发布于 2018-04-26
  • 来自专栏开源部署

    CentOS 7安装Docker应用容器引擎

    Docker 是一个开源的应用容器引擎,基于 Go 语言 并遵从Apache2.0协议开源。 Docker的应用场景 Web 应用的自动化打包和发布。 自动化测试和持续集成、发布。 在服务型环境中部署和调整数据库或其他的后台应用。 比如 Docker 镜像;Docker 镜像中包含了运行环境和配置,所以 Docker 可以简化部署多种应用实例工作。 比如 Web 应用、后台应用、数据库应用、大数据应用比如 Hadoop 集群、消息队列等等都可以打包成一个镜像部署。 Docker 运行在 CentOS 7 上,要求系统为64位、系统内核版本为 3.10 以上。

    89830编辑于 2022-07-14
  • 来自专栏华章科技

    大数据7大最奇特应用

    下面盘点了7个最有趣、最独特的大数据应用,以及它们可能对我们的生活产生的影响。 1.大数据广告牌 户外营销公司Route正使用大数据在广告牌、长椅以及公交车两侧的广告空间上设定定价模式。 此外,大数据同样可应用到人的身上,比如提供网站和应用来展示你的日常活动统计,比如你转了 多少个弯,垂直走过了多少路程等,你可以在社交网站上分享这些数据,或用它们与亲朋好友竞争。 5.大数据天气预报 从手机到交通地图,很多应用长期以来就需要数据支持。名为WeatherSignal的应用可以利用Android手机中的传感器,提供实时的天气数据。 7.大数据胸罩 True&Co网站正利用大数据帮助女性寻找号码更合适的胸罩。统计数据显示,大多数女性都戴错了胸罩的号码,为此这家网站试图帮助解决这个问 题。 利用大数据的可能性是无穷无尽的,我们可能需要时间去寻找大数据的更多应用方式。你最近看到有趣或不同寻常的大数据项目吗? 来源:e行网

    94210发布于 2018-08-13
  • 来自专栏尾尾部落

    Centos7 安装java1.7和tomcat7并部署应用 Centos7 安装java1.7和tomcat7并部署应用

    安装 Java1. 7 登录服务器查看JDK软件包的列表 yum search java | grep -i --color JDK ldapjdk-javadoc.noarch : Javadoc for 下载tomcat7的安装文件 wget http://mirror.bit.edu.cn/apache/tomcat/tomcat-7/v7.0.69/bin/apache-tomcat-7.0.69. 3.x86_64 export JRE_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.141-2.6.10.1.el7_3.x86_64/jre ##### 启动 关闭/usr/local/tomcat/bin/shutdown.sh 手动部署web应用 方法一 在conf目录的server.xml中的,找到节点,添加如下标签: <Context path="/hello 参考 Linux——CentOS<em>7</em>使用yum命令安装Java SDK

    83610发布于 2018-09-04
  • 来自专栏素质云笔记

    R+NLP︱text2vec包——四类文本挖掘相似性指标

    不展开描述,因为很常见,其中文本分析还有Hamming距离 详情戳我转的博客:机器学习中应用到的各种距离介绍(附上Matlab代码) ———————————————————————————— EMD主要应用在图像处理和语音信号处理领域。 ? EMD 实际上是线性规划中运输问题的最优解。首先,简要描述下运输问题。我们假设这个例子是从多个工厂运输货物到多个仓库。 2、EMD算法在自然语言处理领域的应用 通过词嵌入(Word Embedding),我们可以得到词语的分布式低维实数向量表示,我们可以计算词语之间的距离,即我们可以得到dij,因此可以将EMD 链接:http://ir.dlut.edu.cn/news/detail/362 ————————————————————————————————————————————— 三、R语言︱text2vec 包中的四大相似性距离 text2vec环境中有这么四个求距离的函数: sim2(x, y, method):分别计算x*y个相似性; psim2(x, x, method

    2.2K30发布于 2019-05-28
  • 来自专栏大模型应用

    大模型应用:语料库治理实战:基于 text2vec+BERT 的由浅入深解析.41

    价值导向的偏差:如果训练数据中包含大量不文明用语,模型很可能在无意中生成类似内容,这在商业应用中可能带来品牌声誉风险。 规则细筛:业务精修阶段目标:应用业务特定规则进行精细筛选核心任务:关键词过滤:保留包含领域关键词的文本长度筛选:根据应用场景设定合理的文本长度范围文体过滤:保留目标文体(如正式文档、对话记录等)来源可信度 按领域、质量等级、文体等多维度分类存储元数据构建:记录语料的来源、处理历史、质量分数等元信息格式标准化:转换为统一的训练格式(如JSONL、TFRecord)版本管理:建立语料版本控制系统,便于回溯和更新7. 语义去重:基于text2vec识别语义相似的重复文本3. 质量评分:使用BERT模型评估文本质量并打分4. 规则细筛:应用业务特定规则进行精细筛选5. 质量评估:综合验证语料整体质量指标6. 支持快充", "防水防尘", "无线充电", ""] # 附加功能use_scenes = ["出差用", "打游戏", "日常办公", ""] # 使用场景discounts = ["5折", "7

    32843编辑于 2026-03-10
  • 来自专栏华章科技

    7大笔记应用,让你的代码效率翻7

    建立一个网页,手机APP或桌面应用都是个很大的工程,好的记笔记技能是让这个工程井然有序的关键,也是克服压力、绝望和倦怠的好方法。 Boostnote (适用OS: Windows, Mac, Linux) Boostnote是为编码器设计的笔记应用典范。 CherryTree非常快,使其成为最好的轻量级笔记应用程序之一。 6. 是的,这是一个文本编辑器,而不是一个笔记应用程序,但它当然也可以用于记笔记:每个笔记作为一个文本文件,每个代码片段在一个单独的语言文件中。 7.

    1.8K20发布于 2018-08-16
  • 来自专栏Keep Learning

    在CentOS 7上面部署web应用

    二、这一步的操作自己从下面选择,目的就是保证防火墙的某个端口是打开的(我这里是检测80口),当然,你也可以直接把防火墙关了(不建议这么操作)

    1K00发布于 2019-12-02
  • 来自专栏自动化测试实战

    pytest入门 -7 conftest.py的应用

    3、conftest.py文件可以有多个,且多个conftest.py文件里的多个fixture可以被一个用例调用。(即在不同的用例package中也可以建conftest.py文件实现调用,而根目录下就是所有用例都可以调用的)

    54010编辑于 2022-02-23
  • 来自专栏菩提树下的杨过

    IIS7应用程序池

    AspNetUpload只能运行在"程序程序池"的"经典"模式之下,采用"集成"模式后,AspnetUpload.GetUploadFile始终为null,虽然改成经典不影响系统运行,但是这种模式就发挥不出IIS7的优势了 应用程序池为它们包含的应用程序设置了边界,这意味着在给定应用程序池外部运行的任何应用程序均不能影响该应用程序池中的应用程序。 应用程序池具有下列优点: 改进的服务器和应用程序性能。 对于占用大量资源的应用程序,您可以将其分配给它们自己的应用程序池,以免影响其他应用程序的性能。 改进的应用程序可用性。 如果一个应用程序池中的应用程序发生故障,将不会影响其他应用程序池中的应用程序。 改进的安全性。通过隔离应用程序,可以降低一个应用程序访问其他应用程序资源的几率。 在 IIS 7 中,应用程序池有两种运行模式:集成模式和经典模式。应用程序池模式会影响服务器处理托管代码请求的方式。

    1.8K100发布于 2018-01-23
  • 来自专栏技术墨客

    React学习(7)—— 高阶应用:性能优化 原

    对于很多应用来说,使用React后无需太多工作就会让客户端执行性能有质的提升。然而,还是很其他更多的办法来加速React程序。 使用生产模式来构建应用 如果在开发和使用的过程中感觉了React应用有明显的性能问题,请先确认是否已经构建了压缩后的生产包: 在单页面用中,打包之后的生产文件应该是.min.js版本。 C2、C2的子组件以及C7没有执行render()方法。 来解决数据突变问题,实现如下: function updateColorMap(colormap) { return {...colormap, right: 'blue'}; } 如果是构建React的App应用

    1K20发布于 2018-08-15
领券