首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏汇智网教程

    spaCy 2.1 中文模型下载

    例如: import spacy nlp = spacy.load('/spacy/zh_model') doc = nlp('西门子将努力参与中国的三峡工程建设。') 例如,查看词向量表大小及维度: import spacy nlp = spacy.load('/spacy/zh_model') print(nlp.vocab.vectors.shape) print import spacy nlp = spacy.load('/spacy/zh_model') doc = nlp('西门子将努力参与中国的三峡工程建设。') 例如,下面的代码输出各词条的文本、依赖关系以及其依赖的词条: import spacy nlp = spacy.load('/spacy/zh_model') doc = nlp('西门子将努力参与中国的三峡工程建设 例如: import spacy nlp = spacy.load('/spacy/zh_model') doc = nlp('西门子将努力参与中国的三峡工程建设。')

    4.6K20发布于 2019-07-28
  • 来自专栏Michael阿明学习之路

    spacy 报错 gold.pyx in spacy.gold.GoldParse.__init__() 解决方案

    在使用 spacy 进行 NLP 时出现以下错误: --------------------------------------------------------------------------- sgd=optimizer, losses=loss) 11 return loss ~\AppData\Roaming\Python\Python37\site-packages\spacy format_docs_and_golds(docs, golds) 511 grads = {} 512 ~\AppData\Roaming\Python\Python37\site-packages\spacy gold) 483 doc_objs.append(doc) 484 gold_objs.append(gold) gold.pyx in spacy.gold.GoldParse

    57430发布于 2021-02-19
  • spacy安装和简单使用教程

    pip install spacy==3.7.5 这里最好指定这个版本。 如果您是安装cuda11.x版本spacy您可以使用 pip install spacy[cuda11x]==3.7.5 如果您是安装cuda12.x版本spacy您可以使用 pip install spacy [cuda12x]==3.7.5 安装后即可正常使用spacy模块了,但是上面anaconda3,cuda等安装下载都很耗时,所以spacy安装并不是安装难度大而是耗时上面。 spacy支持多种语言模型,可以通过windows的命令来下载安装。 是否可以使用GPU import spacy print(spacy.prefer_gpu())

    1.2K10编辑于 2025-07-16
  • spaCy v2.2 发布:更小、更快、更强

    spaCy v2.2 发布:更小、更快、更强2019年10月2日 · 12分钟阅读spaCy 2.2 版本的自然语言处理库现在更精简、更干净、也更易于使用。 感谢整个 spaCy 社区的支持和贡献,同时也要特别欢迎两位新成员全职加入团队,负责 spaCy 的持续快速改进,使得核心团队扩大到四人,未来将有更多新功能值得期待。 新模型与数据增强spaCy v2.2 附带了重新训练的统计模型,修复了错误并提升了对小写文本的性能。与所有统计模型一样,spaCy 的模型对训练数据与实际应用数据之间的差异很敏感。 已将这些查找表切换到 gzipped JSON,并将它们移到一个单独的包 spacy-lookups-data 中,如果需要,可以将其与 spaCy 一起安装。 根据系统的不同,spaCy 安装现在应该小 5-10 倍。

    8810编辑于 2026-02-22
  • 来自专栏Michael阿明学习之路

    SpamHam Email Classification 垃圾邮件分类(spacy

    导入包 import pandas as pd import spacy train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") 数据预览 train.head(10) train = train.fillna(" ") test = test.fillna(" ") 注意处理下 NaN , 否则后续会报错,见链接: spacy 报错 gold.pyx in spacy.gold.GoldParse.init() 解决方案https://michael.blog.csdn.net/article/details/109106806 (y), "ham": not bool(y)} for y in train.spam.values] train.head(10) 标签不是很懂为什么这样,可能spacy email_cat) 添加标签 # 注意顺序,ham是 0, spam 是 1 email_cat.add_label('ham') email_cat.add_label('spam') 训练 from spacy.util

    1.3K10发布于 2021-02-19
  • 来自专栏站长的编程笔记

    【说站】Python如何使用Spacy进行分词

    Python如何使用Spacy进行分词 说明 1、Spacy语言模型包含一些强大的文本分析功能,如词性标记和命名实体识别。 2、导入spacy相关模块后,需要加载中文处理包。 实例 import spacy import pandas as pd import time from spacy.lang.zh.stop_words import STOP_WORDS   nlp  = spacy.load('zh_core_web_sm')   def fenci_stopwords(data,newdata1):     fenci = []     qc_stopwords qc_stopwords)                 f1.write(result2)     end1 = time.time()     return end1-start1 以上就是Python使用Spacy

    1.5K50编辑于 2022-11-24
  • 来自专栏生物信息学、python、R、linux

    自然语言处理NLP(Spacy)入门 (一)

    Spacy是这个领域内的一个比较领先好用的工业级处理库。 导入英文处理库: import spacy nlp = spacy.load('en') 分词(Tokenizing): doc = nlp("Tea is healthy and calming, don't

    1.8K20发布于 2020-10-29
  • 来自专栏AI小白入门

    初学者|一起学学SpaCy

    简介 spaCy是世界上最快的工业级自然语言处理工具。 支持多种自然语言处理基本功能。 spaCy主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等等。 官网地址:https://spacy.io/ 实战 1.安装 # 安装:pip install spaCy # 国内源安装:pip install spaCy -i https://pypi.tuna.tsinghua.edu.cn /simple import spacy nlp = spacy.load('en') doc = nlp(u'This is a sentence.') 2.tokenize功能 for token

    1K30发布于 2019-05-28
  • 来自专栏DeepHub IMBA

    5分钟NLP - SpaCy速查表

    spaCy 简介 SpaCy 目前为各种语言提供与训练的模型和处理流程,并可以作为单独的 Python 模块安装。例如下面就是下载与训练的en_core_web_sm 的示例。 import spacy nlp = spacy.load("en_core_web_sm") doc = nlp("The cat is on the table") for token in doc import spacy nlp = spacy.load("en_core_web_sm") doc = nlp("The cat is on the table") for token in doc python -m spacy download en_core_web_md 下面就可以使用 spaCy 获得词嵌入。 import spacy nlp = spacy.load("en_core_web_md") # make sure to use larger package!

    1.9K30编辑于 2022-03-12
  • 使用spaCy检测编程语言的NLP评估方法

    使用spaCy检测编程语言的NLP评估方法在这个视频系列中,数据科学讲师Vincent Warmerdam开始使用spaCy——一个用于Python自然语言处理的开源库。 技术要点该视频重点介绍了如何评估基于spaCy构建的编程语言检测系统,涵盖了从基础指标到高级分析工具的完整评估流程。通过实际代码演示和理论讲解相结合的方式,帮助观众全面理解自然语言处理模型的评估方法。

    12110编辑于 2025-10-30
  • 精通spaCy:Python自然语言处理实战指南

    精通spaCy:使用Python生态系统实现NLP应用的端到端实践指南书籍概览spaCy是一个工业级高效的NLP Python库,提供各种预训练模型和即用功能。 本书通过端到端的方式全面介绍spaCy的特性和实际应用。 核心技术内容基础入门安装spaCy并下载模型掌握spaCy核心功能快速原型化真实NLP应用可视化与模式匹配使用displaCy可视化工具进行语法分析实践模式匹配技术的具体实现语义处理与信息提取深入词向量语义世界详细讲解统计信息提取方法机器学习集成结合 spaCy统计模型与规则化组件使用TensorFlow Keras API进行分类任务实现情感分析和意图识别模型实战案例设计完整NLP管道处理业务流程构建基于spaCy的聊天机器人系统在真实数据集上应用分类技术并解释结果目标读者希望精通 NLP的数据科学家和机器学习工程师需要掌握spaCy并构建应用的NLP开发人员希望使用Python和spaCy快速原型化的软件开发人员技术要求Python编程语言基础语言学基础概念(如解析、词性标注、语义相似度

    22200编辑于 2025-09-01
  • 基于编辑树的spaCy词形还原技术

    基于编辑树的spaCy词形还原技术spaCy提供的词形还原器组件用于为词元分配基本形式(词元)。例如,它将句子"The kids bought treats from various stores." 传统词形还原机制spaCy词形还原器对大多数语言使用两种机制:查找表:将变形映射到其词元规则集:以特定约束方式将词元改写为其词元形式编辑树算法编辑树是一种递归数据结构,包含两种节点类型:内部节点:将字符串分割为前缀 语言向量传统准确率编辑树准确率德语de_core_news_lg0.700.97西班牙语es_core_news_lg0.980.99意大利语it_core_news_lg0.860.97使用方法安装实验包:pip install spacy-experimental min_tree_freq:训练数据中编辑树的最小频率要求top_k:在回退前尝试的最可能树的数量overwrite:是否覆盖先前组件设置的词元示例项目可通过以下命令获取示例项目:python -m spacy project clone projects/edit_tree_lemmatizercd edit_tree_lemmatizerpip install spacy-experimental==0.4.0

    13300编辑于 2025-08-16
  • 来自专栏DeepHub IMBA

    使用SpaCy构建自定义 NER 模型

    displacy.render(doc, style='ent', jupyter=True) Spacy 库允许我们通过根据特定上下文更新现有模型来训练 NER,也可以训练新的 NER 模型。 from tqdm import tqdm from spacy.training.example import Example import pickle 训练数据 首先,我们需要创建实体类别,例如学位 Spacy 库以包含文本数据和字典的元组形式接收训练数据。字典应该在命名实体的文本和类别中包含命名实体的开始和结束索引。 可以快速的训练我们的自定义模型,它的优点是: SpaCy NER模型只需要几行注释数据就可以快速学习。 有许多开源注释工具可用于为SpaCy NER模型创建训练数据。 但也会有一些缺点 歧义和缩写——识别命名实体的主要挑战之一是语言。识别有多种含义的单词是很困难的。 现在不太常用的词汇。

    4.2K41发布于 2021-11-23
  • 使用类正则语法创建spaCy匹配模式

    spaCyExspaCyEx是spaCy的功能扩展工具,旨在通过类正则表达式语法简化复杂文本模式的创建过程。 它在spaCy原生Matcher组件的基础上,提供了更直观的模式定义语法,特别适用于需要精细提取文本语言特征的场景。 安装方法通过pip安装:pip install spacyex核心特性动态模式构建:使用简洁的字符串语法即可定义复杂词符匹配规则spaCy深度集成:完全兼容spaCy的Matcher组件功能灵活匹配规则 列表值匹配:(lemma=in[run,walk])数量运算符:(ent_type=person|op={2,3})使用示例import spacyex as seimport spacynlp = spacy.load

    20710编辑于 2025-08-12
  • 来自专栏漫漫深度学习路

    使用 spacy 进行自然语言处理(一)

    在本文中,将介绍一个高级的 NLP 库 - spaCy 内容列表 关于 spaCy 和 安装 Spacy 流水线 和 属性 Tokenization Pos Tagging Entity Detection Dependency Parsing 名词短语 与 NLTK 和 coreNLP 的对比 1.关于 spaCy 和 安装 1.1 关于 Spacy Spacy 是由 cython 编写。 spacy 下载数据和模型 python -m spacy download en 现在,您可以使用 Spacy 了。 Spacy 流水线 和 属性 要想使用 Spacy 和 访问其不同的 properties, 需要先创建 pipelines。 通过加载 模型 来创建一个 pipeline。 下面将加载默认的模型- english-core-web import spacy nlp = spacy.load(“en”) nlp 对象将要被用来创建文档,访问语言注释和不同的 nlp 属性。

    2K10发布于 2019-05-26
  • 来自专栏linux、Python学习

    利用spaCy和Cython实现高速NLP项目

    spaCy:https://spacy.io Cython Conventions:https://spacy.io/api/cython#conventions 让我们试试这个代码吧! spaCy 会帮我们的。 spaCy 解决这个问题的方式非常聪明。 spaCy 的内部数据结构 与 spaCy Doc 对象关联的主要数据结构是 Doc 对象,该对象拥有已处理字符串的 token 序列(「单词」)以及 C 对象中的所有称为 doc.c 的标注,它是一个 使用 spaCy 和 Cython 进行快速 NLP 处理 假设我们有一个需要分析的文本数据集 import urllib.request import spacy with urllib.request.urlopen spacy.typedefs cimport hash_t from spacy.structs cimport TokenC cdef struct DocElement: TokenC* c int

    2.1K20发布于 2019-06-19
  • 用类正则语法创建spaCy匹配模式

    SpaCyExspaCyEx是spaCy的一个强大扩展,旨在使模式匹配能像使用正则表达式一样灵活和简单。 它在spaCy的Matcher现有功能之上构建,通过一种更易于使用的语法来定义复杂模式,从而实现直观而详细的文本模式规范,非常适合从文本中提取详细的语言学特征。 与spaCy集成:利用spaCy的Matcher功能在文本中查找与定义模式匹配的序列。可定制的匹配规则:定义词元属性,包括文本特征、词汇属性和语法属性。 使用示例以下是一个简单的入门示例:import spacyex as seimport spacynlp = spacy.load("en_core_web_sm")text = "John Smith

    13210编辑于 2025-12-21
  • spaCy核心开发者专访:NLP库技术解析

    我们非常荣幸地邀请到了 Ines Montani 和 Matt Honnibal,他们是强大且先进的自然语言处理库 spaCy 的开发者。本期播客涵盖了关于这一杰出库的您想了解的所有内容。 涵盖的主题要点:spaCy 开发背后的理念spaCy 从首个 alpha 版本到当前 2.1 版本的卓越演进历程spaCy 的使用案例,包括一些令人惊讶的应用场景Ines 和 Matt 给 NLP 爱好者的建议

    6610编辑于 2026-03-09
  • 使用spaCy处理PDF和Word文档的技术指南

    spaCy Layout:使用spaCy处理PDF、Word文档等该插件与Docling集成,将PDF、Word文档和其他输入格式的结构化处理引入spaCy管道。 它输出清洁的结构化数据,创建spaCy的Doc对象,可访问带标签的文本跨度(如章节或标题),并将表格数据转换为pandas.DataFrame。安装⚠️ 此包需要Python 3.10或更高版本。 pip install spacy-layout使用方法初始化spaCyLayout预处理器后,可调用文档路径将其转换为结构化数据。生成的Doc对象包含布局跨度,映射到原始文本并暴露各种属性。 import spacyfrom spacy_layout import spaCyLayoutnlp = spacy.blank("en")layout = spaCyLayout(nlp)# 处理文档并创建 spaCy Doc对象doc = layout(".

    20410编辑于 2025-10-30
  • spaCy v3配置与项目系统解析

    spaCy v3的配置与项目系统详解从自定义训练循环到配置文件传统spaCy v2需要手动编写训练循环:with nlp.disable_pipes(*other_pipes): for i in v3通过配置文件替代了这一过程:python -m spacy init config --pipeline ner config.cfg配置文件包含完整训练参数:[paths]train = "path /to/train.spacy"dev = "path/to/dev.spacy"[training]seed = 42dropout = 0.1[training.batcher.size]@schedules ' deps: ['assets/train.txt'] outputs: ['corpus/train.spacy'] - name: 'train' script: 'python -m spacy train configs/config.cfg' deps: ['corpus/train.spacy'] outputs: ['training/model-best

    18500编辑于 2025-08-12
领券