搜索 - 腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

来自专栏技术一点点成长
互动百科词条快速抓取
中文文本挖掘领域，百科词条涵盖面广，而且内容比较丰富，于是便选择百科的词条作为数据集（http://baike.com）。 2.词条抓取方案与代码实现 2.1 抓取方案 step1: 　　　　收集百科词条种子(后台的id列表) step2: 　　　　获取详情页并解析html中的词条正文 step3: 　　　　数据保存打开Chrome浏览器之后，键盘上按“F12”进入调试界面 b)如从词条详情页获取正文的css样式？ 2.2 代码实现　　step1:收集词条id列表并保存到redis 1 def fetch_seeds(): 2 print "-- fetch seeds --" 3 cnt for article in article_list: 36 r.sadd("%s-%d" % ("news.set", index), article) 　　step2:抓取词条详情并保存到
1K30编辑于 2022-08-09
来自专栏人工智能
技术词条机器学习篇
机器学习(Machine Learning) 解释讲述人工智能领域内的专业词汇和算法，是AI君在2018年最先要做的事情，我们第一个要讲的就是大名鼎鼎的“机器学习”。机器学习，英文全称Machine Learning，是人工智能领域的一个重要学科，Tom M. Mitchell在其著作《Machine Learning》中指出，机器学习就是指“计算机利用经验自动改善系统自身性能的行为”。简言之，机器学习是指通过计算机学习数据中的内在规律性信息，获得新的经验和知识，以提高计算机的智能性，使计算机能够像人
1.8K50发布于 2018-01-12
来自专栏企鹅号快讯
AI技术词条强化学习
欢迎阅读《AI技术词条》系列文章，这一系列文章主要针对人工智能领域的专业词汇和算法，AI君力求用最通俗易懂的话语解释清楚相关概念，不废话不凑字，直达最核心的内容。概述在之前的《AI技术词条》中，AI君分别讲了监督式和非监督式学习算法，这篇文章里，AI君就来讲讲机器学习的第三类算法，大名鼎鼎的“强化学习”，强化学习算法介于监督式学习和非监督式学习之间，有着独特的学习系统后话强化学习本身是一系列算法的集合，所以读者在上面看到不明白的算法也不必费心了解，所以对于本篇提到的每一个强化学习算法在未来都会有单独的《AI技术词条》文章予以解释。最后，AI君请大家帮忙多多转发《AI技术词条》系列文章，感激不尽！祝好！ AI君 2018年1月2日于欧洲前文阅读 AI技术词条机器学习 AI技术词条线性判别分析 AI技术词条受限玻尔兹曼机 THE END 图片来源 Ma L., Zhang W., & Dai
84280发布于 2018-01-08
来自专栏FreeBuf
月圆「识」好礼，惊喜词条彩蛋上线！
今年中秋 “共建者”探险小分队让知识变得更有趣活动时间 2022.9.1-2022.9.7 惊喜词条彩蛋活动期间，WIKI网安知识大陆将在特定词条内藏入惊喜彩蛋，所有“共建者”均可登陆WIKI网安知识大陆主站寻找含有彩蛋的词条，只有首个进入特定词条的用户可领取该词条彩蛋，后续点击的用户则无法领取。网安知识大陆地址：https://wiki.freebuf.com/ 社群抽奖赢好礼中秋福利第二弹，社群抽奖赢好礼（加入社群即可参与抽奖） 1、截止9月2日18:00在WIKI网安知识大陆中完成“待补充词条
39120编辑于 2023-03-30
来自专栏一个爱吃西瓜的程序员
Python爬虫学习-抓取百度百科python词条页面的所有词条及其连接
---- 今天来写个简单的爬虫，目标就是百度百科Python词条页面上的所有词条及其链接。 ③ 目标标签样式：多检查几个词条就会发现它们位于标签名为,属性为target=“_blank”,href=/item/ + 一堆字符的标签之中 ? 眼尖的朋友可能会发现第一个截图的第一个词条是不该出现的词条，还有第二张截图的倒数第四个词条竟然是一个大括号{}。。额。我想应该是我的正则表达式不够完善。我暂时也不知道该怎么改进。
1.9K40发布于 2018-04-03
来自专栏xingoo, 一个梦想做发明家的程序员
在Elasticsearch中查询Term Vectors词条向量信息
更多内容还请参考整理的ELK教程关于Term Vectors 额，对于这个专业词汇，暂且就叫做词条向量吧，因为实在想不出什么标准的翻译。说的土一点，也可以理解为关于词的一些统计信息。关于TermVector在Lucene中的概念，可以参考网络中的一篇文章使用_termvectors查询词条向量在Elasticsearch中可以使用_termvectors查询一个文档中词条相关的信息返回的信息使用上面的请求，会返回词条相关的信息：词条的信息，比如position位置、start_offset开始的偏移值、end_offset结束的偏移值、词条的payLoads（这个主要用于自定义字段的权重例子4：重新定义分析器可以使用per_field_analyzer参数定义该字段的分析器，这样每个字段都可以使用不同的分析器，分析其词条向量的信息。常用的过滤器参数如： max_num_terms 最大的词条数目 min_term_freq 最小的词频，比如忽略那些在字段中出现次数小于一定值的词条。
3.4K100发布于 2018-01-17
来自专栏Spring及SpringBoot相关
SpringBoot项目thymeleaf页面支持词条国际化切换
@toc一、概述该项目只有thymeleaf+SpringBoot，该项目就是为了练习词条国际化进行【中文/英文】之间切换，使用起来非常简单，只需点击【中文/English】的a标签就可实现词条中英文切换 “中文”效果点击“English”效果三、注意事项注意点1：默认进入就是中文，因为lang值没穿，后台解析调用login.properties配置文件词条，而点击【中文/English】标签就会向后端传lang=zh_CN的值，后端去判断中英文词条显示注意点2：thymeleaf前端框架，标签中使用#{} internationalization") public String internationalization2() { return "internationalization"; }}第5步：创建词条
39600编辑于 2024-11-05
来自专栏hadoop学习笔记
自然语言处理工具hanlp定制用户词条
关于hanlp的文章已经分享过很多，似乎好像大部分以理论性的居多。最近有在整理一些hanlp应用项目中的文章，待整理完成后会陆续分享出来。本篇分享的依然是由baiziyu 分享的一篇文章，感兴趣的可以在知乎上关注下他的专栏，写的还是挺好的！
55330发布于 2019-05-20
来自专栏FreeBuf
谷歌应用现怪异Bug：搜索特定词条会暴露短信
当用户在搜索一些特定词条时，设备会暴露用户个人的短信息。不过这个bug只会在使用Google Search，Google Assistant以及Pixel Launcher这些谷歌应用时才会触发。之后这位用户在Reddit上发帖公布了这个bug的细节，其他用户和研究人员发现通过其他词条（如下），在其他谷歌应用中也可以重现这个bug。谷歌应用通常是可以返回短消息的，但是也仅限于在用户明确指示后才会显示，而不是通过搜索这些随机词条显示。因为除非有人可以接触到你的手机，否则无法利用这个漏洞，再者，如果真的有人可以访问你的手机，他可能更倾向于直接打开你的短信应用程序查看短信，而不是打开谷歌应用搜索这些奇怪的词条。谷歌表示这是“语言检测”出现问题，即将相关词条理解为读取短信，目前谷歌已经解决了这个问题，且谷歌商店中已经可以获得更新后的Google Search，Google Assistant以及Pixel Launcher
55640发布于 2018-07-30
来自专栏素质云笔记
ChineseWiki︱百万中文维基百科词条下载与整理
维基百科中文词条维基百科开源的中文词条内容，收集了99W+词条，当然比百度少了不少。 pages-articles-multistream.xml.bz2 是主文件； zhwiki-20180301-pages-articles-multistream-index.txt.bz2 是每个词条的编号信息本篇主要是写如何进行整理： 1、繁简转化库——opencc的安装与使用 2、wiki中文词条整理 3、关键词检索模块额外的还有一些其他辅助信息： 1、重定向匹配表，中文维基重定向的同义词表 2、词条的编号信息 print(l.encode('big5hkscs')) print(line.encode('big5hkscs')) except: print(111) 2、wiki中文词条整理
6.5K31发布于 2019-05-26
来自专栏BlockChain
百度百科将把词条版本信息记录在“区块链”
【百度百科将把词条版本信息记录在“区块链”】近日，有报道称，百度百科的编辑记录已经被记录在区块链上了。对此，百度百科方面对腾讯科技回应称，百度百科已上线以区块链技术提升词条编辑公正透明性的新功能，可实现将词条版本信息签名储存在“区块链”上，保障词条修改历史不可被篡改，且词条编辑信息可查证。
1.7K90发布于 2018-05-29
Java 爬虫对百科词条分类信息的抓取与处理
在信息爆炸的互联网时代，百科类平台（如维基百科、百度百科）沉淀了海量结构化的知识内容，其词条的分类体系更是梳理信息的核心脉络。数据存储：MySQL，用于持久化存储抓取到的词条名称、分类路径、词条链接等结构化数据。 * @param doc 词条页面的Document对象 * @param entryName 词条名称 * @return 分类信息列表 */ public static 性能优化多线程抓取：使用线程池（ExecutorService）并行处理多个词条，提升抓取效率；数据缓存：将频繁访问的分类信息缓存到 Redis 中，减少数据库查询压力；增量抓取：记录已抓取的词条 URL ，只抓取新增词条，避免重复工作。
17910编辑于 2025-12-23
利用Python爬取百度百科词条并生成词云图
本文将介绍如何使用Python编程语言，结合几个强大的库，来爬取百度百科的词条内容，并生成相应的词云图。，包含了丰富的词条信息。我们的目标是爬取特定词条的内容，并将其用于生成词云图。发送HTTP请求首先，我们使用requests库发送HTTP请求，以获取百度百科词条的页面内容。本文通过实际案例，详细介绍了如何利用Python编程语言，结合强大的库函数，爬取百度百科的词条内容，并生成相应的词云图。在爬取百度百科词条内容的过程中，我们首先使用requests库发送HTTP请求，获取百度百科词条的页面内容。随后，利用BeautifulSoup库解析HTML，提取出词条的描述信息。
44810编辑于 2024-12-25
来自专栏Elasticsearch专栏
【Elasticsearch专栏 04】深入探索：Elasticsearch倒排索引中的词条是如何存储和管理
Elasticsearch的倒排索引中的词条是如何存储和管理？倒排索引中的词条存储和管理是构建高效搜索系统的关键部分。 FST能够有效地存储和检索词条，同时支持快速的词条合并和删除操作。倒排列表（Posting List）倒排列表是与词典中每个词条相关联的数据结构，它记录了包含该词条的文档列表以及该词条在文档中的位置信息（如偏移量、词频等）。词条的删除当文档从ES中删除时，ES会从倒排列表中移除与被删除文档相关联的词条条目。如果某个词条只存在于被删除的文档中，那么该词条也会被从词典中移除。存储上，词条通常被归一化（如小写化、词干提取等）后存储在词典中，每个词条对应一个唯一的词条ID。
76010编辑于 2024-03-04
来自专栏机器之心
这个词条有点可疑
不过，最近人工智能的研究者在维基百科上发现了不少「夹藏私货」的词条，比如 Reddit 网友发现的「SGD（随机梯度下降）」一词。 ? 这位发帖者表示，ta 本来打算读一些关于梯度下降的资料，但却发现维基百科有关这一主题的词条就像一条广告。为什么这么说呢？我们先来看一下这个词条的结构。除了常规的背景、示例、应用等介绍外，词条还包含 SGD 的「扩展和变体」，这部分列出了 RMSProp、Adam 等知名算法和一些「二阶方法」。 ? 「SGD」词条的结构。「这个词条出现在维基百科上使其看起来像是一种成熟的技术，但其实并不是。」 ? 「梯度下降」这种概念在机器学习领域肯定是必须要懂的知识，修改这个词条颇有点修改教科书的意味。有一位留言者提到，他最近听说了一种针对维基百科词条优化的「收费服务」，费用大概是 600 美元或者更多，可能让你拥有、撰写维基百科的词条，同时及时修改其他任何人所做的编辑。
48510发布于 2020-03-25
利用Python爬取百度百科词条并生成词云图
利用Python爬取百度百科词条并生成词云图引言在这个信息爆炸的时代，数据可视化成为了一种有效的信息传递方式。词云图以其独特的视觉冲击力和简洁的信息表达方式，成为数据可视化中的一种流行形式。本文将介绍如何使用Python编程语言，结合几个强大的库，来爬取百度百科的词条内容，并生成相应的词云图。如果尚未安装，可以通过以下命令安装： pip install jieba wordcloud matplotlib requests beautifulsoup4 爬取百度百科词条内容百度百科是一个庞大的中文知识库，包含了丰富的词条信息。我们的目标是爬取特定词条的内容，并将其用于生成词云图。发送HTTP请求首先，我们使用requests库发送HTTP请求，以获取百度百科词条的页面内容。
42410编辑于 2024-10-24
来自专栏镁客网
AI算法入驻Google搜索引擎，词条再冷也可手到擒来！
互联网的能力是强大的，它几乎囊括了一切我们日常生活中想要获得的信息，但有时候因搜索词条过于冷门而找不到信息时，大多数人也只能双手摊开，表达自己的无奈。而在冷门词条搜索方面，RankBrain算法也确实有效的给出了一个解决方案。通过RankBrian，Google可以对这部分冷门词条进行分析和重新匹配，从而使得搜索结果更加准确。从RankBrian的工作原理可以看出，其最为关键的人工智能技术就是“语义理解”，只要将这部分做好，那么在将来，哪怕是再冷门、再繁琐的搜索词条，Google都能给予用户最准确的信息反馈。
1.1K40发布于 2018-05-28
来自专栏又见苍岚
Next -4- 增加站点访客、文章阅读量、字符统计、阅读时间统计与对应词条翻译
字数统计阅读时长使用图标还是文本表示 item_text_total: true # 博客底部统计字数统计阅读时长使用图标还是文本表示 awl: 4 wpm: 275 对应词条翻译对上述词条翻译找了好久，终于摸索出来了，在此贡献给大家，在zh-Hans.yml中加入： post: views: 阅读次数 symbols_count_time: time: 阅读时长
90920编辑于 2022-08-04
来自专栏码农帮派
Python基础学习_10_网页爬虫实战爬取百度百科词条(源码下载)
下面使用Python开发一个网页爬虫，爬取百度百科词条信息，整个程序涉及到url管理器，html下载器，html解析器，html显示以及调度程序：程序结构： ? 【说明】url_manager负责url的存储，在一个网页中爬取的内容大致有两部分，一部分是需要爬取的百度百科词条内容，另外一部分是该网页中包含的可供爬取的url，后者会通过add_new_urls 【说明】下载到的Html文档中包含了各种各样的Html标签，html_parser负责从Html文档中解析我们需要的文字内容，以及可以继续爬取的词条链接。
51040发布于 2020-04-01
百科词条结构化抓取：Java 正则表达式与 XPath 解析对比
在互联网数据采集领域，百科词条作为结构化程度较高的文本载体，是数据抓取与分析的典型场景。百科词条通常包含固定维度的信息（如标题、摘要、目录、正文、参考资料等），如何高效、精准地从 HTML 源码中提取这些结构化数据，直接影响数据采集的效率与准确性。二、实战实现：百科词条结构化抓取2.1 需求定义以百度百科 “Java 语言” 词条为例，需抓取以下结构化信息：词条标题核心摘要目录中的一级标题正文第一个段落2.2 环境准备JDK 8 及以上依赖库：Jsoup 词条标题：" + title); // 3. 词条标题：" + title); // 3.
15310编辑于 2026-01-06

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多