搜索 - 腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

来自专栏技术一点点成长
互动百科词条快速抓取
中文文本挖掘领域，百科词条涵盖面广，而且内容比较丰富，于是便选择百科的词条作为数据集（http://baike.com）。 2.词条抓取方案与代码实现 2.1 抓取方案 step1: 　　　　收集百科词条种子(后台的id列表) step2: 　　　　获取详情页并解析html中的词条正文 step3: 　　　　数据保存打开Chrome浏览器之后，键盘上按“F12”进入调试界面 b)如从词条详情页获取正文的css样式？ = 0 4 for def_index in range(4, 10): 5 ret = do_run(index=def_index) 6 cnt += db=redis_db_index_2) 31 r.set("id_%s" % seed, result) 32 return 1 附　　1）环境说明 python2.7, redis4.
1K30编辑于 2022-08-09
来自专栏人工智能
技术词条机器学习篇
machine-learning-explained-simple-words/ https://thumbs.dreamstime.com/z/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4% B9%A0%E6%A6%82%E5%BF%B5-62982306.jpg https://2.bp.blogspot.com/-Day4kDlOn3s/Wa0oMafMaDI/AAAAAAAAD4o/cXVyly-t4VkrIA6Xxk9v98c5MRfQnCW9QCLcBGAs Journal of electronic imaging, 16(4), 049901. Michalski, R. S., Carbonell, J. G., & Mitchell, T. M.
1.9K50发布于 2018-01-12
来自专栏企鹅号快讯
AI技术词条强化学习
欢迎阅读《AI技术词条》系列文章，这一系列文章主要针对人工智能领域的专业词汇和算法，AI君力求用最通俗易懂的话语解释清楚相关概念，不废话不凑字，直达最核心的内容。概述在之前的《AI技术词条》中，AI君分别讲了监督式和非监督式学习算法，这篇文章里，AI君就来讲讲机器学习的第三类算法，大名鼎鼎的“强化学习”，强化学习算法介于监督式学习和非监督式学习之间，有着独特的学习系统后话强化学习本身是一系列算法的集合，所以读者在上面看到不明白的算法也不必费心了解，所以对于本篇提到的每一个强化学习算法在未来都会有单独的《AI技术词条》文章予以解释。最后，AI君请大家帮忙多多转发《AI技术词条》系列文章，感激不尽！祝好！ AI君 2018年1月2日于欧洲前文阅读 AI技术词条机器学习 AI技术词条线性判别分析 AI技术词条受限玻尔兹曼机 THE END 图片来源 Ma L., Zhang W., & Dai
87280发布于 2018-01-08
来自专栏FreeBuf
月圆「识」好礼，惊喜词条彩蛋上线！
今年中秋 “共建者”探险小分队让知识变得更有趣活动时间 2022.9.1-2022.9.7 惊喜词条彩蛋活动期间，WIKI网安知识大陆将在特定词条内藏入惊喜彩蛋，所有“共建者”均可登陆WIKI网安知识大陆主站寻找含有彩蛋的词条，只有首个进入特定词条的用户可领取该词条彩蛋，后续点击的用户则无法领取。网安知识大陆地址：https://wiki.freebuf.com/ 社群抽奖赢好礼中秋福利第二弹，社群抽奖赢好礼（加入社群即可参与抽奖） 1、截止9月2日18:00在WIKI网安知识大陆中完成“待补充词条
40420编辑于 2023-03-30
来自专栏一个爱吃西瓜的程序员
Python爬虫学习-抓取百度百科python词条页面的所有词条及其连接
---- 今天来写个简单的爬虫，目标就是百度百科Python词条页面上的所有词条及其链接。 ③ 目标标签样式：多检查几个词条就会发现它们位于标签名为,属性为target=“_blank”,href=/item/ + 一堆字符的标签之中 ? 眼尖的朋友可能会发现第一个截图的第一个词条是不该出现的词条，还有第二张截图的倒数第四个词条竟然是一个大括号{}。。额。我想应该是我的正则表达式不够完善。我暂时也不知道该怎么改进。
1.9K40发布于 2018-04-03
来自专栏又见苍岚
Next -4- 增加站点访客、文章阅读量、字符统计、阅读时间统计与对应词条翻译
item_text_post: true # 文章字数统计阅读时长使用图标还是文本表示 item_text_total: true # 博客底部统计字数统计阅读时长使用图标还是文本表示 awl: 4 wpm: 275 对应词条翻译对上述词条翻译找了好久，终于摸索出来了，在此贡献给大家，在zh-Hans.yml中加入： post: views: 阅读次数 symbols_count_time
92320编辑于 2022-08-04
来自专栏xingoo, 一个梦想做发明家的程序员
在Elasticsearch中查询Term Vectors词条向量信息
关于TermVector在Lucene中的概念，可以参考网络中的一篇文章使用_termvectors查询词条向量在Elasticsearch中可以使用_termvectors查询一个文档中词条相关的信息返回的信息使用上面的请求，会返回词条相关的信息：词条的信息，比如position位置、start_offset开始的偏移值、end_offset结束的偏移值、词条的payLoads（这个主要用于自定义字段的权重 "start_offset": 18 } ], "ttf": 4 例子4：重新定义分析器可以使用per_field_analyzer参数定义该字段的分析器，这样每个字段都可以使用不同的分析器，分析其词条向量的信息。常用的过滤器参数如： max_num_terms 最大的词条数目 min_term_freq 最小的词频，比如忽略那些在字段中出现次数小于一定值的词条。
3.4K100发布于 2018-01-17
来自专栏Spring及SpringBoot相关
SpringBoot项目thymeleaf页面支持词条国际化切换
@toc一、概述该项目只有thymeleaf+SpringBoot，该项目就是为了练习词条国际化进行【中文/英文】之间切换，使用起来非常简单，只需点击【中文/English】的a标签就可实现词条中英文切换 “中文”效果点击“English”效果三、注意事项注意点1：默认进入就是中文，因为lang值没穿，后台解析调用login.properties配置文件词条，而点击【中文/English】标签就会向后端传lang=zh_CN的值，后端去判断中英文词条显示注意点2：thymeleaf前端框架，标签中使用#{} internationalization(lang='zh_CN')} th:href="@{/internationalization(lang='en_US')}注意点4： MyMvcConfig { @Bean public LocaleResolver localeResolver(){ return new MyLocaleResolver(); }}第4步
43700编辑于 2024-11-05
来自专栏hadoop学习笔记
自然语言处理工具hanlp定制用户词条
关于hanlp的文章已经分享过很多，似乎好像大部分以理论性的居多。最近有在整理一些hanlp应用项目中的文章，待整理完成后会陆续分享出来。本篇分享的依然是由baiziyu 分享的一篇文章，感兴趣的可以在知乎上关注下他的专栏，写的还是挺好的！
55930发布于 2019-05-20
来自专栏FreeBuf
谷歌应用现怪异Bug：搜索特定词条会暴露短信
当用户在搜索一些特定词条时，设备会暴露用户个人的短信息。不过这个bug只会在使用Google Search，Google Assistant以及Pixel Launcher这些谷歌应用时才会触发。之后这位用户在Reddit上发帖公布了这个bug的细节，其他用户和研究人员发现通过其他词条（如下），在其他谷歌应用中也可以重现这个bug。谷歌应用通常是可以返回短消息的，但是也仅限于在用户明确指示后才会显示，而不是通过搜索这些随机词条显示。因为除非有人可以接触到你的手机，否则无法利用这个漏洞，再者，如果真的有人可以访问你的手机，他可能更倾向于直接打开你的短信应用程序查看短信，而不是打开谷歌应用搜索这些奇怪的词条。谷歌表示这是“语言检测”出现问题，即将相关词条理解为读取短信，目前谷歌已经解决了这个问题，且谷歌商店中已经可以获得更新后的Google Search，Google Assistant以及Pixel Launcher
56040发布于 2018-07-30
来自专栏素质云笔记
ChineseWiki︱百万中文维基百科词条下载与整理
维基百科中文词条维基百科开源的中文词条内容，收集了99W+词条，当然比百度少了不少。 pages-articles-multistream.xml.bz2 是主文件； zhwiki-20180301-pages-articles-multistream-index.txt.bz2 是每个词条的编号信息本篇主要是写如何进行整理： 1、繁简转化库——opencc的安装与使用 2、wiki中文词条整理 3、关键词检索模块额外的还有一些其他辅助信息： 1、重定向匹配表，中文维基重定向的同义词表 2、词条的编号信息 print(l.encode('big5hkscs')) print(line.encode('big5hkscs')) except: print(111) 2、wiki中文词条整理记号遵从以下表格：内容级别内容标记 1级标题【政治学】 1 2级标题 == 历史 == 2 3级标题 === 古典时期 === 3 4级标题 ==== 古典时期 ==== 4 平行关系 * 知识论
6.6K31发布于 2019-05-26
来自专栏BlockChain
百度百科将把词条版本信息记录在“区块链”
【百度百科将把词条版本信息记录在“区块链”】近日，有报道称，百度百科的编辑记录已经被记录在区块链上了。对此，百度百科方面对腾讯科技回应称，百度百科已上线以区块链技术提升词条编辑公正透明性的新功能，可实现将词条版本信息签名储存在“区块链”上，保障词条修改历史不可被篡改，且词条编辑信息可查证。
1.7K90发布于 2018-05-29
Java 爬虫对百科词条分类信息的抓取与处理
数据存储：MySQL，用于持久化存储抓取到的词条名称、分类路径、词条链接等结构化数据。 } public void setCategoryUrl(String categoryUrl) { this.categoryUrl = categoryUrl; }}4. category.setCategoryName(StringUtils.replacePattern(category.getCategoryName(), "[^\\u4e00 category.setEntryName(StringUtils.replacePattern(category.getEntryName(), "[^\\u4e00 List<Category> cleanCategoryList = DataProcessor.cleanCategory(rawCategoryList); // 4.
19810编辑于 2025-12-23
利用Python爬取百度百科词条并生成词云图
beautifulsoup4：用于解析HTML文档。如果尚未安装，可以通过以下命令安装： pip install jieba wordcloud matplotlib requests beautifulsoup4 爬取百度百科词条内容百度百科是一个庞大的中文知识库，包含了丰富的词条信息。我们的目标是爬取特定词条的内容，并将其用于生成词云图。发送HTTP请求首先，我们使用requests库发送HTTP请求，以获取百度百科词条的页面内容。在爬取百度百科词条内容的过程中，我们首先使用requests库发送HTTP请求，获取百度百科词条的页面内容。随后，利用BeautifulSoup库解析HTML，提取出词条的描述信息。
48510编辑于 2024-12-25
来自专栏Elasticsearch专栏
【Elasticsearch专栏 04】深入探索：Elasticsearch倒排索引中的词条是如何存储和管理
Elasticsearch的倒排索引中的词条是如何存储和管理？倒排索引中的词条存储和管理是构建高效搜索系统的关键部分。 FST能够有效地存储和检索词条，同时支持快速的词条合并和删除操作。倒排列表（Posting List）倒排列表是与词典中每个词条相关联的数据结构，它记录了包含该词条的文档列表以及该词条在文档中的位置信息（如偏移量、词频等）。词条的删除当文档从ES中删除时，ES会从倒排列表中移除与被删除文档相关联的词条条目。如果某个词条只存在于被删除的文档中，那么该词条也会被从词典中移除。存储上，词条通常被归一化（如小写化、词干提取等）后存储在词典中，每个词条对应一个唯一的词条ID。
79410编辑于 2024-03-04
来自专栏机器之心
这个词条有点可疑
不过，最近人工智能的研究者在维基百科上发现了不少「夹藏私货」的词条，比如 Reddit 网友发现的「SGD（随机梯度下降）」一词。 ? 这位发帖者表示，ta 本来打算读一些关于梯度下降的资料，但却发现维基百科有关这一主题的词条就像一条广告。为什么这么说呢？我们先来看一下这个词条的结构。除了常规的背景、示例、应用等介绍外，词条还包含 SGD 的「扩展和变体」，这部分列出了 RMSProp、Adam 等知名算法和一些「二阶方法」。 ? 「SGD」词条的结构。「这个词条出现在维基百科上使其看起来像是一种成熟的技术，但其实并不是。」 ? 「梯度下降」这种概念在机器学习领域肯定是必须要懂的知识，修改这个词条颇有点修改教科书的意味。有一位留言者提到，他最近听说了一种针对维基百科词条优化的「收费服务」，费用大概是 600 美元或者更多，可能让你拥有、撰写维基百科的词条，同时及时修改其他任何人所做的编辑。
49410发布于 2020-03-25
利用Python爬取百度百科词条并生成词云图
beautifulsoup4：用于解析HTML文档。如果尚未安装，可以通过以下命令安装： pip install jieba wordcloud matplotlib requests beautifulsoup4 爬取百度百科词条内容百度百科是一个庞大的中文知识库，包含了丰富的词条信息。我们的目标是爬取特定词条的内容，并将其用于生成词云图。发送HTTP请求首先，我们使用requests库发送HTTP请求，以获取百度百科词条的页面内容。 from bs4 import BeautifulSoup soup = BeautifulSoup(html, 'html.parser') content = soup.find('meta',
45510编辑于 2024-10-24
来自专栏镁客网
AI算法入驻Google搜索引擎，词条再冷也可手到擒来！
互联网的能力是强大的，它几乎囊括了一切我们日常生活中想要获得的信息，但有时候因搜索词条过于冷门而找不到信息时，大多数人也只能双手摊开，表达自己的无奈。网页排名操作步骤一般来讲，搜索引擎的网页排名基本分为4个步骤：爬行抓取：搜索引擎蜘蛛（一个能够在网上发现新网页并抓文件的程序）从已知的数据库出发，像正常用户的浏览器一样访问网页并抓取文件。又有着各自其他的小因素，例如在用户数据这一块上，搜索引擎就要考虑到搜索引擎结果页面（SERPs）的点击率、用户在网页上呆的时间、域名或URL搜索量、访问量及其他Google可以监测到的数据（工具条、GA之类）等4个小因素，至于这4个因素下面还有多少其他的小小因素，这就不得而知了。而在冷门词条搜索方面，RankBrain算法也确实有效的给出了一个解决方案。通过RankBrian，Google可以对这部分冷门词条进行分析和重新匹配，从而使得搜索结果更加准确。
1.1K40发布于 2018-05-28
来自专栏码农帮派
Python基础学习_10_网页爬虫实战爬取百度百科词条(源码下载)
下面使用Python开发一个网页爬虫，爬取百度百科词条信息，整个程序涉及到url管理器，html下载器，html解析器，html显示以及调度程序：程序结构： ? 【说明】url_manager负责url的存储，在一个网页中爬取的内容大致有两部分，一部分是需要爬取的百度百科词条内容，另外一部分是该网页中包含的可供爬取的url，后者会通过add_new_urls 【说明】下载到的Html文档中包含了各种各样的Html标签，html_parser负责从Html文档中解析我们需要的文字内容，以及可以继续爬取的词条链接。
51940发布于 2020-04-01
百科词条结构化抓取：Java 正则表达式与 XPath 解析对比
在 Java 中，通常结合 Jsoup（支持 XPath 语法扩展）或 DOM4J 实现 HTML 解析，核心逻辑是将 HTML 文档解析为 DOM 树，通过路径表达式（如 //div[@class=" 二、实战实现：百科词条结构化抓取2.1 需求定义以百度百科 “Java 语言” 词条为例，需抓取以下结构化信息：词条标题核心摘要目录中的一级标题正文第一个段落2.2 环境准备JDK 8 及以上依赖库：Jsoup 核心摘要：" + summary); // 4. 核心摘要：" + summary); // 4. String firstParagraph = extractFirstParagraphByXPath(doc); System.out.println("4.
17510编辑于 2026-01-06

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多