搜索 - 腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

来自专栏马拉松程序员的专栏
数据分类：新闻信息自动分类
文件夹的位置与t2_parse.py是同一级目录。 3.拆分训练测试集上面得到的3000*8条新闻是接下来用于训练和测试的语料库。这还是仅仅在不到2万条的数据量而且并没有设置各项参数下进行的。那么现在的模型对于预测其他时间段的新闻是否可以呢，这里从网上找了21年时间的几条新闻验证一下。 ret1 = classifier1.predict(text_string=text_string1) print("新闻1类别：" + ret1[0]) #新闻2实际类别：健康类 ret2 = classifier1.predict(text_string=text_string2) print("新闻2类别：" + ret2[0]) #新闻3实际类别：财经商业类新闻1类别：sports 新闻2类别：health 新闻3类别：business 新闻4类别：business 从网上找了四段新闻内容，分别为体育、健康、财经、学习类的新闻，当前的多项式朴素贝叶斯分类器预测准确了
97120编辑于 2023-09-21
来自专栏菜鸟学数据分析之R语言
【R语言】文本挖掘| 网页爬虫新闻内容
01 目标读取该网页的新闻，包括新闻标题，发文日期，时间，每条新闻链接，文章内容 ? a') #用浏览器打开网页，右键单击-检查，查看网页源代码特点，可以知道每条新闻位于h2，a节点读取网页节点。如何查看节点确定每篇新闻所在位置为'h2 a'，详见视频：关注公众号后台回复【网页节点】查看视频 04 新闻题目title爬取 #获取title title<-news%>%html_text()# 图2 link数据特点从link的数据结构看，我们只需要href，这个就是每个新闻对应的子链接，因此，我们要写一个循环，将link中的href提取出来。图4 link4结构特点 05 新闻发布日期date、时间time、内容content获取 news_date<-c(1:length(link2)) date<-c(1:length(link2))
2K10发布于 2021-01-28
来自专栏FreeBuf
SRC漏洞挖掘信息收集与挖掘技巧
当收集到qq群这种信息时还可以”潜伏”到qq群，qq群文件可能会包含一些敏感的信息。这方面的信息收集能够帮助我们在漏洞利用时构造一些参数值或是进行暴力破解等等。漏洞挖掘小技巧 F12、查看源文件大法 ? ? ? 在漏洞挖掘时可以多多查看“源文件”，越来越多的站点使用webpack进行打包会导致接口暴露等信息暴露，看似比较乱的js通过js格式化就能很好的进行阅读发现问题。如果服务端对swagger-ui.html这个页面进行了限制可以通过/v2/api-docs 来获取API ? ? ? 总结 1.挖掘SRC漏洞时，对于子域名的收集至关重要，子域名的多少决定了漏洞的产出。 2.在进行信息收集时尽可能的做到全面，这样能最大限度上获取到子域名。
1.7K20发布于 2020-06-16
来自专栏Ray学习笔记
爬取新闻网信息
ul.news_list-3wjAJJJM") .select("li") .select("a"); // 3.从标签中抽取基本信息 (contentElement.isEmpty()) { return; } // 直接从头部信息获取部分数据从标签中抽取信息，封装成 news HashSet<News> newsSet = new HashSet<>(); newA.forEach(a -> { 从标签中抽取基本信息，封装成 news HashSet<News> newsSet = new HashSet<>(); for (Element a : newsATags 根据新闻url访问新闻，获取新闻内容 newsSet.forEach(news -> { logger.info("开始抽取搜狐新闻内容：{}", news.getUrl
1.5K30发布于 2020-09-15
来自专栏Y-StarryDreamer
信息检索与文本挖掘
当涉及到自然语言处理（NLP）中的信息检索与文本挖掘时，我们进入了一个旨在从大量文本数据中发现有价值信息的领域。信息检索涉及从文本数据中检索相关信息，而文本挖掘则旨在自动发现文本中的模式、趋势和知识。文本挖掘有助于组织和理解大规模文本数据，从中提取有价值的信息。为什么信息检索与文本挖掘重要？金融领域：分析新闻报道和市场数据，以支持金融决策和投资策略。健康医疗：从医学文献中提取有用的医疗信息，用于疾病诊断和治疗建议。法律领域：自动化合同分析、法律文档分类和法律研究。新闻媒体：自动化新闻分类和主题建模，以帮助记者和编辑组织新闻报道。企业知识管理：管理和检索企业内部文档和信息资源。使用NLP进行信息检索与文本挖掘使用自然语言处理（NLP）技术进行信息检索与文本挖掘涉及多个步骤：数据收集：首先，需要获取文本数据，这可以是来自互联网、社交媒体、新闻、研究文献或其他来源的文本。
1.9K140编辑于 2023-11-09
来自专栏HACK学习
漏洞挖掘之信息收集
原创投稿，作者：Only_Free 对一个网站挖掘的深浅来说就得看你收集的如何，这说明信息收集在漏洞挖掘中是非常的重要的。 Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2. rtsp-url-brute,snmp-brute,svn-brute,telnet-brute,vnc-brute,xmpp-brute > scan.txt 然后根据对应开放的端口进行针对性漏洞挖掘 C段信息收集 C的段我话教育一般都是使用iis put这款工具来扫描，自可以定义扫描1-255的端口并且还有报道查看服务器banner信息自定义的端口 135,139,80,8080,15672,873,8983,7001,4848,6379,2381,8161,11211,5335,5336,7809,2181,9200,50070,50075,5984,2375,7809,16992,16993 我们可以诱导用户点开来劫持账号密码或者还是看源代码，然后搜索hidden（滑稽），我们可能可能会找到敏感操作的按钮，然后管理员也知道敏感，将其“隐藏”了，我们可以根据这个来搜索然后访问他，嘿嘿嘿（之前一个对小站点进行挖掘的时候我
1.5K41发布于 2019-08-05
来自专栏Python机器学习算法说书人
新闻汇总（2）：再次实现
我建议，快速浏览一些问题描述中的重要名词：信息、代理、新闻、汇总、网络、新闻源、目的地、前端、后端和主引擎。现在唯一缺失的是将新闻从源分发到目的地的方法。在分发期间，新闻源必须有一个返回其所有新闻的方法，而目的地必须有一个接受所有要分发的新闻的方法。目录和主新闻列表是使用两个不同的for循环创建的。在设计方面，我考虑过使用新闻源超类和新闻目的地超类，但不同的新闻源和新闻目的地在行为上没有共同之处，因此使用超类毫无意义。表示路透社网站的SimpleWebSource，它使用两个简单的正则表达式提取所需的信息。 ---- 注意路透社网站网页的HTML布局可能发生变化。在这种情况下，你需要修改正则表达式。当然，从其他网页提取信息时，也需要这样做。为此，可查看网页的HTML源代码，并找出适用的模式。 ---- 表示gmane.comp.python.committers的NNTPSource。
86720发布于 2019-07-26
来自专栏DrugOne
DrugBank:小分子数据信息挖掘
DrugBank数据库简介 DrugBank数据库是唯一将详细的药品数据（即化学、药理学和制药）与综合药物靶点信息（即序列、结构和作用通路）相结合的“生物信息学和化学信息学”资源。作为临床导向的药品百科全书，DrugBank能够提供关于药品，药品靶点和药物作用的生物或生理结果的详细、最新、定量分析或分子量的信息。 DrugBank数据库小分子信息的解析，药物结构提取：下载XML文件 https://www.drugbank.ca/releases/latest ? 基于Python3从含有药物信息的XML文件解析数据 ? 效果 ? ---- 如果想获取DrugBank数据库的小分子结构，只需从XML文件中解析出的csv中提取结构的smiles信息，然后转换成结构。
2.4K40发布于 2021-01-28
来自专栏Web安全技术
Google Hacking语法-信息泄露挖掘
随缘找信息泄密直接用Google hacking语法语法如下： filetype:txt 登录 filetype:xls 登录 filetype:doc 登录这三条是我经常用的Google
1.5K00发布于 2020-05-02
来自专栏达达前端
微信小程序新闻信息列表展示
微信小程序信息展示列表效果展示 wxml <! margin-left: 10px; margin-bottom: 8px; color: #444; font-weight: bold; font-size: 18px; } /* 信息 font-size: 12px; color: #999; } /* 前半部分 */ .desc { width: 95%; margin-left: 10px; } /* 每条信息 +PHJlY3Qgd2lkdGg9IjciIGhlaWdodD0iMjAiIHg9IjQ2LjUiIHk9IjQwIiBmaWxsPSIjOUI5OTlBIiByeD0iNSIgcnk9IjUiIHRyYW5zZm9ybT0icm90YXRlKDYwIDc1Ljk4IDY1KSIvPjxyZWN0IHdpZHRoPSI3IiBoZWlnaHQ9IjIwIiB4PSI0Ni41IiB5PSI0MCIgZmlsbD0iI0EzQTFBMiIgcng9IjUiIHJ5PSI1IiB0cmFuc2Zvcm09InJvdGF0ZSg5MCA2NSA2NSkiLz48cmVjdCB3aWR0aD0iNyIgaGVpZ2h0PSIyMCIgeD0iNDYuNSIgeT0iNDAiIGZpbGw9IiNBQkE5QUEiIHJ4PSI1IiByeT0iNSIgdHJhbnNmb3JtPSJyb3RhdGUoMTIwIDU4LjY2IDY1KSIvPjxyZWN0IHdpZHRoPSI3IiBoZWlnaHQ9IjIwIiB4PSI0Ni41IiB5PSI0MCIgZmlsbD0iI0IyQjJCMiIgcng9IjUiIHJ5PSI1IiB0cmFuc2Zvcm09InJvdGF0ZSgxNTAgNTQuMDIgNjUpIi8 +PHJlY3Qgd2lkdGg9IjciIGhlaWdodD0iMjAiIHg9IjQ2LjUiIHk9IjQwIiBmaWxsPSIjRTJFMkUyIiByeD0iNSIgcnk9IjUiIHRyYW5zZm9ybT0icm90YXRlKC0zMCAtNS45OCA2NSkiLz48L3N2Zz4
3.4K20发布于 2019-07-03
来自专栏R语言 / Linux
GEO数据挖掘-2
GEO数据挖掘—2 四、代码分析流程 1. 下载数据并从中提取有用信息 gse_number = "GSE56649" eSet <- getGEO(gse_number, destdir = '. require(hgu133plus<em>2</em>.db))BiocManager::install("hgu133plus<em>2</em>.db") library(hgu133plus<em>2</em>.db) ls("package:hgu133plus<em>2</em> = b[,c("ID","Gene Symbol")] colnames(ids<em>2</em>) = c("probe_id","symbol") k1 = ids<em>2</em>$symbol! ="";table(k1) k<em>2</em> = ! str_detect(ids<em>2</em>$symbol,"///");table(k<em>2</em>) ids<em>2</em> = ids<em>2</em>[ k1 & k<em>2</em>,] # ids = ids<em>2</em> } # 方法3 官网下载注释文件并读取
1.1K01编辑于 2023-03-18
来自专栏火星娃统计
geo数据挖掘-2
geo数据挖掘-2 sunqi 2020/7/11 1.概述对下载的数据进行处理，提取表达矩阵，并匹配探针信息，基因名教程来自：https://github.com/jmzeng1314/GEO/ #查看临床信息,包含6个患者的34个信息 pd=pData(a) ## 选择需要的临床信息 library(stringr) # 通过空格分隔title，获得分组信息 group_list=str_split # 查看平台信息探针信息 # GPL6244 # 需要下载时，改为T if(F){ library(GEOquery) gpl <- getGEO('GPL6244', destdir="." colnames(Table(gpl)) head(Table(gpl)[,c(1,12)]) probe2gene=Table(gpl)[,c(1,12)] head(probe2gene ) save(probe2gene,file='probe2gene.Rdata') } # 获得平台的所有探针 load(file='probe2gene.Rdata') # 需要的时候通过
1.5K21发布于 2020-09-15
来自专栏网络安全技术点滴分享
进阶GitHub Dorking技术：挖掘敏感信息与自动化漏洞挖掘
“非会员读者可在此处查看免费版本”用于搜寻敏感信息的下一层级GitHub搜索指令1️. 用于查找API密钥和令牌的高级搜索指令CSD0tFqvECLokhw9aBeRqopJDR93OU7WxHE+knUD6TN8o5lXqpXoinBLfgd2cIi8ISnJ+t053saoBgDAk2bfcLlTpOTPsoDKzCLw59bvH
14710编辑于 2026-01-27
来自专栏红蓝对抗
Src挖掘之手把手edusrc漏洞挖掘和github信息收集
原文首发在先知社区 https://xz.aliyun.com/t/14970 0x1 前言这里主要还是介绍下新手入门edusrc漏洞挖掘以及在漏洞挖掘的过程中信息收集的部分哈！（主要给小白看的，大佬就当看个热闹了）下面的话我将以好几个不同的方式来给大家介绍下edusrc入门的漏洞挖掘手法以及利用github信息收集的过程以及给师傅们分享一些比较好用的工具哈。 0x2 信息收集——github 介绍: 在漏洞挖掘的过程前期我们进行信息收集，github和码云搜索相关的信息，代码库，运气好的话可以在库中发现一些重要配置如数据库用户密码等。第二个自然就是top10：万能密码（sql）、xss漏洞的挖掘。第三个：逻辑漏洞分析首先还是先使用f12查看页面源码，说不定管理员密码写在页面中的！然后最后希望这篇入门的edusrc挖掘文章能够对师傅们有一点帮助吧！ FOFA 鹰图文章中涉及的敏感信息均已做打码处理，文章仅做经验分享用途，切勿当真，未授权的攻击属于非法行为！
1.8K13编辑于 2024-07-12
来自专栏别先生
基于Jsp+Servlet的新闻信息管理系统
1、企鹅1748741328，基于Jsp+Servlet的新闻信息管理系统的登录界面，如下所示： ? ? 2、基于Jsp+Servlet的新闻信息管理系统的注册界面，如下所示： ? ? 3、基于Jsp+Servlet的新闻信息管理系统的后台主界面，如下所示： ? ? 4、基于Jsp+Servlet的新闻信息管理系统的用户管理界面，如下所示： ? ? 5、基于Jsp+Servlet的新闻信息管理系统的新闻类别管理界面，如下所示： ? ? 6、基于Jsp+Servlet的新闻信息管理系统的新闻管理界面，如下所示： ? ? ? ? 7、基于Jsp+Servlet的新闻信息管理系统的前台主界面，如下所示： ? ? 8、基于Jsp+Servlet的新闻信息管理系统的新闻详情主界面，如下所示： ? ?
8.2K40发布于 2020-12-09
来自专栏SpringBoot+MyBatis前端
JavaWeb新闻信息数据维护——评论与回复以及分页
; ps.setInt(1, nextPid); ps.setInt(2, uuid); ps.setInt(3, nid); ps.setString(4, pnr); ps.setString nid="+nid+"'</script>"); } //以下是查询新闻评论的主界面代码的一部分 <% //查询新闻的评论 ps = con.prepareStatement ; ps = con.prepareStatement(sql); ps.setInt(1,start); ps.setInt(2, end); rs = ps.executeQuery
90620编辑于 2022-11-18
来自专栏深度学习自然语言处理
腾讯信息流热点挖掘技术实践
2. 话题检测与追踪 ( TDT ) ? 接下来的任务和热点挖掘更相关，就是话题检测与追踪中的TDT任务，这个任务有20多年的历史了，定义的是处理新闻报道的系统。我们可以通过检测突发特征来发现事件，这类研究目标与TDT任务不同，不再局限于传统的新闻报道，可以针对多类型的数据，比如微博、搜索、视频数据，受此输入的影响，我们将时序分析方法和话题聚类相结合，来提升热点挖掘的效果这是之前话题挖掘的延续，这个任务已经发表在SIGMOD 2020上，大家有兴趣可以做详细阅读。当前挖掘效果每天新增100+事件，准确率人工评估95+。可以看到对当前的挖掘效果，在传统上的提升。 2. 资讯文章热点挖掘 ? 作为信息流服务的团队，每天打交道最多的是海量数据。这不仅可以用在图文挖掘上，也可以用在视频、小视频热点挖掘中。 2. 视频&小视频热点 ? 视频&小视频热中的应用，主要是基于热点挖掘得到的文本信息，将图文计算的热点传递给视频和小视频，怎么做的呢？
2.3K21发布于 2020-09-30
来自专栏罗超频道
搜索引擎在新闻信息集成中的作用
新闻的本质归根结底是信息的生产、传播和消费。新闻具备的显著特征将其与普通信息区分开来。正如新闻巨子范长江对新闻的定义：“广大群众欲知应知而未知的重要事实”。这体现了新闻信息应该及时、真实和简洁的特点。 2、爬虫爬取策略。与其他频道不同，新闻搜索必须有极短甚至接近实时的爬虫更新周期。这对爬虫提出了较高的要求。由于需要快速爬取大量的内容，采用大规模的爬虫服务器集群，并采取了多重容灾措施。 2、多种新闻传播方式释放已集成新闻的价值。除了新闻门户的浏览外，主动搜索是新闻搜索的另外一个核心功能。即用户通过输入搜索需求或者点击热门搜索词，搜索相关的新闻结果。对于集成的新闻信息如何进行二次加工甚至多次加工，挖掘和释放其附加价值。因此，搜索引擎在信息集成中，扮演一个再次加工的新闻终端角色。搜索引擎除了实现新闻信息集成、满足用户的搜索诉求外，还可以通过互动功能实现“向下的新闻信息集成”。前面提到的对新闻源的爬取可以认为是“向上的新闻信息集成”，或者“后向的新闻信息集成“。
1.9K80发布于 2018-04-28
Python数据挖掘编程基础2
)的结果是(0,1,2)。一些常见的与列表或元组相关的函数如表2-1所示。此外，列表作为对象，自带了很多实用的方法(元组不允许被修改，因此方法很少),如表2-2所示。此外，列表还有"列表解析"这一功能。代码清单2-3 使用append()方法对列表元素进行操作c=[1,2,3]d=[]for i in c:d.append(i+1)print(d)//输出结果为[2,3,4]将代码清单2-3使用列表解析进行简化，如代码清单2-4所示。 c=[1,2,3]d=[i+1 for i in c]print(d) //输出结果也为[2,3,4]
15710编辑于 2025-05-09
来自专栏C++ 动态新闻推送
C++ 动态新闻推送第2期
C++ 动态新闻推送第2期从reddit/hackernews/lobsters/meetingcpp摘抄一些c++动态。每周更新周刊项目地址 github，在线地址 discord讨论群组｜知乎专栏欢迎投稿，推荐或自荐文章/软件/资源等，请提交 issue ---- 资讯编译器信息最新动态推荐关注hellogcc llvmweekly.org/issue/374 文章你也可能会遇到最近有一篇文章，介绍GTA 5 online为什么那么慢，以及解决办法，详情见这里，主要原因 1 sscanf每次读都会检查长度, 对于大文件性能太差 2
54810发布于 2021-08-31

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多