搜索 - 腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

来自专栏马拉松程序员的专栏
数据分类：新闻信息自动分类
.')[-3] if type in hostnameType.keys(): # 根据域名区分新闻类别，并且保存到相应文件夹下，如果没有文件夹则新建一个 3.拆分训练测试集上面得到的3000*8条新闻是接下来用于训练和测试的语料库。 ret2 = classifier1.predict(text_string=text_string2) print("新闻2类别：" + ret2[0]) #新闻3实际类别：财经商业类 ret3 = classifier1.predict(text_string=text_string3) print("新闻3类别：" + ret3[0]) #新闻4实际类别：学习类新闻1类别：sports 新闻2类别：health 新闻3类别：business 新闻4类别：business 从网上找了四段新闻内容，分别为体育、健康、财经、学习类的新闻，当前的多项式朴素贝叶斯分类器预测准确了
97120编辑于 2023-09-21
来自专栏菜鸟学数据分析之R语言
【R语言】文本挖掘| 网页爬虫新闻内容
01 目标读取该网页的新闻，包括新闻标题，发文日期，时间，每条新闻链接，文章内容 ? 如何查看节点确定每篇新闻所在位置为'h2 a'，详见视频：关注公众号后台回复【网页节点】查看视频 04 新闻题目title爬取 #获取title title<-news%>%html_text()# 读取新闻题目 #查看前6行题目特点 head(link) ? 图3 link1数据特点从link1来看，并不完全是链接格式，接下来利用paste将 https://www.thepaper.cn/与link1中的进行连接得到link2 link2<-paste( for(i in 1:length(link2)) { news_date[i]<-(read_html(link2[i])%>%html_nodes('div p')%>%html_text())[3]
2K10发布于 2021-01-28
来自专栏FreeBuf
SRC漏洞挖掘信息收集与挖掘技巧
当收集到qq群这种信息时还可以”潜伏”到qq群，qq群文件可能会包含一些敏感的信息。这方面的信息收集能够帮助我们在漏洞利用时构造一些参数值或是进行暴力破解等等。漏洞挖掘小技巧 F12、查看源文件大法 ? ? ? 在漏洞挖掘时可以多多查看“源文件”，越来越多的站点使用webpack进行打包会导致接口暴露等信息暴露，看似比较乱的js通过js格式化就能很好的进行阅读发现问题。总结 1.挖掘SRC漏洞时，对于子域名的收集至关重要，子域名的多少决定了漏洞的产出。 2.在进行信息收集时尽可能的做到全面，这样能最大限度上获取到子域名。 3.进行漏洞挖掘时要细心，JS中蕴藏着宝藏。 *本文作者：HONGSON，来自FreeBuf.COM
1.7K20发布于 2020-06-16
来自专栏Ray学习笔记
爬取新闻网信息
") .select("li") .select("a"); // 3.从标签中抽取基本信息，封装成news getHtmlFromUrl(news.getUrl(), false); Elements contentElement = newsHtml.select("div.text-3zQ3cZD4 (contentElement.isEmpty()) { return; } // 直接从头部信息获取部分数据从标签中抽取信息，封装成 news HashSet<News> newsSet = new HashSet<>(); newA.forEach(a -> { 从标签中抽取基本信息，封装成 news HashSet<News> newsSet = new HashSet<>(); for (Element a : newsATags
1.5K30发布于 2020-09-15
来自专栏Y-StarryDreamer
信息检索与文本挖掘
当涉及到自然语言处理（NLP）中的信息检索与文本挖掘时，我们进入了一个旨在从大量文本数据中发现有价值信息的领域。信息检索涉及从文本数据中检索相关信息，而文本挖掘则旨在自动发现文本中的模式、趋势和知识。文本挖掘有助于组织和理解大规模文本数据，从中提取有价值的信息。为什么信息检索与文本挖掘重要？金融领域：分析新闻报道和市场数据，以支持金融决策和投资策略。健康医疗：从医学文献中提取有用的医疗信息，用于疾病诊断和治疗建议。法律领域：自动化合同分析、法律文档分类和法律研究。新闻媒体：自动化新闻分类和主题建模，以帮助记者和编辑组织新闻报道。企业知识管理：管理和检索企业内部文档和信息资源。使用NLP进行信息检索与文本挖掘使用自然语言处理（NLP）技术进行信息检索与文本挖掘涉及多个步骤：数据收集：首先，需要获取文本数据，这可以是来自互联网、社交媒体、新闻、研究文献或其他来源的文本。
1.9K140编辑于 2023-11-09
来自专栏HACK学习
漏洞挖掘之信息收集
原创投稿，作者：Only_Free 对一个网站挖掘的深浅来说就得看你收集的如何，这说明信息收集在漏洞挖掘中是非常的重要的。 rtsp-url-brute,snmp-brute,svn-brute,telnet-brute,vnc-brute,xmpp-brute > scan.txt 然后根据对应开放的端口进行针对性漏洞挖掘 \.){3}\d{1,3})",strings) ipList=[] for each in allIP: ipList.append(each[ \.){3}\d{1,3})", content) if findIp: return findIp.group(1) return 0 我们可以诱导用户点开来劫持账号密码或者还是看源代码，然后搜索hidden（滑稽），我们可能可能会找到敏感操作的按钮，然后管理员也知道敏感，将其“隐藏”了，我们可以根据这个来搜索然后访问他，嘿嘿嘿（之前一个对小站点进行挖掘的时候我
1.5K41发布于 2019-08-05
来自专栏新智元
谷歌投入622000英镑创建机器人记者，每月挖掘3万条新闻
【新智元导读】地方新闻是新闻报道的一个盲点，特别是近年来传媒行业的不景气使得地方新闻的报道更是不断减少，地方的新闻，例如地震、洪灾、车祸等重要的新闻缺少媒体曝光。近日，谷歌的数字新闻计划（Digital News Initiative）已经决定投入62.2万英镑，合80.5万美元，用于资助英国新闻机构 The Press Association的自动新闻写作项目这笔钱将用于 Radar （记者、数据和机器人）项目的发展，计划每月使用软件来生成超过3万条地方新闻报道。这与位于美国的著名新闻通讯社 AP 的情况相似，AP 已经采用相同的技术来处理金融和特定的体育新闻报道。在谷歌新闻上搜索，“这一新闻由机器自动生成”，可以看到这些新闻报道。人类将会参与到新闻的核实和编辑中，希望能减少错误信息的发布。当然，这个时代，“假新闻”也是无处不见的。机器人记者对它们的人类同事是取代还是帮助？可能二者都有吧。
67960发布于 2018-03-27
来自专栏DrugOne
DrugBank:小分子数据信息挖掘
DrugBank数据库简介 DrugBank数据库是唯一将详细的药品数据（即化学、药理学和制药）与综合药物靶点信息（即序列、结构和作用通路）相结合的“生物信息学和化学信息学”资源。作为临床导向的药品百科全书，DrugBank能够提供关于药品，药品靶点和药物作用的生物或生理结果的详细、最新、定量分析或分子量的信息。 DrugBank数据库小分子信息的解析，药物结构提取：下载XML文件 https://www.drugbank.ca/releases/latest ? 基于Python3从含有药物信息的XML文件解析数据 ? 效果 ? ---- 如果想获取DrugBank数据库的小分子结构，只需从XML文件中解析出的csv中提取结构的smiles信息，然后转换成结构。
2.4K40发布于 2021-01-28
来自专栏Web安全技术
Google Hacking语法-信息泄露挖掘
随缘找信息泄密直接用Google hacking语法语法如下： filetype:txt 登录 filetype:xls 登录 filetype:doc 登录这三条是我经常用的Google
1.5K00发布于 2020-05-02
来自专栏达达前端
微信小程序新闻信息列表展示
微信小程序信息展示列表效果展示 wxml <! margin-left: 10px; margin-bottom: 8px; color: #444; font-weight: bold; font-size: 18px; } /* 信息 font-size: 12px; color: #999; } /* 前半部分 */ .desc { width: 95%; margin-left: 10px; } /* 每条信息 12, end) infinite; background: transparent url(data:image/svg+xml;base64,PHN2ZyB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciIHdpZHRoPSIxMjAiIGhlaWdodD0iMTIwIiB2aWV3Qm94PSIwIDAgMTAwIDEwMCI +PHJlY3Qgd2lkdGg9IjciIGhlaWdodD0iMjAiIHg9IjQ2LjUiIHk9IjQwIiBmaWxsPSIjQkFCOEI5IiByeD0iNSIgcnk9IjUiIHRyYW5zZm9ybT0icm90YXRlKDE4MCA1MCA2NSkiLz48cmVjdCB3aWR0aD0iNyIgaGVpZ2h0PSIyMCIgeD0iNDYuNSIgeT0iNDAiIGZpbGw9IiNDMkMwQzEiIHJ4PSI1IiByeT0iNSIgdHJhbnNmb3JtPSJyb3RhdGUoLTE1MCA0NS45OCA2NSkiLz48cmVjdCB3aWR0aD0iNyIgaGVpZ2h0PSIyMCIgeD0iNDYuNSIgeT0iNDAiIGZpbGw9IiNDQkNCQ0IiIHJ4PSI1IiByeT0iNSIgdHJhbnNmb3JtPSJyb3RhdGUoLTEyMCA0MS4zNCA2NSkiLz48cmVjdCB3aWR0aD0iNyIgaGVpZ2h0PSIyMCIgeD0iNDYuNSIgeT0iNDAiIGZpbGw9IiNEMkQyRDIiIHJ4PSI1IiByeT0iNSIgdHJhbnNmb3JtPSJyb3RhdGUoLTkwIDM1IDY1KSIvPjxyZWN0IHdpZHRoPSI3IiBoZWlnaHQ9IjIwIiB4PSI0Ni41IiB5PSI0MCIgZmlsbD0iI0RBREFEQSIgcng9IjUiIHJ5PSI1IiB0cmFuc2Zvcm09InJvdGF0ZSgtNjAgMjQuMDIgNjUpIi8
3.4K20发布于 2019-07-03
来自专栏火星娃统计
GEO数据挖掘3
数据挖掘3 sunqi 2020/7/11 概述对下载好的基因初步分析，进行PCA分析和热图绘制 PCA 绘制 rm(list = ls()) options(stringsAsFactors = F 3 # 查看数据 dat[1:4,1:4] ## GSM1052615 GSM1052616 GSM1052617 GSM1052618 ## ZZZ3 11.26970 11.12560 #画PCA图时要求是行名时样本名，列名时探针名，因此此时需要转换 dat=t(dat) #将matrix转换为data.frame dat=as.data.frame(dat) #cbind添加分组信息 install.packages(c("FactoMineR", "factoextra")) library("FactoMineR") library("factoextra") # 数据处理，去掉分组信息 # 现在的图只是热图，但是没有分组信息 # 添加分组信息 ac=data.frame(g=group_list) # 添加样本名为行名 rownames(ac)=colnames(n) # 再次绘制热图
1.2K31发布于 2020-09-15
来自专栏IT架构圈
python3爬新浪新闻
if not os.path.exists("D:/新闻"):#判断是否有这个文件夹 os.makedirs("D:/新闻")#如果没有就创建 os.chdir("D:/新闻")##切换该文件夹下面 #print(time, title, href)#打印出来看看是不是我们想要的 Ros = reqbs(href)#利用新闻的链接取得每个新闻URL的Response article = []#建立一个空的列表用来存储新闻 for p in Ros.select('#artibody p'):#筛选出新闻的具体内容 #print(p.text)#打印出来看看是不是我们要的新闻 article.append(p.text.strip())#将每一个找到的新闻内容加到我们的空列表里面去 ')#表示一个新闻已经完成
68770发布于 2018-06-01
来自专栏人工智能头条
AI 3 分钟：每周最新闻
每天 AI 新闻那么多？其实一周 3 分钟就够了。平时都是讲技术讲干货，太费脑子。周一是一周最难熬的一天，所以我们今天聊点轻松的话题。全文大约2000字。读完可能下面这首歌的时间 ? ? 新闻联播8分钟讲 AI 上周最大的新闻，恐怕就是新闻联播给了 AI 8 分钟的展示镜头。也就是说，新闻联播花了 27% 的篇幅，在说一件事情。 farmingvillein 大概算了一下成本： 4 颗云 TPUs ✖ 2美元/小时(preemptible) ✖ 24小时/天 ✖ 4天 = $768 (约合 5300 人民币) 16 颗云 TPUs = ~$3k 百度无人挖掘机，无人驾驶出租车，造首个 AI 公园目前国内大厂里要论自动驾驶，百度是头一份儿。谁知道突然又去研究挖掘机了，你这让蓝翔怎么办？“挖掘技术哪家强？这也许解释了为什么新闻联播有底气用 27% 的时间，讲中国在人工智能的规划。 ? 所以，以后学校再也不用为学生的成绩背锅了。以上就是一周最值得关注的人工智能头条新闻了。
2.6K30发布于 2018-12-06
来自专栏R语言 / Linux
GEO数据挖掘—3
GEO数据挖掘—3 富集分析（一）GO富集分析（用差异基因做富集）输入数据 #(1)输入数据 gene_up = deg$ENTREZID[deg$change == 'up'] gene_down save(ego,ego_BP,file = f) } #(3)可视化 #条带图 barplot(ego) barplot(ego, split = "ONTOLOGY", font.size = 10 , #layout = "star", color.params = list(foldChange = gl), showCategory = 3) organism = 'hsa') save(kk.diff,kk.down,kk.up,file = f2) } load(f2) #(3)
53800编辑于 2023-03-20
来自专栏网络安全技术点滴分享
进阶GitHub Dorking技术：挖掘敏感信息与自动化漏洞挖掘
“非会员读者可在此处查看免费版本”用于搜寻敏感信息的下一层级GitHub搜索指令1️.
14710编辑于 2026-01-27
来自专栏红蓝对抗
Src挖掘之手把手edusrc漏洞挖掘和github信息收集
原文首发在先知社区 https://xz.aliyun.com/t/14970 0x1 前言这里主要还是介绍下新手入门edusrc漏洞挖掘以及在漏洞挖掘的过程中信息收集的部分哈！（主要给小白看的，大佬就当看个热闹了）下面的话我将以好几个不同的方式来给大家介绍下edusrc入门的漏洞挖掘手法以及利用github信息收集的过程以及给师傅们分享一些比较好用的工具哈。 0x2 信息收集——github 介绍: 在漏洞挖掘的过程前期我们进行信息收集，github和码云搜索相关的信息，代码库，运气好的话可以在库中发现一些重要配置如数据库用户密码等。高危案例: 某某某.com 存在敏感信息泄露，数据库用户名密码等泄露通过查看库内文件找到了数据库配置等信息 0x3 利用FOFA打管理系统src 浅聊下对于新人刚开设挖edusrc的时候需要花大量的时间来找系统和信息收集然后最后希望这篇入门的edusrc挖掘文章能够对师傅们有一点帮助吧！ FOFA 鹰图文章中涉及的敏感信息均已做打码处理，文章仅做经验分享用途，切勿当真，未授权的攻击属于非法行为！
1.8K13编辑于 2024-07-12
来自专栏别先生
基于Jsp+Servlet的新闻信息管理系统
1、企鹅1748741328，基于Jsp+Servlet的新闻信息管理系统的登录界面，如下所示： ? ? 2、基于Jsp+Servlet的新闻信息管理系统的注册界面，如下所示： ? ? 3、基于Jsp+Servlet的新闻信息管理系统的后台主界面，如下所示： ? ? 4、基于Jsp+Servlet的新闻信息管理系统的用户管理界面，如下所示： ? ? 5、基于Jsp+Servlet的新闻信息管理系统的新闻类别管理界面，如下所示： ? ? 6、基于Jsp+Servlet的新闻信息管理系统的新闻管理界面，如下所示： ? ? ? ? 7、基于Jsp+Servlet的新闻信息管理系统的前台主界面，如下所示： ? ? 8、基于Jsp+Servlet的新闻信息管理系统的新闻详情主界面，如下所示： ? ?
8.2K40发布于 2020-12-09
来自专栏SpringBoot+MyBatis前端
JavaWeb新闻信息数据维护——评论与回复以及分页
; ps.setInt(1, nextPid); ps.setInt(2, uuid); ps.setInt(3, nid); ps.setString(4, pnr); ps.setString nid="+nid+"'</script>"); } //以下是查询新闻评论的主界面代码的一部分 <% //查询新闻的评论 ps = con.prepareStatement
90620编辑于 2022-11-18
来自专栏深度学习自然语言处理
腾讯信息流热点挖掘技术实践
接下来的任务和热点挖掘更相关，就是话题检测与追踪中的TDT任务，这个任务有20多年的历史了，定义的是处理新闻报道的系统。输入可以是固定的文章或者流式数据，结果是以聚类的方式将文档组织起来的话题。我们可以通过检测突发特征来发现事件，这类研究目标与TDT任务不同，不再局限于传统的新闻报道，可以针对多类型的数据，比如微博、搜索、视频数据，受此输入的影响，我们将时序分析方法和话题聚类相结合，来提升热点挖掘的效果离线挖掘流程：先是资源引入，有3个不同的端，腾讯看点浏览器、qq浏览器、qq里的腾讯看点频道，接入丰富的数据之后，通过话题抽取，来提取热点特征，进行话题融合，把挖掘到的结果聚类成话题，再把话题拆分成对应的事件话题是对向上泛化，需要话题解析模块，将不同输入来源的热点信息以特征提取，与流式处理的融合，组织成话题的粒度；最后通过话题融合模块，从3个不同的角度定义一个热度，这样定好的热度，更加符合平台用户的热度感知资讯文章热点挖掘 ? 作为信息流服务的团队，每天打交道最多的是海量数据。
2.3K21发布于 2020-09-30
来自专栏ApacheHudi
2025 年 3月 Apache Hudi 社区新闻
欢迎阅读由 Onehouse.ai[1] 为您带来的 2025 年 3 月 Hudi 通讯！本月，我们为您带来新一轮的项目更新、社区焦点和技术深度探讨，这些内容将继续塑造数据仓库的未来。社区活动 3月份，Apache Hudi 社区举办了一系列有影响力的活动 - 汇集贡献者、用户和采用者，分享想法、使用案例和进展。 Hudi 亚洲社区聚会在 Kuaishou 团队的带领下，首届 Apache Hudi 亚洲聚会于 3 月 29 日举行。在此处[3]加入 Hudi 社区的月度同步。引用链接 [1] Onehouse.ai:http://onehouse.ai/ [2]这里:https://youtu.be/X3FW4IYmYE4?
44600编辑于 2025-04-05

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多