搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏阮一峰的网络日志
Wikipedia的方言版本
今天，我惊奇地发现，wikipedia竟然有方言版本。闽东话版本： http://cdo.wikipedia.org/wiki/ 闽南话版本： http://zh-min-nan.wikipedia.org/wiki/ 客家话版本： http://hak.wikipedia.org /wiki/ 赣语版本： http://gan.wikipedia.org/wiki/ 吴语版本： http://wuu.wikipedia.org/wiki/ 文言版本： http://zh-classical.wikipedia.org /wiki/ 粤语版本： http://zh-yue.wikipedia.org/wiki/ 我觉得，这样太不应该了。 [相关链接] * wikipedia的265种语言版本一览表 * 申请开设新语言版本的官方指南（完）
1.8K20发布于 2018-09-21
来自专栏阮一峰的网络日志
Wikipedia创始人访谈
答：Wikipedia其实不是技术革新，而是社会革新。它需要的所有技术工具，在1995年就都存在了。新技术的发展，对Wikipedia的基本形态不会有太大的影响。问：我在读大学的时候，教授规定作业中不得引用Wikipedia，违者一律扣除5分。你是否同意，Wikipedia还不够可靠，所以不能在学术性文章中引用？问：去年你们募集600万美元的经费很辛苦，有没有想过在wikipedia上放置广告？答：确实有许许多多的人提议，Wikipedia应该接受广告。这种提议是合情合理的，但是我还是持反对态度。我的观点是，我们每个人都应该将Wikipedia视作世界的基础设施之一，而不是互联网上的一个竞争性组织。Wikipedia并不仅仅是一个网站，而是一种更深刻的东西，是人们心中潜在的价值观的一部分。问：你为Wikipedia设定了宏伟的目标，远远超过了百科全书本来的角色。你真的觉得Wikipedia可以改变人性吗？答：如果我们做好这个项目，我们就为世界带来了一些积极的变化。
1.3K20发布于 2018-09-21
来自专栏challenge filter
Wikipedia pageview数据获取(bigquery)
获取全部数据 SELECT wiki,datehour,SUM(views) as totalViews FROM `bigquery-public-data.wikipedia.pageviews_2015 这个是因为大部分维基百科的页面数量都非常小 SELECT * FROM `bigquery-public-data.wikipedia.pageviews_2020` WHERE datehour BETWEEN OR (wiki='en.m' AND (title='Main_Page' OR title='Special:Search')) OR (wiki='zh' AND (title='Wikipedia :首页' OR title='Special:搜索')) OR (wiki='de' AND (title='Wikipedia:Hauptseite' OR title='Spezial: SELECT title FROM ( SELECT title,AVG(views) AS perviews FROM `bigquery-public-data.wikipedia.pageviews
3.6K10编辑于 2022-06-17
来自专栏实战docker
Flink实战：消费Wikipedia实时消息
https://blog.csdn.net/boling_cavalry/article/details/85205622 关于Wikipedia Edit Stream Wikipedia 收到数据后保存在阻塞队列中，通过一个while循环不停的从队列取出数据，再调用SourceContext的collect方法，就在Flink中将这条数据生产出来了； IRC是应用层协议，更多细节请看：https://en.wikipedia.org 这个git项目中有多个文件夹，本章源码在wikipediaeditstreamdemo这个文件夹下，如下图红框所示： [5ha7v7vz9e.jpeg] 接下来开始编码：在pom.mxl文件中增加wikipedia
1K20发布于 2019-06-02
来自专栏包子铺里聊IT
10分钟拥有自己的Wikipedia
引子相信你一定用过Wikipedia。它简单明了的页面使内容容易查找和阅读。但你有没有想过自己也可以轻松获得一个专属Wikipedia？背景小编从一毕业进入某电商公司，就在公司开始使用一款与Wikipedia类似的内部网站。想必你也猜得到，它源于Wikipedia，在2003年12月，也就是Wikipedia上线2年后，MediaWiki 1.1正式上线。从此以后被无数的公司和组织使用。在我看来，每个人都应该拥有一个属于自己的Wikipedia。－孔子搭建Wiki求虐版小编最开始使用的方法是比较原始的：MediaWiki zip + Heroku部署。希望10分钟后的你也拥有了一个属于你自己的Wikipedia。
4.7K60发布于 2018-04-20
来自专栏深度学习与数据挖掘实战
【社交图挖掘】wikipedia数据批量导入neo4j
代码是java编写，包括:wikipedia数据库的数据抽取解析、关系的提取、节点数据&关系数据导入neo4j的流程。文章链接： https://maxdemarzi.com/2012/02/16/importing-wikipedia-into-neo4j-with-graphipedia/ Github代码 github.com/mirkonasato/graphipedia 补充： 1、neo4j 很好的入门案例 http://www.cnblogs.com/starcrm/p/5033117.html 2、Wikipedia
1.5K20发布于 2018-11-21
来自专栏AutoML(自动机器学习)
在Megatron-Deepspeed项目中如何下载和预处理Wikipedia数据集
更详细的查看 https://github.com/marsggbo/Megatron-DeepSpeed/blob/main/tutorials/gpt2_wikipedia.md 下载Wikipedia /bin/bash # 设置ROOT路径 ROOT="/data/personal/nus-hx/Wikipedia/text" # 检查是否存在 wiki_all.json 文件，
1.1K10编辑于 2023-11-27
来自专栏旅途散记
Docker中容器的随机命名方式
https://en.wikipedia.org/wiki/Annie_Easley “伊斯利”， // 托马斯·阿尔瓦·爱迪生，多产发明家 https://en.wikipedia.org/wiki/ - https://en.wikipedia.org/wiki/Maria_Mayer “迈耶”, // John McCarthy 发明了 LISP：https://en.wikipedia.org https://en.wikipedia.org/wiki/Anne_McLaren “迈凯轮”， // 马尔科姆·麦克莱恩发明了现代集装箱：https://en.wikipedia.org/wiki/ https://en.wikipedia.org/wiki/ENIAC - https://en.wikipedia.org/wiki/Betty_Holberton “斯奈德”， // Cynthia https://en.wikipedia.org/wiki/ENIAC - https://en.wikipedia.org/wiki/Frances_Spence “斯宾塞”， // Michael
96430编辑于 2023-09-05
来自专栏企鹅号快讯
50 个杀手级人工智能项目
https://en.wikipedia.org/wiki/Psi-Theory R-CAST，在宾夕法尼亚州立大学开发。 https://en.wikipedia.org/w/index.php? https://en.wikipedia.org/wiki/Microsoft_Cortana Mycin，早期的医学专家系统。 https://en.wikipedia.org/w/index.php? https://en.wikipedia.org/w/index.php?
1K90发布于 2018-02-05
来自专栏数据派THU
50个“杀手级”AI项目 !（附链接）
https://en.wikipedia.org/wiki/Psi-Theory R-CAST，在宾夕法尼亚州立大学开发。 https://en.wikipedia.org/wiki/Microsoft_Cortana Mycin，早期的医学专家系统。 https://en.wikipedia.org/w/index.php? https://en.wikipedia.org/w/index.php? https://en.wikipedia.org/wiki/Numenta#The_NuPIC_Open_Source_Project
1.4K60发布于 2018-03-20
来自专栏daba
使用 JavaScript 工具在网站上实施搜索
country":"Nigeria","imageLink":"images/things-fall-apart.jpg","language":"English","link":"https://en.wikipedia.org country":"Italy","imageLink":"images/the-divine-comedy.jpg","language":"Italian","link":"https://en.wikipedia.org "Achaemenid Empire","imageLink":"images/the-book-of-job.jpg","language":"Hebrew","link":"https://en.wikipedia.org ","country":"Iceland","imageLink":"images/njals-saga.jpg","language":"Old Norse","link":"https://en.wikipedia.org ","country":"France","imageLink":"images/le-pere-goriot.jpg","language":"French","link":"https://en.wikipedia.org
1.1K20编辑于 2022-01-07
来自专栏cwl_Java
快速学习-Druid的入门
开始连接到实例Wikipedia数据集 ? 加载样本数据。Wikipedia示例使用Http数据加载器从URI路径读取数据，格式为json。该quickstart目录包括一个样本数据集和一个摄取规范来处理数据，分别命名wikipedia-2016-06-27-sampled.json和wikipedia-index.json。： Beginning indexing data for wikipedia Task started: index_wikipedia_2017-12-05T03:22:28.612Z Task log Now loading indexed data onto the cluster... wikipedia is 0.0% finished loading... wikipedia is 0.0% finished loading... wikipedia is 0.0% finished loading... wikipedia loading complete!
90630发布于 2020-03-25
来自专栏cwl_Java
快速学习-Druid数据摄入
使用quickstart/wikipedia-index-hadoop.json 摄取任务文件。 bin/post-index-task --file quickstart/wikipedia-index-hadoop.json 此命令将启动Druid Hadoop摄取任务。 1 --replication-factor 1 –create Created topic "wikipedia". @hadoop103 logs]$ pwd /opt/module/kafka/logs 将样本事件发布到Kafka的wikipedia主题，然后由Kafka索引服务将其提取到Druid中。 6.4.4 加载实时数据下载一个帮助应用程序，该应用程序将解析维基媒体的IRC提要中的event，并将这些event发布到我们之前设置的Kafka的wikipedia主题中。
95430编辑于 2022-11-30
来自专栏实时计算
Druid 0.17 入门（3）—— 数据接入指南
--url http://localhost:8081 看到如下输出： Beginning indexing data for wikipedia Task started: index_wikipedia -07-27T06:37:44.323Z/status Task index_wikipedia_2018-07-27T06:37:44.323Z still running... Task index_wikipedia_2018-07-27T06:37:44.323Z still running... Task finished with status: SUCCESS Completed indexing data for wikipedia. Now loading indexed data onto the cluster... wikipedia loading complete!
85810发布于 2020-03-19
来自专栏简说基因
新参考基因组：牛（bosTau5）
我们先来看一下牛基因组的百科介绍： https://en.wikipedia.org/wiki/Bovine_genome[1] 一头雌性赫里福德奶牛的基因组于2009年发表。参考资料 [1] https://en.wikipedia.org/wiki/Bovine_genome: https://en.wikipedia.org/wiki/Bovine_genome [2] [1]: https://en.wikipedia.org/wiki/Bovine_genome#cite_note-1 [3] [2]: https://en.wikipedia.org/wiki/ 3 [5] [4]: https://en.wikipedia.org/wiki/Bovine_genome#cite_note-:0-4 [6] [5]: https://en.wikipedia.org #cite_note-6 [8] [7]: https://en.wikipedia.org/wiki/Bovine_genome#cite_note-7 [9] [2]: https://en.wikipedia.org
54910编辑于 2024-05-30
来自专栏彭旭锐
一套用了 70 年的计算机架构 —— 冯·诺依曼架构
---- 参考资料 Von Neumann architecture[6] —— Wikipedia Von Neumann Bottleneck[7] —— Wikipedia Harvard Architecture [8] —— Wikipedia Stored-program Computer[9] —— Wikipedia EDVAC[10] —— Wikipedia EDIAC[11] —— Wikipedia Delay-line memory[12] —— Wikipedia Colossus Computer[13] —— Wikipedia Manchester Baby[14] —— Wikipedia //en.wikipedia.org/wiki/EDVAC [11] EDIAC: https://en.wikipedia.org/wiki/ENIAC [12] Delay-line memory: https://en.wikipedia.org/wiki/Delay-line_memory [13] Colossus Computer: https://en.wikipedia.org/wiki
3.4K82编辑于 2022-12-22
因用户阻塞导致Python脚本在网站上运行失败的解决方法
/home/tris1601/thewikipediaforum.com/pywikipedia/wikitest.py 35 site = wikipedia.getSite() 36 newpage = wikipedia.Page(site, u"User:Dottydotdot/test") 37 newpage.put(text + "

'''Imported from [ in checkBlocks(self=wikipedia:en, sysop=False)4457 if self. >, self = wikipedia:enUserBlocked: User is blocked in site wikipedia:en args = ('User is blocked in site wikipedia:en',)我们尝试寻找解决该问题的方案。
80910编辑于 2024-04-01
来自专栏实时计算
Druid 0.17入门（4）—— 数据查询方式大全
一、SQL查询我们用wiki的数据为例查询10条最多的页面编辑 SELECT page, COUNT(*) AS Edits FROM wikipedia WHERE TIMESTAMP '2015 Type "\h" for help. dsql> 提交sql dsql> SELECT page, COUNT(*) AS Edits FROM wikipedia WHERE "__time" BETWEEN http://localhost:8888/druid/v2/sql 可以得到如下结果 [ { "page": "Wikipedia:Vandalismusmeldung", "Edits :In the news/Candidates", "Edits": 17 }, { "page": "Wikipedia:Requests for page protection 二、原生JSON查询 Druid支持基于Json的查询 { "queryType" : "topN", "dataSource" : "wikipedia", "intervals" : [
91440发布于 2020-05-19
来自专栏大数据文摘
自然语言处理(NLP)入门指南
https://en.wikipedia.org/wiki/CYK_algorithm https://en.wikipedia.org/wiki/Context-free_grammar • 在文本集合中 https://en.wikipedia.org/wiki/Pointwise_mutual_information • 使用朴素贝叶斯分类器来过滤垃圾邮件 https://en.wikipedia.org https://en.wikipedia.org/wiki/Spell_checker https://en.wikipedia.org/wiki/Edit_distance • 实现一个马尔科夫链文本生成器 https://en.wikipedia.org/wiki/Markov_chain • 使用LDA实现主题模型 https://en.wikipedia.org/wiki/Topic_model https://code.google.com/archive/p/word2vec/ https://en.wikipedia.org/wiki/Wikipedia:Database_download
1.7K40发布于 2018-05-24
来自专栏数据派THU
【独家】自然语言处理(NLP)入门指南
https://en.wikipedia.org/wiki/CYK_algorithm https://en.wikipedia.org/wiki/Context-free_grammar • 在文本集合中 https://en.wikipedia.org/wiki/Pointwise_mutual_information • 使用朴素贝叶斯分类器来过滤垃圾邮件 https://en.wikipedia.org https://en.wikipedia.org/wiki/Spell_checker https://en.wikipedia.org/wiki/Edit_distance • 实现一个马尔科夫链文本生成器 https://en.wikipedia.org/wiki/Markov_chain • 使用LDA实现主题模型 https://en.wikipedia.org/wiki/Topic_model https://code.google.com/archive/p/word2vec/ https://en.wikipedia.org/wiki/Wikipedia:Database_download
2.3K90发布于 2018-01-29

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Wikipedia的方言版本

Wikipedia创始人访谈

Wikipedia pageview数据获取(bigquery)

Flink实战：消费Wikipedia实时消息

10分钟拥有自己的Wikipedia

【社交图挖掘】wikipedia数据批量导入neo4j

在Megatron-Deepspeed项目中如何下载和预处理Wikipedia数据集

Docker中容器的随机命名方式

50 个杀手级人工智能项目

50个“杀手级”AI项目 !（附链接）

使用 JavaScript 工具在网站上实施搜索

快速学习-Druid的入门

快速学习-Druid数据摄入

Druid 0.17 入门（3）—— 数据接入指南

新参考基因组：牛（bosTau5）

一套用了 70 年的计算机架构 —— 冯·诺依曼架构

因用户阻塞导致Python脚本在网站上运行失败的解决方法

Druid 0.17入门（4）—— 数据查询方式大全

自然语言处理(NLP)入门指南

【独家】自然语言处理(NLP)入门指南

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐