搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

Nuodb和HDFS作为存储

使用HDFS for Nuodb作为存储。这会对性能产生影响吗？在HDFS块大小概念的基础上，保持较小的文件大小，这会在获取数据时增加网络流量。我是不是漏掉了什么？请指出同样的问题。Nuodb将如何管理这些延迟陷阱？

浏览 3修改于2014-07-08得票数 2

回答已采纳

1回答

在Red或基础架构中集成硬盘文件系统？

我有一个由5台虚拟机组成的集群(带有KVM虚拟机管理程序)，我希望找到集成HDFS的最佳方法，以便优化数据的存储管理。由于HDFS是一个分布式文件系统，它允许客户机并行访问文件，因此我想利用这一特性。那么，是否可以在群集中安装硬盘文件系统来管理虚拟机的磁盘空间，或者将其集成到OpenShift中来管理PaaS终端用户的数据？

浏览 0提问于2013-03-30得票数 2

1回答

我需要了解如何在HDFS中管理/清理检查点。作业运行良好，我能够从失败的步骤中恢复，而不会丢失数据，但是，我可以看到HDFS利用率每天都在增加。我找不到任何关于Spark如何管理/清理检查点的文档。以前，检查点存储在s3上，但由于要读/写大量的小文件，这被证明是非常昂贵的。kafka.bootstrap.servers", bootstrap_servers) \ .option("checkpointLo

浏览 34修改于2019-01-07得票数 2

回答已采纳

1回答

如何在nfs文件系统中存储apache检查点

现在，当任务管理器重新启动时，我需要将状态和检查点存储在文件系统中，所有演示都应该使用“HDFS ://namenode:4000/.”，但是现在我没有HDFS集群，我的Apache Flink运行在kubernetes集群中，如何在文件系统中存储我的检查点？这些源的例子是持久消息队列(例如Apache、RabbitMQ、Amazon、Google PubSub)或文件系统(例如HDFS、S3、GFS、NFS、Ceph、…)。。状态的持久存储</em

浏览 5修改于2020-04-09得票数 0

回答已采纳

1回答

我们是否将一台机器称为datanode和nodemanager？

HDFS有两个节点名称节点和数据节点。并且YARN有一个资源管理器和一个节点管理器。我想知道这些实体是在一台机器上。就像namenode和资源管理器在一台机器上一样。根据我的理解，客户端请求namenode提供数据存储位置的信息，这类似于请求资源的资源管理器。如果我对HDFS的理解有误，请纠正我。谢谢

浏览 123提问于2020-07-23得票数 0

2回答

Spark Structured Kafka偏移管理

我正在研究在kafka中存储kafka偏移量用于Spark结构化流媒体，就像它对DStreams stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges我知道使用.option("checkpointLocation", checkpointLocation)的hdfs检查点，但我对内置的偏移量管理很感兴趣。我期望kafka只在内部存储偏移量，而不使用spark hdfs检查点。

浏览 10修改于2021-01-22得票数 3

5回答

在外部hadoop集群中，如何通过由H/A namenodes组成的URI访问hdfs？

现在，我有了一些存储输出到HDFS的Spark应用程序。由于我们的hadoop集群是由namenode H/A组成的，而spark集群位于hadoop集群之外(我知道这很糟糕)，所以我需要为应用程序指定HDFS URI，以便它能够访问HDFS。访问动物园管理员显示活动似乎很烦人，所以我想避免。你能提出其他选择吗？

浏览 3修改于2015-06-17得票数 10

回答已采纳

2回答

我是否可以使用s3作为Amazon环境之外的Hive存储？

我有在EC2机器中管理服务的情况。这台运行Hive的机器和我计划使用s3作为我的存储单元(而不是hdfs)。有可能吗？

浏览 2提问于2015-12-03得票数 0

回答已采纳

1回答

HDFS是否可以成为datanode中的孤立文件？

在删除超过60天的日志的日常日志修剪作业中，系统管理员将专用宿主机从4.3升级到4.6，(我知道，我知道)... 通常，日志修剪作业会释放大约40%的HDFS可用存储空间。已知的是，HDFS接收到了delete命令，因为HDFS文件/文件夹已不存在，但磁盘利用率仍未改变。我的问题是，HDFS是否已经从NameNode的元数据中删除了文件，而没有实际完成DataNodes中的文件块删除，从而有效地孤立了文件块？

浏览 0提问于2013-07-17得票数 0

1回答

与其他分布式存储相比，在HDFS中使用Apache Spark

在Spark的FAQ中，它明确表示不必使用HDFS：不是，但如果您在集群上运行，您将需要某种形式的共享文件系统(例如，NFS安装在每个节点的相同路径上)。那么，如果我不打算使用Hadoop MapReduce，那么与其他分布式文件系统(如NFS)相比，将Apache与HDFS结合使用有哪些优缺点呢？如果我使用NFS而不是HDFS来存储节点(用于检查点、洗牌溢出等)，我会丢失一个重要的特性吗？

浏览 0修改于2020-06-20得票数 14

回答已采纳

2回答

如何在Hadoop中管理JSON

Hadoop 如何管理JSON文件？FOR EACH json IN hdfs: IF json HAS this_attribute: x

浏览 9修改于2021-11-16得票数 0

回答已采纳

0回答

来自另一个用户的Hive - Drop表

我在cloudera测试集群上工作，并禁用了权限管理，因此在Hive中没有ACL处理。现在我可以删除另一个用户的表了。之后，该表将不存在于Hive元存储中。问题是，hdfs中的文件还存在。因此，如果我再次创建相同的表，它将填充旧数据，因为相同的hdfs拼接文件。要完全删除包括hdfs数据在内的表，我必须进行哪些更改？最好的问候Jörn

浏览 7提问于2017-06-21得票数 1

2回答

HDFS在我的单节点实验本地设置中损坏了namenode

对于我的Hadoop实验，我在我的macbook上的localhost上设置了单节点HDFS。每次实验结束后，我都会关闭hadoop服务(./bin/stop-all.sh)。几乎每次当我重新启动我的设置( start -all.sh)时，我发现我的HDFS损坏了，我总是需要格式化我的namenode并重新启动服务才能再次访问HDFS。当我在启动后停止获取namenode管理员访问()时，我意识到了这一点。在启动过程中，我的命名节点日志显示："2012-11-29 15:27:43,160错

浏览 0提问于2012-11-30得票数 2

回答已采纳

1回答

HDFS存储检查显示不同的值

我遇到了一个奇怪的情况，我从hdfs dfs -du命令中得到了不同的结果，以及我在cloudera管理器UI中看到的结果，我读到了这两个命令之间的差异，但没有任何线索可以帮助我抓住问题并解决它。我也删除了所有的快照并禁止它们，但是存储没有改变。以下是输出：2.3 G 5.8 G .[cloudera-scm@roor-chc101 root]$ hdfs dfs -du -h -s

浏览 2修改于2017-08-17得票数 0

1回答

星火如何选择运行w.r.tHDFS的位置

在hdfs文件的情况下，如何知道实际的数据部分在哪里？工作中的工具/协议是什么？对于卡桑德拉+火花，(专用的)连接器似乎管理着这个数据局部性：

浏览 2修改于2020-06-20得票数 2

回答已采纳

1回答

Hadoop YARN中的Docker应用程序支持

我在考虑使用Hadoop YARN和HDFS来处理这些数据。其思想是将所有数据摄取到HDFS中，然后提交Hadoop作业来处理数据。YARN将在数据附近部署处理应用程序，并对其进行处理。Google Kubernetes似乎适合我的需求(在集群中部署和管理docker镜像)，但它不提供“HDFS式”存储(因此“将应用程序移动到数据而不是数据到应用程序”并不适合)。请让我知道是否有任何集群管理器框架可以在集群中部署标准应用程序包(如jar、rpm、docker容器)来访问共享/分

浏览 2提问于2015-08-25得票数 0

1回答

Apache Accumulo角色分配

1服务器: HDFS名称节点、HDFS二级名称节点、HDFS均衡器、活动监视器、Cloudera管理服务、火花网关、火花源历史服务器、Yarn职务历史服务器、Yarn资源管理器、3服务器: HDFS数据节点、Kafka Broker、Spark网关、Yarn节点管理器、动物园管理员服务器 Cloudera向导要求分配以下Accumulo角色:主、Tablet、垃圾收集器、监视器、跟踪器、网关。如果将Tablet角色分配给所有HDFS数

浏览 0修改于2017-09-22得票数 1

回答已采纳

1回答

我可以在一个配置单元外部表中创建存储桶吗？

我正在创建一个引用HDFS位置中的ORC文件的外部表。ORC文件的存储方式是按照日期对外部表进行分区(映射到HDFS上的date wise文件夹，作为分区)。然而，我想知道我是否可以在这些外部表上强制'Bucketing‘，因为底层数据/文件不是由hive’管理‘的。它们是在外部编写的，因此可以在Hive外部表中使用bucketing吗？但我不能理解hive如何将数据重新分配到存储桶中，HDFS上已经作为ORC文件写入了什么？我在下面的外部表中看到过类似的分区和分组表

浏览 17提问于2020-07-30得票数 1

回答已采纳

1回答

使用Makefile向Postgresql添加新的源代码文件

我正在为Postgresql中的存储管理器模块添加一些功能。gcc的命令是： gcc hdfs_test.c -I/HDFS_HOME/hdfs/src/c++/libhdfs -I/usr/lib/jvm/default-java/include -L/HDFS_HOME/hdfs/src/c++/libhdfs -L&

浏览 0提问于2011-12-04得票数 1

1回答

HDFS与ZooKeeper的差异？

在阅读动物园管理员的文档时，在我看来，HDFS与ZooKeeper一样依赖于几乎相同的分发/复制机制(广义速度)。我听到一个接一个的回音，但我还是不能区分清楚和严格的东西。据我所知，ZooKeeper是一个集群管理/同步工具，而 HDFS 是一个分布式文件管理系统，但在HDFS集群上是否需要ZK？

浏览 0修改于2017-09-22得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Nuodb和HDFS作为存储

在Red或基础架构中集成硬盘文件系统？

如何使用结构化流检查点管理HDFS内存

如何在nfs文件系统中存储apache检查点

我们是否将一台机器称为datanode和nodemanager？

Spark Structured Kafka偏移管理

在外部hadoop集群中，如何通过由H/A namenodes组成的URI访问hdfs？

我是否可以使用s3作为Amazon环境之外的Hive存储？

HDFS是否可以成为datanode中的孤立文件？

与其他分布式存储相比，在HDFS中使用Apache Spark

如何在Hadoop中管理JSON

来自另一个用户的Hive - Drop表

HDFS在我的单节点实验本地设置中损坏了namenode

HDFS存储检查显示不同的值

星火如何选择运行w.r.tHDFS的位置

Hadoop YARN中的Docker应用程序支持

Apache Accumulo角色分配

我可以在一个配置单元外部表中创建存储桶吗？

使用Makefile向Postgresql添加新的源代码文件

HDFS与ZooKeeper的差异？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐