我对Bigdata和Haddop技术非常陌生。在理解架构的过程中,我遇到了一些下面的问题。请帮助我理解这一点。
1)谁是客户端和HDFS架构?
2)如果我的文件是128MB,那么理想情况下它应该分成2个块,每个64mb。但我的问题是,这种文件切分/分割将在哪里发生。是在客户端吗?如果是这样,它将如何发生?因为我正在尝试理解当我向hdfs发送128MB文件时,拆分将如何发生。关于这一点,请帮我一下。
3)谁是BigData的编写者。
4) BigData的缺点是什么?
先谢谢你,湿婆
发布于 2017-05-31 19:46:34
1)“客户”是指项目所有者,毕竟bigdata是为客户的业务改进而评估的。“Hadoop架构”表示形成核心的一套规则和标准,其中每个人都需要在零级别构建四个支柱1不能在下一个级别构建六个支柱( obey.Example:After )。
2)默认块大小为64,后跟128,256。可以在xml文件中明确提到块大小。一般来说,分区用于在执行读/写Operation.So时减少网络开销,我们不能期望在单个shot.Here中发送1TB的数据,架构发挥了作用,我们不必担心完全理解Hadoop架构如何以及为什么要处理它。正如我们所知道的java中的抽象,“我们不需要知道实现是如何完成的完整细节”。
3)到目前为止,Bigdata还没有竞争对手,bigdata本身被用来了解业务缺陷和改进business.Example:Amazon使用Bigdata来了解用户的选择和偏好,Twitter,Facebook,Linkedin,Netflix都是使用bigdata的社交网站。
4)如上所述,Bigdata没有缺点。更具体地说,Hadoop架构存在一些缺点,即Hadoop使用硬盘进行读写操作,延迟较高。
发布于 2016-07-16 04:38:22
HDFS 1)谁是客户端和体系结构?
我不明白你想知道的关于HDFS客户端的事情。如果我理解正确的话,客户端可以是一些可视化工具/报告工具(例如:Tableau)或任何其他目标,如Oracle/Hana。这取决于您希望如何使用HDFS数据。没有特定的客户端。
2)如果我的文件是128MB,那么理想情况下它应该分成2个块,每个64mb。但我的问题是,这种文件切分/分割将在哪里发生。是在客户端吗?如果是这样,它将如何发生?因为我正在尝试理解当我向hdfs发送128MB文件时,拆分将如何发生。关于同样的问题,请帮助我。
首先,您必须了解块大小和拆分大小之间的区别。理想情况下两者都是不同的。块是数据的物理表示。拆分是数据块中存在的数据的逻辑表示。当作业启动时,将创建输入拆分。基于输入拆分,将创建recrd阅读器。记录读取器的职责是从i/p拆分中获取参考,并创建实际的KV对。所有这些都将由InputFormat创建。I/p拆分将有助于获得完整的记录。
当用户提交请求时,客户端库将接受该请求,客户端库本身将创建i/p拆分和其他类,并将完整的详细信息提供给资源管理器。
更改复制因子打开hdfs-site.xml文件。此文件通常位于Hadoop安装目录的conf/文件夹中。将以下属性更改或添加到hdfs-site.xml:
<property>
<name>dfs.replication<name>
<value>3<value>
<description>Block Replication<description>
<property>Hadoop分布式文件系统旨在保存和管理大量数据;因此,典型的HDFS块大小明显大于您在传统文件系统中看到的块大小(例如,我笔记本电脑上的文件系统使用4KB的块大小)。HDFS使用数据块大小设置将文件划分为数据块,然后在群集中分布这些数据块。例如,如果群集使用的数据块大小为64 MB,并且将一个128 MB的文本文件放入HDFS,则HDFS会将该文件拆分为两个数据块(128 MB/64 MB),并将这两个数据块分发到群集中的数据节点。
更改块大小。打开hdfs-site.xml文件。此文件通常位于Hadoop安装directory.Set的conf/文件夹中,hdfs-site.xml中具有以下属性:
<property>
<name>dfs.block.size<name>
<value>134217728<value>
<description>Block size<description>
<property>hdfs-site.xml用于配置HDFS。更改hdfs-site.xml中的dfs.block.size属性将更改放入HDFS中的所有文件的默认块大小。在本例中,我们将dfs.block.size设置为128MB。更改此设置不会影响HDFS中当前任何文件的数据块大小。只有在此设置生效后,它才会影响放入HDFS的文件的块大小。
3)谁是BigData的编译器。 hadoop是由Apache project foundation维护的开源项目。企业级hadoop的主要竞争对手是hortonworks、Clouders、MapR
4) BigData的缺点是什么。不适合许多小文件。不适合实时数据处理。潜在的稳定性问题安全
https://stackoverflow.com/questions/28622616
复制相似问题