搜书网 本次搜索耗时 0.050 秒,为您找到 457 个相关结果.
  • 大数据是电子商务的未来

    大数据是电子商务的未来 鼠标战胜的不仅仅是20位书评家,今天,大数据已经成为流淌在电子商务里的血液。 计算机对于消费者信息的捕捉,远远胜过传统的问卷调查方法。当你在网上购买图书、相机或者是挑选衣服,广告推送、链接、比价系统、评分等一系列信息,已经是再平常不过的营销手段。通过鼠标和键盘,电子商务公司们运用大数据悬丝诊脉,揣测另一端顾客的购物欲。 不少细...
  • 5.2.2 作业文件上传

    5.2.2 作业文件上传 5.2.2 作业文件上传 JobClient将作业提交到JobTracker端之前,需要进行一些初始化工作,包括:获取作业ID,创建HDFS目录,上传作业文件以及生成Split文件等。这些工作由函数JobClient.submitJobInternal(job)实现,具体流程如图5-3所示。在本小节中,我们将重点分析文件上传...
  • 3.5.2 ChainMapper/ChainReducer的实现原理

    3.5.2 ChainMapper/ChainReducer的实现原理 3.5.2 ChainMapper/ChainReducer的实现原理 ChainMapper/ChainReducer主要为了解决线性链式Mapper而提出的。也就是说,在Map或者Reduce阶段存在多个Mapper,这些Mapper像Linux管道一样,前一个Mapper的...
  • 7.2 资源隔离的实现

    7.2 资源隔离的实现 7.2 资源隔离的实现 我们如何让计算任务的进程能受限制的使用机器资源呢,这里不仅指占用某台机器的粗粒度使用,也指对某台机器的CPU/内存/带宽/硬盘的细粒度限制。 资源限制和资源控制看上去差不多,但是我们接下来会发现他们的区别。 资源调度有两种解决方案:限制方式和控制方式。 所谓限制方式,也就是有个虚拟的容器限制,进程...
  • 3.6 可扩展性

    3.6 可扩展性 3.6.1 总控节点 3.6 可扩展性 通过数据分布,复制以及容错等机制,能够将分布式存储系统部署到成千上万台服务器。可扩展性的实现手段很多,如通过增加副本个数或者缓存提高读取能力,将数据分片使得每个分片可以被分配到不同的工作节点以实现分布式处理,把数据复制到多个数据中心,等等。 分布式存储系统大多都带有总控节点,很多人会自然地...
  • 17.2 Chukwa架构

    17.2 Chukwa架构 17.2.1 客户端及其数据模型 17.2 Chukwa架构 Chukwa有三个主要组成部分:客户端(Agent),它运行在每一个被监控的机器上,并且传送源数据到收集器(Collector)中;收集器(Collector)和分离解析器(Demux),收集器接受从Agent传来的数据,并且不断地将其写到HDFS中,而分离解...
  • 15.2.2 配置ZooKeeper

    15.2.2 配置ZooKeeper the location of the log file set maxClientCnxns set minSessionTimeout set maxSessionTImeout 15.2.2 配置ZooKeeper ZooKeeper的功能特性是通过ZooKeeper配置文件来进行控制管理(zoo....
  • 10.2.5 Ganglia

    10.2.5 Ganglia 配置虚拟主机 10.2.5 Ganglia Ganglia是UC Berkeley发起的一个开源集群监视项目,用于测量数以千计的节点集群。Ganglia的核心包含两个Daemon(分别是客户端Ganglia Monitoring Daemon(gmond)和服务端Ganglia Meta Daemon(gmetad),...
  • 第 14 章 自动化和规模化

    第 14 章 自动化和规模化 14.1 为什么要自动化 14.2 自动化步骤 14.3 什么会出错 14.4 在哪里自动化 14.5 自动化的特殊工具 14.5.1 使用本地文件、参数及配置文件 14.5.2 在数据处理中使用云 14.5.3 使用并行处理 14.5.4 使用分布式处理 14.6 简单的自动化 14.6.1 CronJobs...
  • 9.8.2 WebHDFS命令

    9.8.2 WebHDFS命令 9.8.2 WebHDFS命令 上一小节讲了如何配置WebHDFS,这一小节我们将详细介绍WebHDFS命令的组织方式和具体的命令。 1.WebHDFS命令一般形式 在这一部分的开始就讲了WebHDFS实际上是用curl命令来发送管理的命令,所以WebHDFS的命令组织和curl命令组织类似。一般为下面的格式: ...