搜书网 本次搜索耗时 0.725 秒,为您找到 346 个相关结果.
  • 10.2.3 Metrics

    10.2.3 Metrics 10.2.3 Metrics 事实上,除了Hadoop自带的日志功能以外,还有很多其他可以扩展的Hadoop监控程序供管理员使用。在介绍这些监控工具之前,先对系统的可度量信息(Metrics)进行简单讲解。 HDFS及MapReduce的守护进程会按照一定的规则来收集系统的度量信息。我们将这种度量规则称为Metrics...
  • 7.6 启动新任务

    7.6 启动新任务 7.6.1 任务启动过程分析 include<string> include<iostream> 7.6 启动新任务 TaskTracker最重要的任务之一是启动JobTracker分配的新任务并周期性汇报它们的运行状态。一个任务的启动过程如图7-10所示,大致经历两个步骤:作业本地化和启动任务(包括任务本地化和运行任务)。...
  • 1.6 Hadoop数据管理

    1.6 Hadoop数据管理 1.6.1 HDFS的数据管理 1.6 Hadoop数据管理 前面重点介绍了Hadoop及其体系结构与计算模型MapReduce,现在开始介绍Hadoop的数据管理,主要包括Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive。 1.6.1 HDFS的数据管理 HDFS是分布式计算的...
  • 8.3.2 Collect过程分析

    8.3.2 Collect过程分析 8.3.2 Collect过程分析 待map()函数处理完一对key/value,并产生新的key/value后,会调用OutputCollector.collect()函数输出结果。本小节重点剖析该函数内部实现机制。 跟踪进入Map Task的入口函数run(),可发现,如果用户选用旧API,则会调用runOl...
  • 10.6 你是否为建立分析创新中心做好了准备

    20 2025-01-31 《驾驭大数据》
    10.6 你是否为建立分析创新中心做好了准备 10.6 你是否为建立分析创新中心做好了准备 对大数据和高级分析都能有所帮助的一般性概念是建立一个分析创新中心。分析创新中心能推动对新想法的快速探索,能缩短想法的构思与想法的正式执行、实现之间的延迟。分析创新中心拥有监督机制和想法筛选流程。这不是一种一切都很混乱的无序状态。与常见的企业官僚主义做法相比,决...
  • 7.4.2 Mesos和Yarn简介

    7.4.2 Mesos和Yarn简介 1.Mesos介绍 2.Yarn介绍 7.4.2 Mesos和Yarn简介 1.Mesos介绍 我们在第2章谈到Spark的时候提及过Mesos,Mesos最初是加州伯克利大学的一个研究项目,后来加入到Apache孵化器成为开源产品。Mesos的目标是提供一个分布式应用的资源隔离框架,能在它上面运行Had...
  • 1.3 Spark架构

    1.3 Spark架构 1.3 Spark架构 从上文介绍可以看出,Spark是整个BDAS的核心。生态系统中的各个组件通过Spark来实现对分布式并行任务处理的程序支持。 1.Spark的代码结构 图1-3展示了Spark-1.0的代码结构和代码量(不包含Test和Sample代码),读者可以通过代码架构对Spark的整体组件有一个初步了解,正...
  • 4.6 Shuffle机制

    4.6 Shuffle机制 4.6 Shuffle机制 Shuffle的本义是洗牌、混洗,即把一组有一定规则的数据打散重新组合转换成一组无规则随机数据分区。Spark中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据,Spark中的Shuffle和MapReduce中的Shuffle思想相同,在实现细节和优化方式...
  • 前言

    72 2024-12-28 《七周七数据库》
    前言 前言 如果说数据是新的石油,那么数据库就是油田、炼油厂、钻井和油泵。数据存放在数据库中,如果你有兴趣利用它,那么掌握相应的现代化的工具就是好的开始。 数据库是工具,它们是到达终点的手段。每种数据库都有自己保存数据和看待世界的方式。你对它们的理解越多,就越能随心所欲,在日益增长的大数据上,就能更好地利用它们潜在的能力。 为什么是7种数据库 ...
  • 19.2 Hadoop在eBay的应用

    19.2 Hadoop在eBay的应用 19.2 Hadoop在eBay的应用 eBay是全球知名的个人和企业销售商品和提供服务的在线交易平台,是互联网上最受欢迎的购物网站之一。在eBay上存储着上亿种商品的信息,而且每天有数百万种的新商品增加,因此需要用云系统来存储和处理PB级别的数据,而Hadoop是个很好的选择。 Hadoop是建立在商业硬件...