[搜文档]MapReduce - 搜索结果

13.2　Mahout的安装和配置

26 2024-12-19 《Hadoop实战（第2版）》

13.2　Mahout的安装和配置 Config Mahout 13.2　Mahout的安装和配置 Mahout是一个开源软件，因此它有两种安装方式：一种是下载已经编译好的二进制文件进行安装（快速安装）；一种是先下载源代码，然后再对源代码进行编译，最后再安装（编译安装）。下面我们分别对其进行介绍。 1.快速安装下面为该方式的具体安装步骤： ...

大数据是电子商务的未来

29 2025-01-29 《打造互联网思维：商战+移动的帝国+沸腾十五年+高效上网整理术+大数据时代创造大业绩》

大数据是电子商务的未来鼠标战胜的不仅仅是20位书评家，今天，大数据已经成为流淌在电子商务里的血液。计算机对于消费者信息的捕捉，远远胜过传统的问卷调查方法。当你在网上购买图书、相机或者是挑选衣服，广告推送、链接、比价系统、评分等一系列信息，已经是再平常不过的营销手段。通过鼠标和键盘，电子商务公司们运用大数据悬丝诊脉，揣测另一端顾客的购物欲。不少细...

大数据，变革思维

22 2025-01-31 《大数据时代：生活，工作与思维的大变革 (湛庐文化•财富汇)》

大数据，变革思维人们不再认为数据是静止和陈旧的。但在以前，一旦完成了收集数据的目的之后，数据就会被认为已经没有用处了。比方说，在飞机降落之后，票价数据就没有用了（对谷歌而言，则是一个检索命令完成之后）。 [1] 大数据洞察如今，数据已经成为了一种商业资本，一项重要的经济投入，可以创造新的经济利益。事实上，一旦思维转变过来，数据就能被巧妙地用来激...

9.2.5　其他优化方法

29 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

9.2.5　其他优化方法 9.2.5　其他优化方法除了之前介绍的性能调优方法，还有一些其他方法可供使用。 1.批处理有些程序可能会调用外部资源，如数据库连接等，这些连接通过JDBC或者ODBC与外部数据源进行交互。用户可能会在编写程序时忽略掉一个问题。例如，将所有数据写入数据库，如果是一条一条地写： rdd . map { line =>...

8.1.3　Shark简介

42 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

8.1.3　Shark简介 8.1.3　Shark简介下面介绍Shark的架构，如图8-5所示。在整体架构中，Shark复用了Hive Metastore、Hive SerDe，以及查询解析器和优化器，但是用Spark重写了Hive的执行Operator，并实现了基于内存的优化策略。最初Shark为了学术使命，复用Hive的查询优化器，虽然缩短了开...

4.1.2　关键问题

30 2024-12-25 《大规模分布式存储系统：原理解析与架构实战》

4.1.2　关键问题 4.1.2　关键问题 1.租约机制 GFS数据追加以记录为单位，每个记录的大小为几十KB到几MB不等，如果每次记录追加都需要请求Master，那么Master显然会成为系统的性能瓶颈，因此，GFS系统中通过租约（lease）机制将chunk写操作授权给ChunkServer。拥有租约授权的ChunkServe称为主ChunkS...

12.8　Java API

40 2024-12-19 《Hadoop实战（第2版）》

12.8　Java API 12.8　Java API 通过前面的内容读者已经了解到，HBase作为云环境中的数据库，与传统数据库相比拥有不同的特点。当前HBase的Java API已经比较完善了，从其涉及的内容来讲，大体包括：HBase自身的配置管理部分、Avro部分、HBase客户端部分、MapReduce部分、Rest部分、Thrift部分，Z...

7.5　作业目录管理

29 2024-12-19 《Hadoop技术内幕：深入解析MapReduce架构设计与实现原理 (大数据技术丛书)》

7.5　作业目录管理 7.5　作业目录管理在MapReduce计算过程中，Map Task要将大量中间数据写入本地磁盘，而这些数据不存在备份，一旦丢失后，就必须重新计算。为了尽量提高这部分数据的可靠性和并发写性能，Hadoop允许TaskTracker配置多个挂在不同磁盘的目录作为中间结果存放目录。对于任意一个作业，Hadoop会在每个磁盘中创建相...

10.2.5　Ganglia

26 2024-12-19 《Hadoop实战（第2版）》

10.2.5　Ganglia 配置虚拟主机 10.2.5　Ganglia Ganglia是UC Berkeley发起的一个开源集群监视项目，用于测量数以千计的节点集群。Ganglia的核心包含两个Daemon（分别是客户端Ganglia Monitoring Daemon（gmond）和服务端Ganglia Meta Daemon（gmetad），...

8.2.2　排序

28 2024-12-19 《Hadoop技术内幕：深入解析MapReduce架构设计与实现原理 (大数据技术丛书)》

8.2.2　排序 8.2.2　排序排序是MapReduce框架中最重要的操作之一。Map Task和Reduce Task均会对数据（按照key）进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序，而不管逻辑上是否需要。对于Map Task，它会将处理的结果暂时放到一个缓冲区中，当缓冲区使用率达到一定阈值后，再对缓冲区中...

13.2 Mahout的安装和配置

大数据是电子商务的未来

大数据，变革思维

9.2.5 其他优化方法

8.1.3 Shark简介

4.1.2 关键问题

12.8 Java API

7.5 作业目录管理

10.2.5 Ganglia

8.2.2 排序