搜书网 本次搜索耗时 0.018 秒,为您找到 346 个相关结果.
  • 13.2 Mahout的安装和配置

    13.2 Mahout的安装和配置 Config Mahout 13.2 Mahout的安装和配置 Mahout是一个开源软件,因此它有两种安装方式:一种是下载已经编译好的二进制文件进行安装(快速安装);一种是先下载源代码,然后再对源代码进行编译,最后再安装(编译安装)。下面我们分别对其进行介绍。 1.快速安装 下面为该方式的具体安装步骤: ...
  • 大数据是电子商务的未来

    大数据是电子商务的未来 鼠标战胜的不仅仅是20位书评家,今天,大数据已经成为流淌在电子商务里的血液。 计算机对于消费者信息的捕捉,远远胜过传统的问卷调查方法。当你在网上购买图书、相机或者是挑选衣服,广告推送、链接、比价系统、评分等一系列信息,已经是再平常不过的营销手段。通过鼠标和键盘,电子商务公司们运用大数据悬丝诊脉,揣测另一端顾客的购物欲。 不少细...
  • 大数据,变革思维

    大数据,变革思维 人们不再认为数据是静止和陈旧的。但在以前,一旦完成了收集数据的目的之后,数据就会被认为已经没有用处了。比方说,在飞机降落之后,票价数据就没有用了(对谷歌而言,则是一个检索命令完成之后)。 [1] 大数据洞察 如今,数据已经成为了一种商业资本,一项重要的经济投入,可以创造新的经济利益。事实上,一旦思维转变过来,数据就能被巧妙地用来激...
  • 9.2.5 其他优化方法

    9.2.5 其他优化方法 9.2.5 其他优化方法 除了之前介绍的性能调优方法,还有一些其他方法可供使用。 1.批处理 有些程序可能会调用外部资源,如数据库连接等,这些连接通过JDBC或者ODBC与外部数据源进行交互。用户可能会在编写程序时忽略掉一个问题。例如,将所有数据写入数据库,如果是一条一条地写: rdd . map { line =>...
  • 8.1.3 Shark简介

    8.1.3 Shark简介 8.1.3 Shark简介 下面介绍Shark的架构,如图8-5所示。在整体架构中,Shark复用了Hive Metastore、Hive SerDe,以及查询解析器和优化器,但是用Spark重写了Hive的执行Operator,并实现了基于内存的优化策略。最初Shark为了学术使命,复用Hive的查询优化器,虽然缩短了开...
  • 4.1.2 关键问题

    4.1.2 关键问题 4.1.2 关键问题 1.租约机制 GFS数据追加以记录为单位,每个记录的大小为几十KB到几MB不等,如果每次记录追加都需要请求Master,那么Master显然会成为系统的性能瓶颈,因此,GFS系统中通过租约(lease)机制将chunk写操作授权给ChunkServer。拥有租约授权的ChunkServe称为主ChunkS...
  • 12.8 Java API

    12.8 Java API 12.8 Java API 通过前面的内容读者已经了解到,HBase作为云环境中的数据库,与传统数据库相比拥有不同的特点。当前HBase的Java API已经比较完善了,从其涉及的内容来讲,大体包括:HBase自身的配置管理部分、Avro部分、HBase客户端部分、MapReduce部分、Rest部分、Thrift部分,Z...
  • 7.5 作业目录管理

    7.5 作业目录管理 7.5 作业目录管理 在MapReduce计算过程中,Map Task要将大量中间数据写入本地磁盘,而这些数据不存在备份,一旦丢失后,就必须重新计算。为了尽量提高这部分数据的可靠性和并发写性能,Hadoop允许TaskTracker配置多个挂在不同磁盘的目录作为中间结果存放目录。对于任意一个作业,Hadoop会在每个磁盘中创建相...
  • 10.2.5 Ganglia

    10.2.5 Ganglia 配置虚拟主机 10.2.5 Ganglia Ganglia是UC Berkeley发起的一个开源集群监视项目,用于测量数以千计的节点集群。Ganglia的核心包含两个Daemon(分别是客户端Ganglia Monitoring Daemon(gmond)和服务端Ganglia Meta Daemon(gmetad),...
  • 8.2.2 排序

    8.2.2 排序 8.2.2 排序 排序是MapReduce框架中最重要的操作之一。Map Task和Reduce Task均会对数据(按照key)进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。 对于Map Task,它会将处理的结果暂时放到一个缓冲区中,当缓冲区使用率达到一定阈值后,再对缓冲区中...