搜书网
发现
标签
注册
登录
搜书网
发现
榜单
标签
搜索
注册
登录
搜索
搜书网
本次搜索耗时
0.030
秒,为您找到
346
个相关结果.
书籍
文章
文件
作者访谈
52
2024-12-28
《七周七数据库》
作者访谈 作者访谈 Q:你们怎么选择这七种数据库的? Eric:我们确实有一些选择标准,但没有明确列出来。这些数据库必须是开源的,因为我们不想介绍让读者绑定某公司的数据库。对于5种数据库类型(关系型、键-值对型、列型、文档型、图型),每种至少需要一个实现。然后我们选择一些数据库,它们能够用实例展示我们想介绍的一些一般概念,如CAP原理或MapRe...
第 14 章 自动化和规模化
58
2025-02-12
《Python 高手进阶之路(套装全10册)》
第 14 章 自动化和规模化 14.1 为什么要自动化 14.2 自动化步骤 14.3 什么会出错 14.4 在哪里自动化 14.5 自动化的特殊工具 14.5.1 使用本地文件、参数及配置文件 14.5.2 在数据处理中使用云 14.5.3 使用并行处理 14.5.4 使用分布式处理 14.6 简单的自动化 14.6.1 CronJobs...
7.1.3 Bigbench、BigDataBenchmark与TPC-DS
47
2024-12-25
《Spark大数据处理:技术、应用与性能优化》
7.1.3 Bigbench、BigDataBenchmark与TPC-DS 7.1.3 Bigbench、BigDataBenchmark与TPC-DS 1.Bigbench BigBench[1] 是由Teradata、多伦多大学、InfoSizing、Oracle开发的一款大数据Benchmark。其设计思想和复用扩展的方式很具有研究价值,如...
13.6.3 简单分布式系统下基于产品的推荐系统简介
22
2024-12-19
《Hadoop实战(第2版)》
13.6.3 简单分布式系统下基于产品的推荐系统简介 13.6.3 简单分布式系统下基于产品的推荐系统简介 传统的推荐引擎算法多在单机上实现,它们只能处理一定量的数据。如果数据量达到一定的规模,传统的推荐引擎算法就会出现各种问题。 在传统的推荐算法中,算法会将用户喜欢的产品抽象成三个具体的数值:用户编号、产品编号和喜爱值。这里的喜爱值表示用户对产品...
7.3.2 状态发送
59
2024-12-19
《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 (大数据技术丛书)》
7.3.2 状态发送 !/bin/bash 7.3.2 状态发送 TaskTracker通过心跳向JobTracker汇报的是当前节点运行时信息,包括TaskTracker基本信息、节点资源使用情况和各个任务状态等,这些信息被封装到可序列化类TaskTrackerStatus中。每次发送心跳时,TaskTracker会根据最新信息重新构造一个Tas...
大数据先行者
35
2025-01-31
《大数据在中国》
大数据先行者 中国正处于大数据的起步阶段,国外先行者的经验对我们具有十分重要的参考和借鉴价值。全世界的富有远见者早在多年前就已经开始了你追我赶,在自己大数据中心的建设上各显神通,力争在这场战争中取得先发优势。 ☆英特尔(Intel) 英特尔公司是全球最大的半导体芯片制造商,成立于1968年,具有几十年产品创新和市场领导的历史。全球第一个微处理器就由它...
12.5.4 云平台架构
57
2024-12-25
《大规模分布式存储系统:原理解析与架构实战》
12.5.4 云平台架构 12.5.4 云平台架构 从托管Web应用程序的角度看,云平台主要包括云存储以及应用运行平台,如图12-7所示。 图 12-7 云平台整体架构 云平台的核心组件包括:云存储组件和应用运行平台组件。下面简单介绍一下。 (1)云存储组件 云存储组件包括两层:分布式存储层以及存储访问层。分布式存储层管理存储服务...
3.3 数据分布
41
2024-12-25
《大规模分布式存储系统:原理解析与架构实战》
3.3 数据分布 3.3.1 哈希分布 3.3 数据分布 分布式系统区别于传统单机系统在于能够将数据分布到多个节点,并在多个节点之间实现负载均衡。数据分布的方式主要有两种,一种是哈希分布,如一致性哈希,代表系统为Amazon的Dynamo系统;另外一种方法是顺序分布,即每张表格上的数据按照主键整体有序,代表系统为Google的Bigtable系统。...
9.3.2 作业级别参数调优
31
2024-12-19
《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 (大数据技术丛书)》
9.3.2 作业级别参数调优 9.3.2 作业级别参数调优 1.规划合理的任务数目 一个作业的任务数目对作业运行时间有重要的影响。如果一个作业的任务数目过多(这意味着每个任务处理数据很少,执行时间很短),则任务启动时间所占比例将会大大增加;反之,如果一个作业的任务数目过少(这意味着每个任务处理数据很多,执行时间很长),则可能会产生过多的溢写数据影响...
8.2.5 Spark Streaming实例
40
2024-12-25
《Spark大数据处理:技术、应用与性能优化》
8.2.5 Spark Streaming实例 8.2.5 Spark Streaming实例 在互联网应用中,流数据处理是一种常用的应用模式,需要在不同粒度上对不同数据进行统计,保证实时性的同时,又需要涉及聚合(aggregation)、去重(distinct)、连接(join)等较为复杂的统计需求[1] 。如果使用MapReduce框架,虽然可以...
1..
«
30
31
32
33
»
..35