- Hadoop大数据
- Hadoop大数据教程:Pipes接口怎么实现
Hadoop大数据教程:Pipes接口怎么实现,Hadoop管道与流不同,流使用标准输入和输出让用户的Map和Reduce节点之间相互交流。而管道使用socket作为tasktracker与用户MapReduce进程之间的通道。
- Hadoop大数据教程:Streaming接口怎么实现
Hadoop大数据教程:Streaming接口怎么实现,Hadoop Streaming可以帮助用户创建和运行一类特殊的MapReduce作业,这些作业是由一些可执行文件或脚本文件充当Mapper或Reducer。
- Hadoop基础课程:Java API怎么实现
Hadoop基础课程:Java API怎么实现,对Java程序员来讲,直接调用Hadoop的Java API来实现是最为方便的,要使用Java API至少需要实现三个重要组件:Map类、Reduce类、驱动Driver。下面将具体实现Java API的词频统计程序。
- Hadoop大数据课程:Map设计和Reduce设计
Hadoop大数据课程:Map设计和Reduce设计,要利用MapReduce编程模型去实现一个词频统计的并行程序,对于开发者来讲需要做两件事:
- Hadoop基础培训:怎么启动与停止hadoop
Hadoop基础培训:怎么启动与停止hadoop,在安装配置了Hadoop的伪分布式环境后就可以启动Hadoop了,首先需要格式化HDFS分布式文件系统,进入Hadoop的bin目录,操作命令如下:
- Hadoop大数据培训:怎么配置hadoop
Hadoop大数据培训:怎么配置hadoop,本节就开始安装并配置一个简单的Hadoop伪分布式环境。首先下载Hadoop的稳定版Hadoop-1.0.4.tar.gz,这里使用cnnic.cn镜像地址下载,使用以下命令进行操作:
- Hadoop大数据教程:基础环境配置
Hadoop大数据教程:基础环境配置,在开始使用Hadoop之前还需要有一个Hadoop的基础测试环境,这里搭建一个简单的伪分布式模式来提供一个测试环境。
- Hadoop大数据课程:MPI和MapReduce对比
Hadoop大数据课程:MPI和MapReduce对比,在当前最流行的高性能并行体系结构中比较常用的并行编程环境分为两类:消息传递和共享存储。
- Hadoop基础教程:MapReduce模型
Hadoop基础教程:MapReduce模型,MapReduce则是一种近几年出现的相对较新的并行编程技术,但是MapReduce计算模型也是建立在数学和计算机科学基础上的,实践已经证明这种并行编程模型具有简单、高效的特点
- Hadoop基础教程:HDFS数据存储与切分
Hadoop基础教程:HDFS数据存储与切分,在Hadoop中数据的存储是由HDFS负责的,HDFS是Hadoop分布式计算的存储基石,Hadoop的分布式文件系统和其他分布式文件系统有很多类似的特质。简单总结有如下的基本特征:
- Hadoop大数据培训:大数据与云计算
Hadoop大数据培训:大数据与云计算,本节将先介绍与大数据相关的内容,然后讲解Hadoop、大数据以及云计算之间的关系,使读者从大数据和云计算的角度来认识Hadoop。
- Hadoop大数据培训:什么是大数据
Hadoop大数据培训:什么是大数据,大数据一般是指这样的数据:数据量巨大,需要运用新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
- hadoop基础培训:hadoop是什么
hadoop基础培训:hadoop是什么,从这种渊源上来讲,Hadoop本质上起源于Google的集群系统,Google的数据中心使用廉价的Linux PC机组成集群,用其运行各种应用。
- Hadoop基础培训:hadoop的起缘和发展史
Hadoop入门培训:hadoop的起缘和发展史,追本溯源,Hadoop起源于Nutch,因此学习Hadoop就有必要了解一下这种渊源及Hadoop的发展简史。
- Hadoop入门教程:MapReduce作业配置与提交
Hadoop入门教程:MapReduce作业配置与提交,在MapReduce中,每个作业由两部分组成:应用程序和作业配置。
- Hadoop基础教程:Hadoop配置文件
Hadoop基础教程:Hadoop配置文件介绍,在Hadoop中,Common、HDFS和MapReduce各有对应的配置文件,用于保存对应模块中可配置的参数。这些配置文件均为XML格式且由两部分构成:系统默认配置文件和管理员自定义配置文件。
- Hadoop入门教程:MapReduce回调机制
Hadoop入门教程:MapReduce回调机制,回调机制是一种常见的设计模式。它将工作流内的某个功能按照约定的接口暴露给外部使用者,为外部使用者提供数据,或要求外部使用者提供数据。
- Hadoop高级教程:MapReduce Reporter参数
Hadoop高级教程:MapReduce Reporter参数,Reporter是一个基础参数。MapReduce对外提供的大部分组件,包括InputFormat、Mapper和Reducer等,均在其主要方法中添加了该参数。
- Hadoop入门教程:MapReduce序列化和反序列化
Hadoop入门教程:MapReduce序列化和反序列化,序列化是指将结构化对象转为字节流以便于通过网络进行传输或写入持久存储的过程。反序列化指的是将字节流转为结构化对象的过程。
- Hadoop入门教程:新旧MapReduce API比较
Hadoop入门教程:新旧MapReduce API比较,从0.20.0版本开始,Hadoop同时提供了新旧两套MapReduce API。新API在旧API基础上进行了封装,使得其在扩展性和易用性方面更好。新旧版MapReduce API的主要区别如下。
- Hadoop入门教程:MapReduce编程接口体系结构
Hadoop入门教程:MapReduce编程接口体系结构,MapReduce编程模型对外提供的编程接口体系结构如图所示,整个编程模型位于应用程序层和MapReduce执行器之间,可以分为两层。
- Hadoop入门教程:MapReduce架构设计
Hadoop入门教程:MapReduce架构设计,和HDFS一样,MapReduce也是采用Master/Slave的架构,其架构图如下:
- Hadoop入门教程:MapReduce作业的生命周期
Hadoop入门教程:MapReduce作业的生命周期,本节主要讲解Hadoop MapReduce作业的生命周期,即作业从提交到运行结束经历的整个过程。
- Hadoop入门教程:HDFS架构分析
Hadoop入门教程:HDFS架构分析,HDFS是一个具有高度容错性的分布式文件系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
- Hadoop入门教程:YARN状态怎么转换
Hadoop入门教程:YARN状态怎么转换,YARN状态机由一组状态组成,这些状态分为三类:初始状态、中间状态和最终状态。状态机从初始状态开始运行,经过一系列中间状态后,到达最终状态并退出。
- Hadoop入门教程:YARN事件处理
Hadoop入门教程:YARN事件处理,YARN采用了基于事件驱动的并发模型,该模型能够大大增强并发性,从而提高系统整体性能。为了构建该模型,YARN将各种处理逻辑抽象成事件和对应事件调度器,并将每类事件的处理过程分割成多个步骤,用有限状态机表示。
- Hadoop入门教程:YARN服务管理
Hadoop入门教程:YARN服务管理,对于生命周期较长的对象,YARN采用了基于服务的对象管理模型对其进行管理,该模型主要有以下几个特点。
- Hadoop入门教程:YARN RPC怎么实现
Hadoop入门教程:YARN RPC怎么实现,YARN提供的对外类是YarnRPC,用户只需使用该类便可以构建一个基于Hadoop RPC且采用Protocol Buffers序列化框架的通信协议。
- Hadoop入门教程:RPC配置参数调优
Hadoop入门教程:RPC配置参数调优,Hadoop RPC对外提供了一些可配置参数,以便于用户根据业务需求和硬件环境对其进行调优。
- Hadoop入门教程:ipc.Server类介绍
Hadoop入门教程:ipc.Server类介绍,Hadoop RPC主要由三个大类组成,ipc.RPC是其中一个,对应服务器实现