怎么搭建hadoop平台

这篇文章主要为大家展示了“怎么搭建hadoop平台”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“怎么搭建hadoop平台”这篇文章吧。

创新互联专注为客户提供全方位的互联网综合服务,包含不限于成都网站制作、网站设计、外贸网站建设、西双版纳网络推广、微信小程序、西双版纳网络营销、西双版纳企业策划、西双版纳品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等,从售前售中售后,我们都将竭诚为您服务,您的肯定,是我们最大的嘉奖;创新互联为所有大学生创业者提供西双版纳建站搭建服务,24小时服务热线:18980820575,官方网址:www.cdcxhl.com

一、虚拟机及系统安装

1. 下载vmware,并成功安装;

2. 在vmware中安装CentOS系统;

二、在虚拟机中配置JAVA环境

1.安装java虚拟机(jdk-6u31-linux-i586.bin);

2.配置环境变量

(1) vi /etc/profile (编辑文件)

(2) 添加

(3) source /etc/profile (注入环境变量)

注:使用ROOT和户

三、修改hosts

vim /etc/hosts 修改为: 127.0.0.1 qiangjin

注:使用ROOT和户

四、修改hostname vim /etc/sysconfig/network

修改为: NETWORKING=yes HOSTNAME=qiangjin

临时修改hostname,使用

hostname qiangjin 查看当前hostname,使用

hostname 注:使用ROOT和户

五、配置ssh

1. 在当前用户主目录下执行

(1)ssh-keygen

(2)cat .ssh/id_rsa.pub 》》 .ssh/authorized_keys

(3)chmod 700 .ssh

(4)chmod 600 .ssh/authorized_keys

(5)ssh qiangjin 成功

六、压缩包解压

1. 解压hadoop-0.20.2-cdh4u3.tar.gz;

2. 解压hbase-0.90.4-cdh4u3.tar.gz;

3. 解压hive-0.7.1-cdh4u3.tar.gz;

4. 解压zookeeper-3.3.4-cdh4u3.tar.gz;

5. 解压sqoop-1.3.0-cdh4u3.tar.gz;

6. 解压mahout-0.5-cdh4u3.tar.gz;(数据挖掘算法专用)

注:tar –xvf xxxx.tar.gz

七、修改hadoop配置文件

(1)进入到cdh4/hadoop-0.20.2-cdh4u3/conf

(2)修改

core-site.xml

注:fs.default.name配置中用到了自己配的hostname;

(3)修改hdfs-site.xml

注:单机时,一般将dfs.replicaTIon设置为1

(4)修改

mapred-site.xml

注:mapred.job.tracker中用到了自己配的hostname;

(5)修改

Masters

(6)修改

slaves

(7)修改

hadoop-env.sh

需要添加环境变量

八、修改HBase配置

(1)进入cdh4/hbase-0.90.4-cdh4u3/conf

(2)修改hbase-site.xml

(3)修改

Regionserver

(4)修改

hbase-env.sh

需要添加环境变量

九、修改hive配置

(1)进入cdh4/hive-0.7.1-cdh4u3/conf

(2)添加hive-site.xml,并配置

注:需要注意hbase.zookeeper.quorum、mapred.job.tracker、hive.exec.scratchdir、javax.jdo.opTIon.ConnecTIonURL、

javax.jdo.opTIon.ConnectionUserName、javax.jdo.option.ConnectionPassword处配置 需要添加环境变量

十、修改sqoop配置

需要添加环境变量

十一、修改zookeeper配置

(1)进入cdh4/zookeeper-3.3.4-cdh4u3

(2)新建目录zookeeper-data

(3)进入zookeeper-data,并新建myid,里面填0

(4)进入cdh4/zookeeper-3.3.4-cdh4u3/conf

(5)修改

zoo.cfg

注:dataDir和server.0的配置;

需要添加环境变量

十二、修改mahout配置 需要添加环境变量

十三、数据库JAR包

(1)将MySQL-connector-java-5.1.6.jar放入到cdh4/hive-0.7.1-cdh4u3/lib

(2)将ojdbc14.jar放入到cdh4/sqoop-1.3.0-cdh4u3/lib

十四、hadoop首次format及启动,停止

1.hadoop的format hadoop namenode -format

2.hadoop的启动 start-all.sh

3.hadoop的停止 stop-all.sh

注:使用jps或ps查看hadoop是否启动,启动时如果有问题,会在屏幕上显示出来的。 可以输入网址: http://qiangjin:50070 查看hadoop的运行情况

十五、启动hbase

(1)启动

hbase,命令如下: start-hbase.sh (2)停止

hbase,命令如下: stop-hbase.sh (3)进入hbase的

shell,命令如下 hbase shell

(4)查看hbase中的表,命令如下(需进入到hbase shell中) list

(5)注:需要hadoop处于启动中。

注:需要hadoop处于启动中。 可以输入网址: http://qiangjin:60010

查看hbase的运行情况 十六、启动zookeeper

(1)启动zookeeper,命令如下 zkServer.sh start

(2)停止zookeeper,命令如下 zkServer.sh stop

注:如果是单机情况下,hbase的启动会带动zookeeper的启动;

十七、启动hive

(1)启动hive,命令如下 hive

(2)查看表,命令如下:(必须在hive命令窗口下执行) show tables;

十八、运行wordcount实例

(1)新建file01和file02,并设置内容;

(2)在hdfs中建立一个input目录: Hadoop fs –mkdir input

(3)将file01和file02

拷贝到hdfs中 hadoop fs -copyFromLocal file0* input

(4)执行wordcount hadoop jar hadoop-examples-0.20.2-cdh4u3.jar wordcount input output

(5)查看结果 hadoop fs -cat output/part -r -00000

十九、将oracle数据导入hive

(1)进入cdh4/sqoop-1.3.0-cdh4u3/bin

(2)新建目录importdata

(3)进入目录importdata

(4)新建sh文件

oracle-test.sh

(5)执行。/ oracle- test.sh

(6)进入hive,查看是否导入成功;

注:hive导入使用的参数 。./sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --m 1 --table $oracleTableName --columns $columns --hive-import

二十、将oracle数据导入hbase

(1)进入cdh4/sqoop-1.3.0-cdh4u3/bin

(2)新建目录importdata

(3)进入目录importdata

(4)新建sh文件

oracle-hbase.sh

(5)执行。/ oracle-hbase.sh

(6)进入hbase shell,查看是否导入成功;

注:hbase导入使用的参数 。./sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --m 1 --table $oracleTableName --columns $columns -hbase-create-table --hbase-table $hbaseTableName --hbase-row-key ID --column-family cf1

二十一、配置hbase到hive的映射

(1)进入cdh4/hive-0.7.1-cdh4u3/bin

(2)新建目录mapdata

(3)进入mapdata

(4)新建

hbasemaphivetest.q

(5)执行

hive -f hbasemaphivetest.q

注:列之间要对应,类型要匹配;

二十二、mahout运行

1、运行example

(1)导入实例所用数据“synthetic_control.data”,在控制台运行 hadoop fs -put synthetic_control.data /user/liuhx/testdata/

(2)运行实例程序,在控制台运行,运行时间比较长,需要迭代10次

Hadoop jar mahout-examples-0.5-cdh4u3-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

2、运行结果查看,输入命令

mahout vectordump --seqFile /user/liuhx/output/data/part-m-00000

3、图形化显示,输入以下命令

hadoop jar mahout-examples-0.5-cdh4u3-job.jar org.apache.mahout.clustering.display.DisplayKMeans

二十三、Eclipse配置

1、安装Eclipse

2、导入cdh4/hadoop-0.20.2-cdh4u3/src/contrib/eclipse-plugin工程

3、修改plugin.xml 主要更改runtime中jar包的配置;

4、运行Run As-》Eclipse Application

5、在运行得到的eclipse sdk中配置map/reduce location 在其中配置hadoop的运行环境

以上是“怎么搭建hadoop平台”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注创新互联行业资讯频道!


网页标题:怎么搭建hadoop平台
转载源于:http://ybzwz.com/article/jpgpje.html