hadoop單機安裝 · 大數據

[TOC] # 下載官網下載鏈接：http://mirror.bit.edu.cn/apache/hadoop/common/ # 修改配置文件修改`/etc/hosts ` 增加本機ip和用戶名的映射 1. hadoop-env.sh ~~~ export JAVA_HOME=/usr/lib/jvm/jre-1.8.0-openjdk.x86_64 ~~~ 2. workers ~~~ localhost ~~~ 3. mapred-site.xml ~~~  <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> ~~~ 4. core-site.xml ~~~  <property> <name>fs.default.name</name>  <value>hdfs://localhost:8020</value> </property> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/usr/local/etc/hadoopdata/dfs/name</value> </property> <property> <name>dfs.namenode.data.dir</name> <value>/usr/local/etc/hadoopdata/dfs/data</value> </property> ~~~ 5. yarn-site.yml ~~~ <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> ~~~ 6. hdfs-site.xml ~~~ <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/usr/local/etc/hadoopdata/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/usr/local/etc/hadoopdata/data</value> </property>  <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> ~~~ # 格式化hdfs ~~~ hadoop namenode -format ~~~ # httpFS配置 httpfs是什么？ ~~~ 參考：http://debugo.com/hdfs-httpfs/ 官網：http://hadoop.apache.org/docs/r2.5.2/hadoop-hdfs-httpfs/ServerSetup.html http://hadoop.apache.org/docs/r2.5.2/hadoop-hdfs-httpfs/index.html ~~~ httpfs是通過http協議來訪問hdfs，自帶tomcat容器，在hadoop的 share/hadoop/httpfs/tomcat目錄下。 HttpFS是提供REST HTTP接口的服務器，可以支持全部HDFS文件系統操作（讀和寫），它通過webhdfs REST HTTP API來進行交互。這個功能由cloudera提供給Apache主分支。 HttpFS可以用于在不同的Hadoop版本間傳輸數據（避免了RPC版本問題），例如使用Hadoop DistCP。 HTTP可以用于訪問防火墻內的HDFS集群數據（HttpFS可以作為一個網關角色，是唯一可以穿過防火墻訪問內部集群數據的系統）。 HttpFS可以通過HTTP工具（比如curl和wget）和各種編程語言的HTTP包（不局限Java）來訪問數據。 webhdfs 客戶端文件系統實現可以使用HDFS文件系統命令行命令（如hadoop dfs）以及使用HDFS Java API來訪問HttpFS。 HttpFS內置安全特性支持Hadoop偽身份驗證和HTTP SPNEGO Kerberos 和其他插件式（pluggable ）驗證機制。它還提供了Hadoop代理用戶的支持 httpfs相關的配置文件： ~~~ etc/hadoop/httpfs-env.sh etc/hadoop/httpfs-log4j.properties etc/hadoop/httpfs-site.xml libexec/httpfs-config.sh sbin/httpfs.sh ~~~ ~~~ httpfs-signature.secret 將文件內容刪除,置為空。 httpfs-site.xml 不需修改； hadoop-env.sh 設置hadoop環境變量； httpfs-config.sh 可設置httpfs進程的pid文件的地址 if [ "${CATALINA_PID}" = "" ]; then export CATALINA_PID=/tmp/httpfs.pid print "Setting CATALINA_PID: ${CATALINA_PID}" else print "Using CATALINA_PID: ${CATALINA_PID}" fi httpfs-env.sh 設置java_home 變量 export HTTPFS_LOG=/home/yoyo//yoyo_hdfs_httpfs/logs 日志路徑； export HTTPFS_TEMP=/home/yoyo/yoyo_hdfs_httpfs/temp tmp文件路徑 export HTTPFS_HTTP_PORT=14000 端口號 ~~~ core-site.xml，添加如下 ~~~ <property> <name>hadoop.proxyuser.jdxia.hosts</name> <value>*</value> <description>第二個hadoop是啟動httpfs的用戶名</description> </property> <property> <name>hadoop.proxyuser.staff.groups</name> <value>*</value> <description>第二個hadoop是啟動httpfs的用戶組名</description> </property> ~~~ 注意：`hadoop.proxyuser.{hadoop}.hosts`第二個是啟動httpfs的用戶名如果是需要配置用戶代理，需要在httpfs-site.xml中添加。到此配置完畢，啟動httpfs，進入hadoop sbin下，運行 ~~~ httpfs.sh start ~~~ 啟動成功后jps會多一個Bootstrap 進程。驗證 `http://localhost:14000/webhdfs/v1?op=LISTSTATUS&user.name=jdxia 啟動httpfs,在web瀏覽器訪問查看頁面是否有數據.` 上傳數據： `curl -i -X PUT -T ./httpfs-localhost.2017-10-26.log "http://localhost:14000/webhdfs/v1/text.txt?op=CREATE&data=true&user.name=jdxia" -H "Content-Type:application/octet-stream"` 查看數據： `curl -i -X GET "http://localhost:14000/webhdfs/v1/text.txt?op=OPEN&user.name=jdxia"`