入门最后一站: OSX 搭建 Hadoop 开发环境¶

Well, 这是入门到放弃系列的最后一篇，以后就是修行在个人了。

Here We Go !

工欲善其事，必先利其器¶

好的工具给你高杠杆，来个华丽的撑竿跳，就可日行千里。
在代码的生命周期里，划分了不同的阶段，简单来说，就是开发阶段和开发之后的阶段(每个阶段都有一套最佳实践)。
开发阶段的时候，代码只不过是个玩具。开发阶段之后，就是从玩具到工程化的蜕变。(这么多阶段形成的以Github为起点的开发生态圈，活跃着无数IT企业)
简单来说，我们需要一个集成开发环境(IDE) 和 项目工程管理工具。
俺使用的IDE 是 Eclipse, 使用 Maven 进行 安装依赖，构建，发布等流程。

照猫画虎，运行你的 Hello World¶

游泳是看不会的，编程也是如此。我们从 Hadoop 的示例程序 WordCount 程序开始吧。

在 Eclipse 创建一个 Maven 项目, 命名 learn_hadoop

新建一个 Java 文件 App.java

把示例代码一行一行抄过来(为啥要一行一行呢？当然是要让你想想，每行代码会发生什么)。

尝试运行

好吧，我当然知道它运行不成功，如果不是的话，你真是撞大运了。
就我来说，一个真正的野生程序员来说，我从官网上复制粘贴的示例代码
有 50% 概率会直接报错，一行行鲜红日志触目惊心。
有 30％则会静默的退出，不给我任何解释。
有 10% 的会弹框 “电脑缺乏 F**c*K依赖” 。
有 5% 会提示我重启试试。
还有 3% 的代码一旦运行，机器会卡死。
剩下 2% 的能运行，可是打印的全是 “Hello World” 。
Life is always tough, Let’s fuck it !  (此处安利一下 homebrew, pyfuck 等良心软件)

Debug, Don’t Panic !¶

对，我运行第一个 MapReduce wordcount 程序没有成功。

这是它的第一个错误 :

Error_01

log4j:WARN No appenders could be found for logger .
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info

还不算太糟，它给出了一点和日志有关的提示。日志不知道怎么输出，那么应该是少了什么配置。Google 之后发现 log4j 是个高级货，是Java程序员必备良品。
其实牛人写程序时打日志其实是很有讲究的，日志不仅是 BUG 的最后一颗救命稻草，也是运维监控必备，这一点在分布式系统里尤其重要。
所以俺对实习生的代码 review 都强调了日志的重要性。
于是我在项目添加了一个 log4j.properties 文件，调成 DEBUG 模式，只能期望看日志不会对着消防水管吃水。

Error_02

17/05/11 22:22:16 DEBUG learn_hadoop.App:
17/05/11 22:22:16 DEBUG security.UserGroupInformation: PrivilegedAction as:wenter (auth:SIMPLE) from:org.apache.hadoop.mapreduce.Job.connect(Job.java:1306)
17/05/11 22:23:13 INFO mapreduce.Cluster: java.util.ServiceLoader[org.apache.hadoop.mapreduce.protocol.ClientProtocolProvider]
17/05/11 22:25:12 INFO mapreduce.Cluster: org.apache.hadoop.mapred.LocalClientProtocolProvider@e041f0c
17/05/11 22:25:49 INFO mapreduce.Cluster: [org.apache.hadoop.mapred.LocalClientProtocolProvider@e041f0c]
17/05/11 22:26:05 DEBUG mapreduce.Cluster: Trying ClientProtocolProvider : org.apache.hadoop.mapred.LocalClientProtocolProvider
17/05/11 22:26:43 INFO mapreduce.Cluster:
17/05/11 22:26:45 INFO mapreduce.Cluster:
17/05/11 22:26:57 INFO mapreduce.Cluster:
17/05/11 22:27:27 DEBUG mapreduce.Cluster: Cannot pick org.apache.hadoop.mapred.LocalClientProtocolProvider as the ClientProtocolProvider - returned null protocol
17/05/11 22:28:02 DEBUG security.UserGroupInformation: PrivilegedActionException as:wenter (auth:SIMPLE) cause:java.io.IOException: Cannot initialize Cluster. Please check your configuration for mapreduce.framework.name and the correspond server addresses.
Exception in thread "main" java.io.IOException: Cannot initialize Cluster. Please check your configuration for mapreduce.framework.name and the correspond server addresses.
        at org.apache.hadoop.mapreduce.Cluster.initialize(Cluster.java:143)
        at org.apache.hadoop.mapreduce.Cluster.<init>(Cluster.java:108)
        at org.apache.hadoop.mapreduce.Cluster.<init>(Cluster.java:101)
        at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1311)
        at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1307)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:422)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1807)
        at org.apache.hadoop.mapreduce.Job.connect(Job.java:1306)
        at org.apache.hadoop.mapreduce.Job.submit(Job.java:1335)
        at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:1359)
        at learn_hadoop.App.main(App.java:78)

对于比较长的日志，我们应该高兴，要是只有一行`you fucked up` 的日志，那才束手无策。
所以，打日志真的是很重要，程序的日志体现出了程序员的水准。
这段日志打印出了调用栈信息，初始化 Hadoop 集群信息出错，而且还是 IO Exception 。
很有可能是网络连接问题。
于是乎，俺仔细检查了配置，确认集群配置信息正确。然而，并没有解决这个问题。Google 了一下，有找到类似问题。
有的文章说是缺乏 hadoop mapreduce common client 的包，然并卵。
所以说，Google 找到的答案，不能全信而不管三七二十一就去试试，浪费精力。
当然一些通用的问题，能找到不错的答案。我们还是要具体问题具体分析。
接下来，只有靠自己了。
结构清晰，设计优良的代码，DEBUG 起来也不是啥难事。Hadoop 里的大部分代码都有注释，这点很有帮助。
于是我点进出错代码,却显示看不了源代码。
我又 Google 了一下，发现要把 maven 的依赖包Jar 文件 增加引用源。这样我们就能点进出错信息查看代码(Eclipse Jar 文件小奶瓶出现 📃 的小图标)。

../_images/eclipse_config_jar_source.png

加上断点之后，结合源代码和日志，发现了一条新线索，“Trying ClientProtocolProvider : org.apache.hadoop.mapred.LocalClientProtocolProvider ”
可以看到俺的程序尝试使用 “LocalClientProtocolProvider” 这个服务，也就是说我的程序总是在尝试连接本地的Hadoop，没有连接虚拟机里的集群。
我在 Hadoop mapreduce client jar 包里 的 META-INF文件夹看到 service 目录，的确有一个 “org.apache.hadoop.mapreduce.protocol.ClientProtocolProvider”文件打开后，里面配置是 “org.apache.hadoop.mapred.LocalClientProtocolProvider”
所以说，Java 加载的客户端不对。

../_images/hadoop_client_service_provider.png

仔细查看之后发现common jar 包只有 LocalProvider。
那么能够连接远程Hadoop集群的客户端应该是在其他包里。
最后，我在 maven 的包管理 文件 pom.xml 里增加了 一个依赖:

Hadoop MapReduce Client:

<!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-mapreduce-client-jobclient -->
<dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-mapreduce-client-jobclient</artifactId>
        <version>2.8.0</version>
</dependency>

终于，本地 Hadoop 的应用终于加载了正确的服务，连上了虚拟机的 Hadoop 集群。Bingo!

Summary¶

Okay, 我们已经入门了。接下来呢？

注:¶

俺调试这个程序花了一周的工作日晚上，遇到的错误当然也不只两个。大部分错误还是可以看日志解决的。
由于对 Java 不熟(上周才学Java)，所以调试进展不是很快，期间屡有放弃的念头。人干嘛要这么折腾呢？
花了不少时间读 Maven 文档，Hadoop 文档，还有 看 Core Java 书籍。
对一个软件的架构有了一定了解之后，Debug 的时候也会有些头绪。
还有一个是 Debug 的时候，不能超过 1 小时，时间太长，脑子就会纠结于细节问题，也会淹没于各种网络信息。导致只看见树木，不见森林。
总结起来就是:

多看书,多看文档，以达到对事物有个大概总体的认识。
多出去走走。保持精神通畅，给自己信心。有效治愈气馁，失望情绪。