2009-10-26 Hadoopメモ Hadoop 構成要素 HadoopCore 「HDFS(Hadoop Distributed Filesystem)」という分散ファイルシステム&MapReduce分散コンピューティング」 GoogleFileSystem(google) HBase 分散データベース Bigtable(google) 動作環境 Linux JDK1.6以上推奨 SSH(単体で動作させる分には不要) ダウンロード http://www.apache.org/dyn/closer.cgi/hadoop/core/ インストール インストール前設定〜サンプルの実行まで http://codezine.jp/article/detail/2485 hadoop設定値 http://hadoop.apache.org/common/docs/r0.15.3/hadoop-default.html 実装方法 Javaで実装する。 Hadoop Streamingという拡張パッケージを用いると、C/C++・Ruby・Pythonなど任意の言語で標準入出力を介したMapReduceプログラムを書くことができる。 APIドキュメント http://hadoop.apache.org/common/docs/r0.18.0/api/index.html MapReduce Map 大量の情報を分解し、必要な情報を抜き出して出力 Reduce 抽出された情報を集約し、それに対して計算を行い結果を出力 Hadoop採用実績 A9、Adobe、Yahoo!に始まり、海外ではかなりの実績 http://wiki.apache.org/hadoop/PoweredBy 参考URL MapReduceのJava実装Apache Hadoopを使ってみた http://www.atmarkit.co.jp/fjava/special/distributed03/distributed03_1.html Hadoop、hBaseで構築する大規模分散データ処理システム http://codezine.jp/article/detail/2448 Hadoopのインストールとサンプルプログラムの実行 http://codezine.jp/article/detail/2485