Hadoop徹底入門読書メモ

Hadoop徹底入門（太田一樹・下垣徹・山下真一・猿田浩輔・藤井達朗共著, 濱野賢一朗監修)メモ

　Hadoopとは「オープンソースの大規模データを処理するための並列分散処理基盤」であり、HDFSとMapReduceから構成され他の周辺プロジェクトとしては、Hive、Pig、Sqoop、Hbase、ZooKeeperがある。

　HDFSとは基本的にはWindowsのNTFSあるいはLinuxのext3のようなローカルファイルシステムを複数サーバーに展開し、更にファイルシステムの中でレプリケーション機能を持ちRAIDを使ったような信頼性を内包している。

　MapReduceは、巨大なデータを処理するための並列処理のフレームワークで、データからKeyとValueの組を抽出するMap処理、そして抽出されたKeyとValueから目的の結果（KeyとValue)を得るための処理に大別される。

　 HBaseはHDFS上に構築されるデータベースでありKey-Value型データストア、HDFSに出来ないランダム書き込み／読み込みが対応可能になる。用途は細かい大量データとあるが、普通にファイルのまま保存するかデータベースに格納するかで考えれば良いでしょう。他の周辺プロジェクトは省略。

　インストールや設定、プログラミング等を飛ばして読んでも、概要は分かりやすくて良かったかと思います。実際にはアクセスログ等をHDFSに放り込んで解析処理などを実装してみるとより深く理解できそうです。I