pentahoを使い始めました

はじめに

最近、あの日立が買収したpentahoという会社が開発したpentahoというETLツールを使っている。

使っているというよりも、10月からのプロジェクトに向けて、学習している。

この記事では、pentahoで何ができるのかについて自身の体験をもとにざっくりと書いていく。

ETLの作成

まずは、エクセルやデータベースなどの様々なインプットソースから、データを抽出(extract)する。

次に、抽出したデータを目的に合わせて加工(transform)する。

最後に、その加工したデータを読み込む(load)。

ケトルファイル

ETLを作成するファイルは、拡張子が.ktrのケトルファイル。

ここで、csv読み込みなどの様々なステップをドラッグ&ドロップで配置する。

shiftキーを押しながら、ステップをクリックして、別のステップに矢印を伸ばすことができる。

各ステップの役割と使い方を覚える必要があるが、ノーコードでステップをポチポチと配置していくだけでETLが実現可能。

ジョブ

ジョブは、ケトルを組み合わせたりして、処理の流れを作成することができる。

拡張子は、.kjb。

ファイル入力したデータをデータベースのcreated_at、updated_atにマッピングしたい場合

ファイル入力というステップでcsvを読み込んだとする。

そうすると、ファイルを作成した時刻はフィールドに表示されない。

ETLを実行した時刻を取得するには、システム取得というようなステップを使用する。

それをデータベースのcreated_atとupdated_atにマッピングする。

データベース側で、NOT NULL制約をつけている時に、このマッピングが必要になる。

以下のようにマッピングする。

入力	出力
ETL実行時刻	created_at
ETL実行時刻	updated_at