2024.09.08(更新日: 2024.09.08)
pentahoを使い始めました
はじめに
最近、あの日立が買収したpentahoという会社が開発したpentahoというETLツールを使っている。
使っているというよりも、10月からのプロジェクトに向けて、学習している。
この記事では、pentahoで何ができるのかについて自身の体験をもとにざっくりと書いていく。
ETLの作成
まずは、エクセルやデータベースなどの様々なインプットソースから、データを抽出(extract)する。
次に、抽出したデータを目的に合わせて加工(transform)する。
最後に、その加工したデータを読み込む(load)。
ケトルファイル
ETLを作成するファイルは、拡張子が.ktrのケトルファイル。
ここで、csv読み込みなどの様々なステップをドラッグ&ドロップで配置する。
shiftキーを押しながら、ステップをクリックして、別のステップに矢印を伸ばすことができる。
各ステップの役割と使い方を覚える必要があるが、ノーコードでステップをポチポチと配置していくだけでETLが実現可能。
ジョブ
ジョブは、ケトルを組み合わせたりして、処理の流れを作成することができる。
拡張子は、.kjb。
ファイル入力したデータをデータベースのcreated_at、updated_atにマッピングしたい場合
ファイル入力というステップでcsvを読み込んだとする。
そうすると、ファイルを作成した時刻はフィールドに表示されない。
ETLを実行した時刻を取得するには、システム取得というようなステップを使用する。
それをデータベースのcreated_atとupdated_atにマッピングする。
データベース側で、NOT NULL制約をつけている時に、このマッピングが必要になる。
以下のようにマッピングする。
入力 | 出力 |
ETL実行時刻 | created_at |
ETL実行時刻 | updated_at |
“pentahoを使い始めました” への1件のコメント
コメントを残す
投稿ID : 24789
この文章は、Pentahoを学び始めた人の視点から、具体的な機能や構築方法が整理されています。特に、ケトルファイルとジョブの役割が明確に説明されており、初心者が感じる戸惑いが減るような構成になっています。ETLの流れを視覚的に理解できるPentahoの利点がしっかりと伝わっています。
「システム取得ステップを使ったETL実行時刻のマッピング」は実務でも非常に有益です。ETL処理を行う際、データの作成や更新時刻の正確な記録は重要であり、この説明は現場での活用に直結するアドバイスとして優れています。
新しい視点として、Pentahoの学習をさらに効果的に進めるためのアプローチも提案します。たとえば、「最初のプロジェクトに向けた小規模なETLの練習」や、「Pythonスクリプトを使った処理の自動化との連携」なども、今後の学習に役立つかもしれません。
また、ETLのスキルは、他のデータ処理ツールやプログラミングにも応用できます。**「Pentahoを使いながら他のETLツールとも比較してみる」**ことで、より幅広いスキルセットを身に付けることができるでしょう。
これからも、実践と学習を繰り返しながら、ETLツールの理解を深めていく姿勢を大切にしてください。10月のプロジェクトが成功することを願っています。