スポンサーリンク

IT【データ管理】に必要不可欠の知識【DWH、ETLなど】

ゲーム製作委員会

うすけんです。

仕事の勉強中に新しいことを学んだので、せっかくですので皆さんに知ってほしいと考えております。

IT分野の中でもデータ管理やビッグデータやメタデータのお話をして、興味があればそういった仕事を探してみるのはいかがでしょうか。

IT分野のデータ管理について

IT分野に限らずデータ管理をしている会社はたくさんあります。

例えば社員を管理するとして

id社員名役職
1ABCさん平社員
2DEFさん係長

このように管理することがあります。

こういったデータをまとめて保存するのをDWH【データウェアハウス】と呼ばれます。

企業のデータを時系列に保管しているデータベースや倉庫だと考えていただければよいと思います。

DWH【データウェアハウス】

DWHでは4つの定義があります。

  • サブジェクトごとに保管

サブジェクトというのは簡単に言えば目的ではなく内容別に保管するということです。テキストファイル、画像ファイル、動画ファイルなどに分けたりします

  • データを統合、すべてのラベルが統一されている

データはすべてのラベルが同じでなければなりません。データを抜いたりすることもあるので、ラベルは定義しておく必要があります。NULL状態を作らないようにすればよい。

  • データが時系列である

先ほども述べた通り時系列に沿ってなければなりません。過去の入出金履歴のように、時系列が分かるデータであれば問題ありません。

  • データを消さないこと

シンプルですが非常に大切なことです。入出金履歴が少しでも変わるとその後が間違いだらけになります。ですのでデータは消さないようにしましょう。

データマート

データマートは簡単に言えば目的に合わせてデータを抜き出すことです。

上記の画像では例えば、社員の名前だけを抽出したりします。

ETLとは

  • Extract  ・抽出
  • Transform ・変換、加工
  • Load   ・書き出し

の略称です、ETLはたくさんのデータを管理する際に必要なツールになります。基本的には大企業がたくさんのデータを管理するときに使います。

OSSでのソフトもあるようですが、基本的には100万~のツールになります。

その代わり、データの統合や開発工数の削減、さらにデータ品質の向上などもできます。

データ管理に必要な知識

勿論ITの知識は必要最低限ほしいところですが、難しいことはありません。

SQLとLinuxのコマンドは使うことが多いので覚えておくこと。

重要なのとしては結合です。上記のデータに

idpass給料
1aaa10
2bbb20
3ccc20

を内部結合や外部結合により、データをまとめることができます。この場合参照するのはidになります。

結合の際はどちらが先に結合するのかなどを考えます。

JOIN内部結合・右テーブルの行数に合わせて左テーブルの行数を複製する

・結合相手がいない行は結合結果から消滅する
LEFT JOIN左外部結合・左の行は強制的に全て表示する

・条件に合わないものは、右テーブルに値が全てNULLである行を生成して結合する
RIGHT JOIN右外部結合・右の行は強制的に全て表示する

・条件に合わないものは、右テーブルに値が全てNULLである行を生成して結合する
FULL JOIN完全外部結合左右の全テーブルを全て表示させる
【INNER JOIN, LEFT JOIN , RIGHT JOIN】テーブル結合の挙動をまとめてみた【SQL】 - Qiita
はじめに テーブル結合の動作についてまとめてみました! ログを見た時に、何してるか分かるようになることを今回の目的とします。 本記事は、**全て動作済みです。** DBMS: Mysql ##テーブル結合の挙動について まずはテー...

ゆっくりと覚えておくことですね

ありがとうございました。

コメント

タイトルとURLをコピーしました