企業内に存在するデータを収集・蓄積・分析することで、経営の意思決定に役立てるツールを、BI(ビジネス・インテリジェンス)ツールといい、有名な製品では、Tableau、Treasure Data、Qlikなどがありますが、それらをご利用の方はディメンションとメジャーはなじみ深いかと思います。
そうではない方たち向けに、まとめてみました。
ディメンションとメジャー。どちらも、データセットの中に存在する属性か、計算した結果取得した派生属性のいずれかです。ディメンションもメジャーもデータセットに含まれるデータ属性ではあるのですが、以下の役割を期待して、こういった呼び方をします。
- ディメンション…データをグループ化、分離、フィルタリングする、分析の切り口としての属性
- メジャー…分析の対象とする測定可能な数値属性
あえて簡略化して、分析のための問いを、穴埋め文章化するとしたら、以下のようになります。
(ディメンション)における(メジャー)の値を知りたい
実は各種チャートは、それぞれ必要なディメンション、メジャーの数が決まっています。代表的なチャートについて、以下にまとめます。
チャート名 | ディメンション | メジャー |
棒グラフ | 1 | 1 |
積み重ね棒グラフ | 1 | 2〜 |
グループ棒グラフ | 2〜 | 1 |
折れ線グラフ | 1(時間軸) | 1 |
複数折れ線グラフ | 1(時間軸) | 2〜 |
2つの次元の値をもつ線グラフ | 2 | 1 |
エリアチャート | 1(時間軸) | 1〜 |
円グラフ、100%積み重ね棒グラフ | 1 | 1(割合) |
散布図 | 0 | 2 |
バブルチャート | 0 | 3〜4 |
ツリーマップ | 1〜 | 1〜2 |
ウォーターフォール・チャート | 1 | 1 |
ディメンションが時系列なら時系列を表現するチャートになります。
メジャーは、データ属性に含まれている数値のみならず、数量×価格や、一人あたり価格など、複数のデータ属性から新たに導き出されたデータ属性を扱うこともできます。
SQL文でデータベースのテーブルからデータを取得する際のSELECT文は、ディメンションへの操作を行っているといえます。SELECT句で、ディメンションとメジャーを指定し、GROUP BY句でディメンションをグループ化し、WHERE句でディメンションを分離、フィルターしています。
そして、Tableauの場合は、データを読み込んだ後、データ属性を自動的にディメンジョンかメジャーに分類します。ユーザーが列と行にそれぞれのデータ属性を指定すると、表示可能な複数のチャートが選択され、切り替えていきながら検討することができます。
トレジャーデータのMetric Insightsの場合はこの逆で、チャートのタイプを決めてから、それに合うように集計結果を出す(データ属性を選択する)というやり方を採用しています。
Googleなどで採用されている従業員のパフォーマンス管理システムのOKR=Object & Key Resultsは「人をモチベートする定性的目標」と「主となる定量的指標」の組み合わせという意味で、データ分析のディメンションとメジャーの関係に似ていると言えるかもしれません。
さらには、良い文章とは、そこから敷衍した「データ可視化におけるストーリーテリング」とは、客観的な事実を持ち寄った上で、聞いたことのない自分なりの主観的な物語を語れ、という意味において、Objectives & Key Results的だ、といえるのかもしれません。