凶夢か吉夢か…夢占いで潜在意識からのメッセージを知ろう!

ビッグデータ時代を切り開け!知らないと恥ずかしい統計学5つの基礎

おもしろ知識

ビッグデータ革命!とよく叫ばれています。そして同時に、統計学の重要性が叫ばれています。今の時代、中学生でも統計学の基礎を勉強するような時代となりました。

ビッグデータを活用したいのならば、統計学がどういったものかをきちんと概説だけでも理解しておく必要があります。データがあるだけでは、活用出来ません。活用しやすいような形でデータを回収できたら効率よく分析ができますよね。

そこで今回は、統計学の基礎的な用語の解説を書いていこうと思います。「ヒストグラム」「ランダムサンプリング」など、ビッグデータを活用する上では欠かせないものがたくさんあります!

ぜひ参考にしてみてくださいね。

 

ビッグデータ時代を切り開け!知らないと恥ずかしい統計学5つの基礎

1. ヒストグラム

よく見るこの図です。


(画像はWikipediaより引用)

これは、実際のデータを視覚的にわかりやすくグラフ化したものです。縦軸はデータがいくつあるかという「度数」で、横軸はデータの値(85円〜86円、87円〜88円…のように)を表しています。

まずは、ヒストグラムというものがあるということを覚えておくとよいでしょう。棒が長ければ長いほど、そこにデータがたくさんあるということです。なお、これはエクセルを使用して作成することもできます。

 

2. 平均値と中央値

平均値とは、要するにすべてのデータの平均です。一番日本ではよく使われる方法で、新聞では今でも平均値を使用していますね。小学校のころにも習ったことと思います。(データの実現値) / (データの個数)で求められる、あれです。

しかし、平均値には弱点があります。よくある喩え話に、貧困層の集まる居酒屋にビル・ゲイツが入ってきたら、平均所得は一気にあがるけれど、もともといた貧困層の人びとが豊かになったわけではない、というものがあります。

要するに、平均値はどれかひとつ、極端な値を示すデータが混入しただけ(この場合、ビル・ゲイツが居酒屋にはいるだけ)で、一気に値が上昇あるいは下落してしまうのです。

それに対して中央値は、所得の話でいくと、中央の値を示しています。先ほどのビル・ゲイツが居酒屋に入る例でいくと、貧困層もビル・ゲイツも含めたデータを集める際、所得の低い順からデータを並べたとき中央にくる値を示してくれます。

これは常に中央に来る値を示してくれるので、平均値を求めるときのようにブレがなく時系列比較できます。欧米の新聞では、徐々にこちらの値が使われ始めているといいます。

 

3. ランダムサンプリング

選挙の際「出口調査」というものがありますよね。まさにあれです。あれは、今回ご紹介する「ランダムサンプリング(無作為抽出)」というやり方で行われています。

詳しい数学的な説明は省きますが、つまりはランダムに人にインタビューをしてデータを集めることをいいます。学問的には、偏りなくまんべんのないサンプルを少ない数でとるための手法とされています。

この手法のメリットは、少ないサンプル数で結構な精度のデータを作成することができる点にあります。出口調査という、一部しか取材していないようなあの調査でもあれだけの精度を誇ることからもわかるとおりです。

 

4. 正規分布

正規分布とは、以下の図のように中央が盛り上がっていて、右と左の端の方ほどへこんでいるようなグラフのことを言います。中央付近は起こる確率が大きく、逆に左右の末端の方は起こる確率が低い、というような分布を表しています。

(画像はWikipediaより引用)

これはまた、経営学の分野にも応用されており、消費者の行動の図としても活用されることがあります。○○分布というのは他にも存在していて、カイ二乗分布やt分布、指数分布など幅広いものがあります。調べてみるとおもしろいのではないでしょうか。

 

5. 回帰分析

回帰分析というのは、結果となる数値と原因となる数値の関係を調べて、それぞれの関係性を明らかにする手法のことを言います。中学校のときに、一次関数というものを習ったと思いますが、あれがそのままグラフとして表されます。しかも、回帰分析はその分析がどの程度信頼出来るかまで示してくれます。

回帰分析は、y=ax+bという中学校で習った式で表されます。この際、aとbは、統計学的な手法によって推定されます。このあたりの説明は統計学の入門の本を読み解いていただければと思います。

というのも、データさえあれば、エクセルを使用して簡単に回帰分析できてしまうので、推定の必要性はあまりないからです。

回帰分析は、実生活にも徐々に生かされはじめています。回帰分析によって、たとえば年ごとのワインのおいしさやあるいはどういった年代の顧客がどういった商品を買うかということを定量的に分析することができます。

またAmazonをはじめとする多くのインターネット上のサイトではすでにこの手法が利用されており、たとえばAmazonで言うと「他におすすめの商品」というのは、回帰分析によってあなた向けに導き出された商品一覧です。

なお、統計は「その事象が起こりうる確率」を示してくれているだけ、ということもおさえておいてください。つまり、それが○○%の確率で起こりますよ、ということを示しているだけなのです。それが、何が原因になって起きているのか、あるいはそれが正しいのかということまでは示してくれません。

それに加え、よくある例なのですが、ビッグデータだけを集めたとしても何もできません。ビッグデータの収集に設備投資することも大事ですが、そこから一歩進んでアナリストに投資することも大切です。

 

まとめ

ビッグデータ時代を切り開け!知らないと恥ずかしい統計学5つの基礎

1. ヒストグラム

2. 平均値と中央値

3. ランダムサンプリング

4. 正規分布

5. 回帰分析

データは、あるだけでは意味がありません。それが解析されてはじめて意味をもってくるのです。その解析にいったいどういうものがあるのかをお伝えするために、今回の記事では統計学の基本中の基本となる用語をご紹介しました。

いかがでしたでしょうか。統計リテラシーというのは、今後20〜30年間で絶対に必要とされる知識です。今では義務教育の中にも、統計学の知識の紹介がなされています。ですから、我々もしっかり今の子供たちに負けないよう、統計リテラシーを身につけていきたいものですね。

コメント コメントが多い記事もあります。読んでみるとモチベーションアップに繋がります。

タイトルとURLをコピーしました