こんにちは。大塚志喜です。
今回はデータの分析についてのお話をしていこうと思います。
数学Iで学習するデータの分析はとても量が少ない分野なので,しっかり勉強すればすぐに結果に結びつきます。
しかも前提とする知識がほとんどないため,いつでも勉強できるのがまたいいところです。
後回しにすることなくすぐに自分のものにしてしまいましょう。
しかし,分量が少ないからといってがむしゃらにやるだけでは試験での得点になかなか結びつきません。
正しいビジョンを持って学習しましょう。
目次
「データの分析」の学習で一番意識して欲しいこと
まずはこの分野の学習で一番意識して欲しいことについてお話ししていきます。
データの分析では,平均や分散などといった「与えられたデータの特徴を表す数値」をたくさん計算していきます。
代表値の計算「だけ」覚えると苦手になりやすい
これらのような値のことをそのデータの「代表値」というのですが,とりあえず代表値の計算の仕方は確実に覚えておかなければなりません。
しかし,実は この段階で得意になる人と苦手になる人との差がかなり広がってしまいます。
苦手になってしまう人は,計算の仕方だけを頑張って覚え,「とりあえず数値が出せれば良い」というスタンスで勉強してしまうのです。
「データの分析」で求められるのは目の前のデータの特徴を「分析」する能力
今現在そのような意識の人は,今学習している単元の名前を思い出してください。
データの「分析」です。
この単元で求められている能力はただの代表値の計算能力ではなく,計算した代表値から,目の前にあるデータにどんな特徴があるのかを分析する能力です。
つまり,代表値の計算はできて当たり前で,出てきた値の意味をしっかりと考える能力が重要になってくるということです。
意味を理解した上で計算できるようにする
皆さんは計算式が出てきたときに「この値を計算することによって,与えられたデータのどのような特徴を読み取ることができるのだろうか」という視点を持たなければならないのです。
代表値としては,平均値,分散,標準偏差,共分散,相関係数,最大値,最小値,中央値,四分位数が出てきますが,計算式だけでなく意味もしっかりと理解した上で計算できるようにしましょう。
最初からこのような意識を持って学習を進めていると,ある程度深いところまで行っても「何をやっているのか意味がわからない」なんてことにはなかなかなりません。
計算だけでなく,意味もしっかりとおさえるようにしましょう。
[例]データの分析の学習法:共分散
先程の学習の例として,ここでは共分散について少し解説してみようと思います。
共分散の定義は以下のようになっています。
$$\frac{(x_1 −\bar{x})(y_1 −\bar{y})+(x_2 −\bar{x})(y_2 −\bar{y}) + (x_3 −\bar{x})(y_3 −\bar{y}) + · · · + (x_n −\bar{x})(y_n −\bar{y})}{n}$$を,$x$と$y$の共分散と呼ぶ。
「意味はわからないが数値だけは出せる」人にならないために
この定義式を見て,「なるほどこの共分散というのは,変量$x,y$のこんな特徴を表しているのか」と思える人は果たしてどのくらいいるでしょうか。
少なくとも僕は,この定義式をいきなり見せられたら「なんでこんなもの計算して値を出す必要があるんだ?」と思ってしまいます。
しかしこの定義式を見て「よし,とりあえずここにデータを代入 していけば共分散とやらは計算できるわけだな。とりあえず数値を出してみよう」と思ってしまう人がやはり一定数いるわけです。
その数値を計算する理由を考える
「とりあえずデータを代入する」という方向に走ってしまうと,先程の「意味はわからないのにとりあえず数値だけは出せます」という人になってしまいます。
これでは,「共分散を計算しなさい」と言われたときだけはなんとかなっても,そこから先の分析ができない人になってしまいます。
これではなかなか高得点が狙えなくなってしまいます。
大切なのは,なぜ$$\frac{(x_1 − \bar{x})(y_1 − \bar{y}) + (x_2 −\bar{x})(y_2 − \bar{y}) + (x_3 − \bar{x})(y_3 − \bar{y}) + · · · + (x_n −\bar{x})(y_n −\bar{y})}{n}$$なんて数値を計算しようと思ったかを知ることです。
実はちゃんと理由があります。
共分散の意味を理解する
2 つの変量 x,y の値の組$$(x_1 , y_1 ),(x_2 , y_2 ),(x_3 , y_3 ),· · · ,(x_n , y_n )$$を座標だと思って,座標平面にどんどん図示していくことを考えてみます。
このようにしてできる図を散布図といいます。
このときの座標平面に少し工夫をしておきます。
散布図の座標平面に施す工夫
下のように$\bar{x}, \bar{y}$のところに太線を引き,平面を 4 つのブロック (I)~(IV) に分割しておきます。
ここに座標をどんどん書き込んできったとき,もし (I) と (III) にたくさん点が集まれば,「$x$が大きければ大きいほど$y$も大きい傾向がある」ということが読み取れます。
(I) と (III) にあ る点は $x − \bar{x}$と$y −\bar{y}$が同符号ですから$$(x − \bar{x})(y −\bar{y}) > 0$$が成り立っています。
そしてもし (II) と (IV) にたくさん点が集まれば,「$x$が大きければ大き いほど$y$は小さい傾向がある」ということが読み取れます。
(II) と (IV) にある点は $x − \bar{x}$と$y −\bar{y}$が異符号ですから$$(x − \bar{x})(y −\bar{y}) < 0$$が成り立っています。
なので,全てのデータの組に対して$$(x − \bar{x})(y −\bar{y})$$の平均値を取ると,$(x − \bar{x})(y −\bar{y})$ 全体を見たときに正のものが多いか負のものが多いかがわ かります。
そこから (I) と (III) にたくさん点が集まっているのか (II) と (IV) にたくさん点が集まっているのかがわかります。
(I) と (III) にたくさん点が集まると,点が右上がりに並んで いるような図になり,(II) と (IV) にたくさん点が集まると,点が右上がりに並んでいるよう な図になります。
したがって,共分散を計算することにより,散布図がどのようになるかを数値から読み取ることができるようになります。
これが共分散の意味です。
おわりに:「数値の意味」を意識する
どうだったでしょうか。
この分野ではとにかく計算に目がいきがちですが,大切なのはその数値の意味です。
意味を掴んだ上で数値を計算できるようになるのが第一歩で,そこからより 速い計算技術を身につけていくのが,かなり効率の良い学習順序だと思います。
しっかりと意味を掴んだ上で学習が進められるように頑張ってください。
では今回はこの辺で失礼します。
また次の記事でお会いしましょう。