- 本日の作業内容
- 前回の宿題について
作業自体はできているのですが,解釈とか表現で問題のあるものがいくつか見られました.仮説検定自体の独特の表現がありますので,もう一度しっかり確認しましょう.
今回のt検定では危険率 p が.0447という値でした.これは帰無仮説を棄却可能な範囲に入ります.そこで,表現としては次のようになります.
p < .0447 より帰無仮説は棄却できる
よって,対立仮説を採択できる
細かいことですが,帰無仮説を棄却できる(棄却しても良い)かどうかが危険率5%のところです.そして,「棄却しなければならない」という表現は検定では使用しません.一方で,対立仮説も採用できるかどうかを危険率で判断しており,同様に「対立仮説を採用しなければならない」ということはありません.あくまで「○○してもよい」かどうかを判定しているのです.
ということで,次のような矛盾した表現や良くない表現が見られたのは,今後はなくしていきましょう.
次にグラフですが,ぼちぼちきちんと採点しています.学生実験でも縦軸や横軸の物理量や単位について指導を受けていると思います.今回の場合は以下のようにきちんと作って欲しかったです.
しかし,残念ながら次のように縦軸の量について記載がなかったり,原点を明示しなかったりというグラフがそこそこ見られました.これからはそういうところにも注意を向けてください.
また,「有意でない」という not significant の略である n.s. と * が両方あるものもありました.おかしいですね.
- 前回の復習
統計的仮説検定の第一歩であるt検定について実習しました.表現が難しいので,上の例も参考にこれからはきちんと書くようにしてください.来週の作業で再び検定(無相関検定)がありますので,また使用します.
- 自習資料
資料を参考に予習してください.
- 演習
今回の内容は相関係数です.前々回まで最小二乗法を用いた回帰曲線について実習しましたが,似ているようで非なるものです.というのも,回帰という場合には理論的な背景から数式がある程度定まっていて,係数やべき乗などの検討を行う作業になるのに対して,相関は関係があるかないか,あるとしたらどのような依存関係にあるのか,を見るだけです.
例えば,夏の気温とアイスクリームの売上やビールの消費量の関係が有名なものです.これらは商売に直結するので,予想気温に従って仕入れやメニューを変更することで,顧客の需要を満たすことができます.そのため,その関係式はリサーチ会社から販売されるほどです.
で,ここで確認ですが,当然ですが夏の気温が物理的に何か作用してアイスクリームの売上に影響するのではありません.気温に従って人体の発汗や自律神経などに影響が出て,その体の反応から脳が冷たいものを要求することで,消費行動に繋がることがある,という程度のことです.このように因果関係は基本的にはわからないものの,お互いの変化にある一定の関係が推測される場合に,相関があると言います.以下では実際に求め方を学習します.
- 手計算による相関係数の算出
資料の式(2)に基づいて相関係数を計算してみましょう.以下の2種類のデータの組で計算します.
データその1
| x | y |
1 | 3 | 10 |
2 | 8 | 9 |
3 | 10 | 13 |
4 | 11 | 27 |
5 | 15 | 24 |
6 | 19 | 28 |
7 | 22 | 45 |
8 | 24 | 32 |
9 | 27 | 36 |
10 | 33 | 51 |
|
|
データその2
| x | y |
1 | 3 | 106 |
2 | 8 | 110 |
3 | 10 | 80 |
4 | 11 | 76 |
5 | 15 | 102 |
6 | 19 | 98 |
7 | 22 | 79 |
8 | 24 | 65 |
9 | 27 | 88 |
10 | 33 | 92 |
11 | 39 | 96 |
12 | 41 | 67 |
13 | 42 | 88 |
14 | 46 | 92 |
15 | 55 | 57 |
16 | 58 | 59 |
17 | 69 | 65 |
18 | 74 | 81 |
19 | 77 | 43 |
20 | 81 | 53 |
|
|
- 相関係数を求める関数
表計算ソフトには通常相関係数を求める関数が2つあり,名前は違うのですが,全く同じことを行うものとなっています.名前は一つは correl() で,もう一方は pearson() です.相関のことを英語で correlation というので,前者はその名前の短縮形,相関係数(正確にはPearsonの積率相関)を算出したのが Pearson という名前の人なので,後者はその名前が関数名になっています.動作は同じです.
先ほどの手計算による r = S xy / √S x S y があっていたかどうか,上記の関数を用いて確認してみましょう.
- iPhoneのヘルスケアアプリの例
iPhoneには標準で「ヘルスケア」というアプリがあり,その中の「アクティビティ」には「上がった階数」という項目があります.これはiPhoneに内蔵されているセンサがiPhoneを身に着けている人が階段を上がっている場合にその上がった階数を計測しているものです.一応3mもしくは16段が1階分の目安とされています.
さて,私が日頃上がっている階段について,同じ階段を毎月5回分無作為に選んだものを2箇所について見てみました.添付のデータがそれに当たりますが,同じ階段を上がっているのに,月によって階数の読み取りが異なっています.そこで,iPhoneがどうやって階数を算出しているのか調べてみると,内蔵の気圧センサが気圧を計測して高度を算出し,その変化の際の加速度センサのデータと突き合わせて,エレベータやエスカレータなどの外力による場合と自力で上がっている場合の認識をして表示しているようです.ということで,日本における気圧の変化がどうなっているのかについて検索すると東京都のものが得られました.それについてもデータに記載しています.
これらからiPhoneの「上がった階数」データの計測結果の変動について議論してください.
- 練習用データの取得
統計解析の練習用のデータを得られるサイトがあります.他にもいろいろありますが,今回は日本語のこのページのデータを使用して練習しましょう.
- 世界の都市の経済データ
先ほどのページの中に「世界の都市の経済データ」というものがあります.世界48都市の都市名と,平均労働時間,物価,そして給与があります.これを使って作業してみましょう.
- 給与と物価の関係
給与水準が高い国では当然物価も高いはずです.給与と物価について,グラフを作成してみましょう.
- 給与と物価の相関係数
物価がどの程度給与水準に依存しているか,相関係数を求めて確認しましょう.
- 労働時間と物価,労働時間と給与の相関
それぞれグラフを作成し,相関係数を求めてみましょう.
- 偏相関
労働時間の寄与を抜いた物価と給与の偏相関係数を求めてみましょう.
- スポーツテストデータ
陸上競技の大会では走り幅跳びと短距離走の両方にエントリーする選手は結構いるようです.そこで,
同じサイトにある中学生104人のスポーツテストデータを使って,走り幅跳びの成績に及ぼす短距離走の走力について,考えてみることにします.50m走のタイム,走り幅跳びの記録,垂直跳びの記録の3つを用いて,走り幅跳びの記録にはスピードとジャンプ力のどちらの寄与が重要と推測できるかを偏相関係数も考慮して見てみましょう.
- 次回の予習範囲
次回は相関分析について学習します.予習用の資料を参考に予習してください.
また,次回はいよいよ第1回めの確認テストを行いますので,準備をお願いします.出題予定の項目は,t検定と相関係数を予定しています.
- 宿題
いつものレポート提出システムを利用して行います.
宿題の公開は原則として授業の後13:00からとなります.また,提出の締め切りは授業前日火曜日の13:00までです.よろしくお願いします.