- 本日の作業内容
- 前回の宿題について
解釈の違いで微妙に数値が違うケースが出ています.正規分布を仮定するかしないかなどが原因です.私の解釈もある意味一つのやり方なので,それなりに意味が通ったものであれば正解としています.パーセンタイル値を根本的に間違って解釈している場合は減点しました.参考となる数値は以下の表のようになります.参考にしてください.
| 2018 | 2017 | 2016 | 方法 |
mean | 66.43 | 60.88 | 61.89 | average() |
stdev | 13.70 | 15.24 | 13.68 | stdev() |
正規分布を仮定した60%ile値 | 69.90 | 64.74 | 65.36 | norm.inv() |
単純計算の60%ile順位 | 57 | 70.8 | 67.2 | 0.6*全体の人数 |
下からの順位 | 38 | 47.2 | 44.8 | 全体の人数-上の値 |
人数を考慮した実際の60%ile点数 | 71 | 65 | 69 | 上の順位の学生さんの点数(小数は偶然影響なし) |
不合格者の最高得点者の順位 | 83 | 81 | 69 | 表より |
順位から求めた不合格者の%ile値 | 12.63 | 31.36 | 38.94 | (総人数-順位)/総人数*100 |
ところで,表を貼り付けるように指示したら以下のようなものがそこそこ見られました.人に見てもらう前提のレポートではありえないフォントサイズです.こういうのはやはり問題なので,減点しました.以後は注意してください.
- 前回の復習
標本の中で下からどのような範囲にその標本が位置しているのかをしる一つの指標がパーセンタイル値でした.実際の演習で活用方法の一部を体験しましたが,部品や装置のデザインなどで許容するサイズ範囲などを想定する際に使用する可能性のあるものでした.何かの折には思い出して活用してください.
- 自習資料
資料を参考に予習してください.
- 演習
実験において,基本的な原理が明らかとなっており変数の関係が数式的に表現できるようなデータの組を得ることができる場合には,実験結果のグラフに関係式に基づいた近似曲線を描くことができます.例えば,図1に示すような実験結果が得られた場合などです.
図1 グラフの例
実験結果を整理する場合,図1のようなグラフのプロット点を折れ線でつなぐことには全く意味がありません.背景となる理論が不明の場合(実際にはよくあることですが)にはスムーズな線で結ぶことを行います.一方で前述のように原理が明らかで関係式が既知の場合には,その関係式をプロットして理論と実験の結果の比較が可能です.
しかしながら,通常の実験では操作したパラメータによって理論式の係数やべき級数の展開次数などが変わる場合があり,そのような場合には実験結果と最もよく合うようにそれらの係数を選ぶことが実験の目的だったりします.
最小二乗法とは,結果に最もよく合う係数などを決めるための手法です.実験値には必ず誤差が含まれていますので,理論式との誤差が最も小さくなる係数を探します.誤差は正と負の両方があるので,誤差の2乗和を最小にすることが必要ですので,最小二乗法と呼ばれます.また,それにより求めた曲線の式を回帰式と呼ぶ場合があります.今回は最小二乗法の中で最も基本的な線形回帰について学習します.
- 原理式からの算出
予習用の資料の(1)式のように,結果が y = a + bx の直線式に従うことが予想される場合には,誤差の2乗和を最小にすることで,式(15)により係数が求められることがわかります.この(15)に従って作業してみましょう.
先ほどの図1は以下のデータをプロットしたものです.
Voltage (V) | Current (mA) |
0.1 | 11 |
0.3 | 20 |
1.1 | 58 |
1.2 | 73 |
1.8 | 89 |
2.5 | 112 |
3.1 | 197 |
3.7 | 303 |
係数を出すために必要な和はΣx2,Σx,Σy,Σxyですので,それらを求めれば算出できます.以下のような値となるはずです.
a = -15.87
b = 71.74
y = -15.87 + 71.74x
- 回帰直線の式を使う
表計算ソフトには回帰曲線を求めるための関数も用意されています.今行っている線形回帰では直線の式ですので,傾きと切片を求める関数slope()とintercept()で計算できます.数式を実際に入力して求めてみましょう.関数ウイザードを使用すると,データ範囲などを案内してくれますので,わかると思います.
- 決定係数
統計的な分析では「決定係数」(Coefficent of determination)という値が使われることが多くあります.この値(R2)は独立変数(説明変数,通常は横軸の変数)が従属変数(非説明変数,縦軸の変数)のどれくらいを説明できるかを表すとされており,通常は以下の式で計算されます.
R2 ≡ 1 - | Σi(yi - fi)2 |
------------- |
Σi(yi - <y>)2 |
ここで, f は推定値,<y>はyの平均値です.
上の例ではRの値は0.90となり,割りと高い値です.
- より高度な近似式の求め方
slope()とintercept()を用いる方法は,y=a+bxという式の傾きと切片を求める方法でした.しかしながら,原理的には切片が0になる線形の関係式で計算したい場合があります.そこで,一般的な線形回帰式を求めるための関数linest()というものが用意されています.
LINEST(既知のY(yの範囲),既知のX(xの範囲),線形,補正)という引数仕様です.「線形」の部分はTRUE(0以外の値)だと切片あり,FALSE(0の場合)には切片なし(原点を通る)です.
最後の補正の部分は使用するためにはちょっとした操作が必要です.まず線形の部分を0,補正の部分も普通に0にして,Enterを押して確定してみましょう.65.57という値が表示されたのでは無いでしょうか?これが原点を通る直線の場合での傾きとなります.
もう一度同じことを行って,最後にEnterではなく,Shift+Ctrl+Enterで確定してみてください.今度は一つ右側のセルに0が入ったと思います.このようにlinest()関数は各係数をShift+Ctrl+Enter操作により全て表示してくれるのです.
今度は切片がある形式で,線形部分を1として補正も1でShift+Ctrl+Enterしてみましょう.何やらたくさん結果が出てきました.解釈が難しそうです.
71.73625905 | -15.87004687 | 係数と定数項 |
9.835674947 | 20.73088707 | 係数と定数項の標準誤差 |
0.898639732 | 33.69346802 | 左:決定係数,右:予測されるyの標準誤差 |
53.19479199 | 6 | 左:F値,右:自由度 |
60389.37628 | 6811.498722 | 左:回帰の平方和,右:残差の平方和,左項/右項が決定係数 |
- グラフへの近似曲線の挿入
グラフに近似式の直線を挿入してみましょう.グラフエリアをダブルクリックしてグラフ編集をアクティブにし,データプロットをクリックして右クリックで出てくるメニューから「近似曲線を挿入」を選びます.デフォルトでは回帰の種類が左上の「線形」になっているはずなので,そのまま先ほど計算した直線が描画されます.原点を通るものに変更する場合には,「オプション」の中の「切片を設定」にチェックを入れ,値を0とすれば原点を通る直線に描き換えられます.
図2 回帰直線の描画
- 各種作業
以下に示す作業を行ってみましょう.
- 中性子の個数
リンク先にあるのは原子番号と原子量(既知の元素のみ)の対応表です.正電荷を持つ陽子どうしを結合させるために必要な中性子は,陽子1個あたり何個になると推定されるか,求めてみましょう.
- 多項式近似
リンク先のデータはある金属の電気抵抗率の温度依存性です.マティーセンの法則によれば金属の電気抵抗はデバイ温度以下の極低温で以下の式となります.式の係数を求めてみましょう.
ρ = ρ0 + αT + βT 2 + γT 5
高次の項を入れるには,linest()関数のXの範囲の部分にべきの項を追加します.n次までだとすると以下のようになります.
LINEST(既知のY(yの範囲),既知のX(xの範囲)^{1,2,3,…,n},線形,補正)
べきの次数は連続でなくても飛ばしでも可能です.
- 次回の予習範囲
次回も最小二乗法について学習します.予習用の資料を参考に予習してください.
- 宿題
いつものレポート提出システムを利用して行います.
宿題の公開は原則として授業の後13:00からとなります.また,提出の締め切りは授業前日火曜日の13:00までです.よろしくお願いします.
Back