わかりやすいブートストラップ法
ブートストラップ法とは、取得できたサンプルデータが少ないときに、統計的な分析をするのに全然データが足りない場合に使用できる方法になる。 その少ないデータの中に外れ値と呼ばれるようなデータが含まれている場合は、そのデータがブートストラップ法によって算出される可能性が高くなるので、そうなる場合は処理を除くなどの必要性が高まる。 ここではそんなブートストラップ法について簡単に説明をしていこうと思います。
- 1 ブートストラップ法とは
- 2 ブートストラップ法を理論的に捉える
- 2.1 ブートストラップ標本の分布
- 2.2 ブートストラップ標本の信頼区間
ブートストラップ法とは
真の分布(真の事象)からよく出るデータ(確率変数)は、 もちろん採れたデータにもよく含まれるはずなので、 その後そのデータに対してのブートストラップ処理をかましても、結局よく出るよねということになる。
簡単にブートストラップについて具体的なデータを用いて説明します。 例として取れたデータを、 1,1,2,2,2,3,3,3,3,3,3,4,4,4,5の15個とします。(あくまで例なのでめちゃ少ないですが、、) このデータを分布にしてみると、3が多いので、3あたりが平均値としてはあり得そうなグラフができますね! (ただ偶然15個とったらこういうデータが取れて、本当は20とかがめちゃくちゃ確率的には出るのかもですが、それは今回置いておきます。数増やせばいいだけなので。) ここで真の平均を考えていきたいと思います。
そして上で取れたデータ15個からランダムでサンプリングをしていきます。 袋に上の15個の数字が入ったと見立てて、そこから値を取ると、当然ながら3が一番多いので、3が出やすいです。 それを同じように15回くらい復元でサンプリングしていくと、 1,1,1,2,2,2,3,3,3,3,4,4,4,5,5の15個取れたとします。 これがいわゆるブートストラップになります。 元々取れたデータに対してサンプリングをしていく手法になります。
取れたデータが15個でこれだけだと流石に予測や分析に使用できないので、ここからさらに復元サンプリングを行います。 同じ\(n\)=15でそれを何セットも繰り返しサンプリングをします。 ここで取れたデータをブートストラップ標本と言ったりします。
ブートストラップ法を理論的に捉える
ここから仮の真の平均(標本平均)を出すと、\(\theta = \displaystyle \frac \sum_^ x_\)となります。
そして次にブートストラップ処理を行います。 1回目で\(①\)から\(n\)回サンプリングを行い、取れたデータを\( _ \)とします。そしてこのデータからの平均値を\(\theta_\)とします。 2回目で\(①\)から\(n\)回サンプリングを行い、取れたデータを\( _ \)とします。そしてこのデータからの平均値を\(\theta_\)とします。 3回目で\(①\)から\(n\)回サンプリングを行い、取れたデータを\( _ \)とします。そしてこのデータからの平均値を\(\theta_\)とします。 . を繰り返し行っていき、 \(m\)回目で\(①\)から\(n\)回サンプリングを行い、取れたデータを\( _ \)とします。そしてこのデータからの平均値を\(\theta_\)とします。
これを各上記のブートストラップ法によるリサンプリング結果のデータを用いて \(\theta_\), \(\theta_\), \(\theta_\), . \(\theta_\)の\(m\)個のブートストラップ平均値が取得できました。
これで標本平均の分布図が書けそうですね! ブートストラップ標本から得られた各種平均\( _ \)を小さい順に並び替えます。
ブートストラップ標本の分布上でとれた\(\theta_\)の値を度数分布表に書いてみます。以下は例でイメージです。 \(\theta_\)は様々な値を取りうるので確率変数になり、それ自体値ごとに確率が定義されます。 そのため、この分布表に曲線を通せば確率密度関数を出すことができますし、さらには分布関数も導くこともできます。
ブートストラップ標本の信頼区間上で考えた標本平均のブートストラップ法で信頼区間の構築を考えてみます。 標本平均の分布を上で書いてみましたが、標本平均の分布は中心極限定理によって、正規分布に収束することが知られています。 そのため、普段僕らが考えている信頼区間のような考え方で信頼区間の構築が可能ということになります。
ブートストラップ法 経験分布を作成して、小さい順にサンプリングされたデータを並び替えます。 そして有意水準5%として、上側限界区間とした時、 並び替えたデータでの上から5%分のデータを除いた範囲を構築することで、 信頼区間の構築を行うことが可能となります。
標本データで取得できたデータが\(n\)個だったとする。 ブートストラップ法では例えデータがかぶってたとしても、それらは固有もの(区別する)として復元サンプリングを行います。 これにより、それぞれのデータを取得する確率は等分の\(\displaystyle \frac\)になります。
そして信頼区間の構築では、単純に得られたデータに対して、 取得したデータの小さい順に並び替えます。 そして例えば、50組のデータストラップ標本の平均値をサンプリングしたのであれば、その50個を小さい順に並び替えます。 今回有意水準を上限10%とした時、 上から5個が、有意水準に該当してしまうので、その5個が含まれるギリギリの値で平均値を構築します。
ブートストラップ法の要注意ポイント
関連記事 分割表の検定 統計学学ぶ上で線形代数これだけ!統計学を学びたいけど、やたら数式ばっかでわからない!! 計算どうやってるのか全然わからない! ベクトルや行列、微分がよくわからず、勉強挫折してしまう、、 など統計学はとにかく数式が多いです。 統計って .
生存時間解析・カプランマイヤー・オッズ比生存時間解析には以下2つのパターンがあります。 ・ハザード関数 ・カプランマイヤー ハザード関数は打ち切りデータを含む場合 カプランマイヤーは打ち切りデータを含まない場合 の分析を行う。 .
わかりやすい層別抽出法(層化抽出法)層別サンプリングでは、 ある地域をMECEで層別にいくつかの層に分けます。 そしてそれぞれの層から上のようなことをします。 層の中にいる人からサンプリングをするわけですが、上でも話した通り、 非復元で .
PREV わかりやすいフィッシャー情報量 NEXT デルタ法楽しいこと、好きなことをして自由気ままに生きる独身貴族 本職マーケターです。記事にして欲しいコンテンツなど募集中です!以下のフォームからお願いします! ▼ 問い合わせは以下からお願いします!(Google Form)
統計検定準1級に合格したお話 Lookerの削除と無効化についてみなさん、LookerというBIツールをご存知ですか? このLookerはGoogleが提供している高価なBIツールのことです。 巷だったりクライアントは前身がデータポータルやデータスタジオといったL .
わかりやすいARモデルとMAモデル 回帰分析と分散分析の関係性について回帰分析と分散分析の関係はとても近いです! 回帰分析ではあるデータ(目的変数)が取れて、それに対して別の変数(説明変数)でどのくらいの影響があるかを示すものです。 式で表すと、\(y = \beta .
確率過程とブラウン運動\(N(\mu,\sigma^)\) 今回は、時系列データや金融工学などでよく用いられるブラウン運動という概念についてご紹介します! ブラウン運動は統計学的にも応用的な分野で初学者にとっては難し .
検索窓 カテゴリー 目次- 1 ブートストラップ法とは
- 2 ブートストラップ法を理論的に捉える
- 2.1 ブートストラップ標本の分布
- 2.2 ブートストラップ標本の信頼区間