確率周りの定義
確率周りの定義
- 確率変数: 確率が割り当てられる変数。サイコロなら $\frac{1}{6}$ の確率が確率変数(1-6 で変動)に割り当てられてると言える。
- 現実値: 確率変数の取りえる値。サイコロなら 1-6
- 離散確率変数、連続確率変数: 確率変数の値の範囲が有限数の場合を 離散確率変数 、そうでないときに 連続確率変数 という。
確率分布関数
確率変数 X が実数 x いかになる確率の事。離散確率変数は $F(X)$ で記述し、定義は
確率密度関数
連続確率変数の場合は、分布関数の導関数を密度関数(確率密度関数)という。
平均の確率での表し方
確率変数を X とし、平均(期待値)を $E(X)$ で表すとこんな感じで表す。
Σ 事象 x × 発生確率 f(x)
と読み替えると分かりやすいか
各種分布
- 一様分布 : サイコロなどはすべての確率変数が一様に $\frac{1}{6}$ の確率で、このように一様なさまを一様分布という
- ベルヌーイ分布 : 結果が2択の分布をベルヌーイ分布という。コインとか。尚、二択の結果が出る試行を ベルヌーイ試行 というそうな
- 二項分布 : ベルヌーイ試行を独立に n 回繰り返したときの成功回数を確率変数とする分布。
全住民の 5% がある感染症に罹患していて、その住民の中から無作為に 500 人抽出した。この抽出した 500 人のうち、罹患者が紛れ込む人数の分布等。
二項分布の例
# 500 人抽出, 5% の罹患率, 100 回抽出 x = np.random.binomial(500, 0.05, 100) x.shape # (100,)
plt.hist(x)
plt.grid(True)
- ポアソン分布 : 1平方メートル当たりの樹木の数、単位面積当たりの雨粒の数等、一定の範囲に絞ってその中で発生する事象の確率の分布。
ある一定の時間内(特定範囲内)の店への来客数(来客の発生確率)等。
# ある喫茶店の 14-15 時の来客数。時間当たり 6 人程度と予測して、365 日分 x = np.random.poisson(6, 365) print(x.shape) # (365,) plt.hist(x) plt.grid(True)
- 正規分布 : 平均値を中心に大体対称に近い形状をした分布。テストの点数なんかも多くは平均点を中心に広がるような分布。
# 平均 60, 標準偏差 10, 100 回試行 x = np.random.normal(60, 10, 100) plt.hist(x) plt.grid(True)
x = np.random.lognormal(30, 0.4, 1000) plt.hist(x) plt.grid(True)