技術をかじる猫

適当に気になった技術や言語、思ったこと考えた事など。

確率周りの定義

確率周りの定義

  • 確率変数: 確率が割り当てられる変数。サイコロなら $\frac{1}{6}$ の確率が確率変数(1-6 で変動)に割り当てられてると言える。
  • 現実値: 確率変数の取りえる値。サイコロなら 1-6
  • 離散確率変数、連続確率変数: 確率変数の値の範囲が有限数の場合を 離散確率変数 、そうでないときに 連続確率変数 という。

確率分布関数

確率変数 X が実数 x いかになる確率の事。離散確率変数は $F(X)$ で記述し、定義は


F(X) = P(X \leq x) = \sum_{x_i \leq x} p(x_i)

確率密度関数

連続確率変数の場合は、分布関数の導関数を密度関数(確率密度関数)という。


f(x) = \frac{dF(x)}{dx}

平均の確率での表し方

確率変数を X とし、平均(期待値)を $E(X)$ で表すとこんな感じで表す。


E(X) = \sum_x xf(x)

Σ 事象 x × 発生確率 f(x)

と読み替えると分かりやすいか

各種分布

  • 一様分布 : サイコロなどはすべての確率変数が一様に $\frac{1}{6}$ の確率で、このように一様なさまを一様分布という
  • ベルヌーイ分布 : 結果が2択の分布をベルヌーイ分布という。コインとか。尚、二択の結果が出る試行を ベルヌーイ試行 というそうな
  • 二項分布 : ベルヌーイ試行を独立に n 回繰り返したときの成功回数を確率変数とする分布。
    全住民の 5% がある感染症に罹患していて、その住民の中から無作為に 500 人抽出した。この抽出した 500 人のうち、罹患者が紛れ込む人数の分布等。

二項分布の例

# 500 人抽出, 5% の罹患率, 100 回抽出
x = np.random.binomial(500, 0.05, 100)
x.shape  # (100,)
plt.hist(x)
plt.grid(True)

f:id:white-azalea:20210819235918p:plain

  • ポアソン分布 : 1平方メートル当たりの樹木の数、単位面積当たりの雨粒の数等、一定の範囲に絞ってその中で発生する事象の確率の分布。
    ある一定の時間内(特定範囲内)の店への来客数(来客の発生確率)等。
# ある喫茶店の 14-15 時の来客数。時間当たり 6 人程度と予測して、365 日分
x = np.random.poisson(6, 365)
print(x.shape)  # (365,)

plt.hist(x)
plt.grid(True)

f:id:white-azalea:20210820000035p:plain

  • 正規分布 : 平均値を中心に大体対称に近い形状をした分布。テストの点数なんかも多くは平均点を中心に広がるような分布。
# 平均 60, 標準偏差 10, 100 回試行
x = np.random.normal(60, 10, 100)
plt.hist(x)
plt.grid(True)

f:id:white-azalea:20210820000115p:plain

x = np.random.lognormal(30, 0.4, 1000)
plt.hist(x)
plt.grid(True)

f:id:white-azalea:20210820000219p:plain