1๏ธโฃ ๋ก์ง์คํฑํ๊ท
๋ ๋ฆฝ ๋ณ์์ ์ ํ ๊ฒฐํฉ์ ์ด์ฉํ์ฌ ์ฌ๊ฑด์ ๋ฐ์ ๊ฐ๋ฅ์ฑ(ํ๋ฅ )์ ์์ธกํ๋ ๋ฐ ์ฌ์ฉ๋๋ ํต๊ณ ๊ธฐ๋ฒ
๋ก์ง์คํฑ ํ๊ท - ์ํค๋ฐฑ๊ณผ, ์ฐ๋ฆฌ ๋ชจ๋์ ๋ฐฑ๊ณผ์ฌ์
์ํค๋ฐฑ๊ณผ, ์ฐ๋ฆฌ ๋ชจ๋์ ๋ฐฑ๊ณผ์ฌ์ . ๋ก์ง์คํฑ ํ๊ท(์์ด: logistic regression)๋ ์๊ตญ์ ํต๊ณํ์์ธ D. R. Cox๊ฐ 1958๋ [1]์ ์ ์ํ ํ๋ฅ ๋ชจ๋ธ๋ก์ ๋ ๋ฆฝ ๋ณ์์ ์ ํ ๊ฒฐํฉ์ ์ด์ฉํ์ฌ ์ฌ๊ฑด์ ๋ฐ์ ๊ฐ๋ฅ์ฑ์
ko.wikipedia.org
โ ๋ฒ์ฃผํ $Y$์์ ์ ํํจ์์ ํ๊ณ
$X$๊ฐ ์ฐ์ํ ๋ณ์, $Y$๊ฐ ํน์ ๊ฐ์ด ๋ ํ๋ฅ
โก๏ธ ์ ํํ๊ท๋ก ์ค๋ช ํ๊ธฐ ์ด๋ ค์
โก๏ธ ํ๋ฅ ์ 0๊ณผ 1 ์ฌ์ด์ธ๋ฐ, ์์ธก ๊ฐ์ด ํ๋ฅ ๋ฒ์๋ฅผ ๋์ด๊ฐ ์ ์๊ธฐ ๋๋ฌธ
โ ๋ก์ง w. ์ค์ฆ๋น(Odds ratio)
์ค์ฆ๋น: A์ B ์ฌ์ด์ ์ฐ๊ด์ฑ์ ๊ฐ๋, B๊ฐ ์์ ๋ A์ ์น์ฐ๊ณผ B๊ฐ ์์ ๋ A์ ์น์ฐ์ ๋น์จ
ex) ๋๋ฐ์ด ์ฑ๊ณตํ ํ๋ฅ ์ด 80%๋ผ๋ฉด, ์ค์ฆ๋น๋ 80%/20% = 4 โก๏ธ 1๋ฒ ์คํจํ๋ฉด 4๋ฒ์ ์ฑ๊ณต
Odds ratio - Wikipedia
From Wikipedia, the free encyclopedia Statistic quantifying the association between two events An odds ratio (OR) is a statistic that quantifies the strength of the association between two events, A and B. The odds ratio is defined as the ratio of the odds
en.wikipedia.org
$$odds\ ratio) = \frac{P}{1-P}$$
โ P๋ 0๊ณผ 1 ์ฌ์ด์ ํ๋ฅ ๊ฐ์ธ๋ฐ, P๊ฐ ์ฆ๊ฐํ ์๋ก ์ค์ฆ๋น๊ฐ ๊ธ๊ฒฉํ๊ฒ ์ฆ๊ฐํ์ฌ ์ ํ์ฑ์ ๋ฐ๋ฅด์ง ์๊ฒ ๋จ
โก๏ธ ๋ก๊ทธ๋ฅผ ์์ ์ํ = ๋ก์ง(Logit)
์ด๋ค ๊ฐ์ ๊ฐ์ ธ์ค๋๋ผ๋ ๋ฐ๋์ ํน์ ์ฌ๊ฑด์ด ์ผ์ด๋ ํ๋ฅ (Y๊ฐ์ด ํน์ ๊ฐ์ผ ํ๋ฅ )์ด 0๊ณผ 1์์ผ๋ก ๋ค์ด์ค๊ฒ ํจ
$$Logit = \log(\frac{P}{1-P})$$
โ ๋ก์ง์คํฑํจ์
$$Logit = \log(\frac{P}{1-P})$$
โก๏ธ P์ ๋ํด ์ ๋ฆฌ
$$P = \frac{1}{1+e^{-Logit}}$$
โก๏ธ ๋ก์ง๊ณผ ๊ธฐ์กด ์ ํํ๊ท์ ์ฐ๋ณ์ ํฉ์น๊ธฐ
$$log(\frac{P}{1-P}) = w_0+w_1X$$
โก๏ธ ์๋ณ์ ์์ฐ์ง์ $e$ ์ทจํ๊ธฐ
$$\frac{P}{1-P} = e^{w_{0} + w_{1}X}$$
= $X$๊ฐ์ด $w_1$๋งํผ ์ฆ๊ฐํ๋ฉด, ์ค์ฆ๋น๋ $e^{w_1}$๋งํผ ์ฆ๊ฐํ๋ค.
โ ์ ๋ฆฌ
๋ก์ง์คํฑ ํจ์๋ ๊ฐ์ค์น ๊ฐ์ ์๋ค๋ฉด $X$๊ฐ์ด ์ฃผ์ด์ก์ ๋ ํด๋น ์ฌ๊ฑด์ด ์ผ์ด๋ ํ๋ฅ $P$๋ฅผ ๊ณ์ฐํ ์ ์์
ํ๋ฅ 0.5๋ฅผ ๊ธฐ์ค์ผ๋ก,
- 0.5๋ณด๋ค ๋์ผ๋ฉด ์ฌ๊ฑด์ด ์ผ์ด๋จ โก๏ธ $P(Y) = 1$
- 0.5๋ณด๋ค ๋ฎ์ผ๋ฉด ์ฌ๊ฑด์ด ์ผ์ด๋์ง ์์ โก๏ธ $P(Y) = 0$
ํ๋จํ์ฌ ๋ถ๋ฅ ์์ธก์ ์ฌ์ฉ
2๏ธโฃ ๋ถ๋ฅ ํ๊ฐ ์งํ
โ ํผ๋ ํ๋ ฌ (confusion Mix)
์ค์ ๊ฐ๊ณผ ์์ธก ๊ฐ์ ๋ํ ๋ชจ๋ ๊ฒฝ์ฐ์ ์๋ฅผ ํํํ 2x2 ํ๋ ฌ
- ํ๊ธฐ๋ฒ
- ์ค์ ์ ์์ธก์ด ๊ฐ์ผ๋ฉด True / ๋ค๋ฅด๋ฉด False
- ์์ธก์ ์์ฑ์ผ๋ก ํ์ผ๋ฉด Positive / ์์ฑ์ผ๋ก ํ์ผ๋ฉด Negative
- ํด์
- TP: ์ค์ ๋ก ์์ธก๊ณผ ๊ฐ์ผ๋ฉด์, ์์ฑ์ผ๋ก ์ฌ๋ฐ๋ฅด๊ฒ ๋ถ๋ฅ๋ ์
- FP: ์ค์ ๋ก ์์ธก๊ณผ ๋ค๋ฅด์ง๋ง, ์์ฑ์ผ๋ก ์๋ชป ๋ถ๋ฅ๋ ์
- FN: ์ค์ ๋ก ์์ธก๊ณผ ๋ค๋ฅด์ง๋ง, ์์ฑ์ผ๋ก ์๋ชป ๋ถ๋ฅ๋ ์
- TN: ์ค์ ๋ก ์์ธก๊ณผ ๊ฐ์ผ๋ฉด์, ์์ฑ์ผ๋ก ์ฌ๋ฐ๋ฅด๊ฒ ๋ถ๋ฅ๋ ์
- ์งํ
1. ์ ๋ฐ๋(Precision): ๋ชจ๋ธ์ด ์์ฑ 1๋ก ์์ธกํ ๊ฒฐ๊ณผ ์ค ์ค์ ์์ฑ์ ๋น์จ(๋ชจ๋ธ์ ๊ด์ )
$$์ ๋ฐ๋(precision) = \frac{TP}{TP+FP}$$
2. ์ฌํ์จ(Recall): ์ค์ ๊ฐ์ด ์์ฑ์ธ ๋ฐ์ดํฐ ์ค ๋ชจ๋ธ์ด ์์ฑ์ผ๋ก ์์ธกํ ๋น์จ(๋ฐ์ดํฐ์ ๊ด์ )
$$์ฌํ์จ(Recall) = \frac{TP}{TP+FN}$$
3. f1-Score: ์ ๋ฐ๋์ ์ฌํ์จ์ ์กฐํ ํ๊ท
$$f1-score = 2*\frac{์ ๋ฐ๋*์ฌํ์จ}{์ ๋ฐ๋+์ฌํ์จ}$$
4. ์ ํ๋(Accuracy)
$$์ ํ๋(Accuracy) = \frac{TP+TN}{TP+TN+FP+FN}$$
3๏ธโฃ ๋ค์ค ๋ก์ง์คํฑํ๊ท
-
4๏ธโฃ ์์ฝ
๋ก์ง์คํฑํ๊ท๋ ์ ํํ๊ท์ ์์ด๋์ด์์ ์ข ์ ๋ณ์($Y$)๋ง ๊ฐ๊ณตํ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ์ฅ,๋จ์ ์ ๋๊ฐ์ด ๊ฐ์ ธ๊ฐ
- ์ฅ์ : ์ง๊ด์ ์ด๋ฉฐ ์ดํดํ๊ธฐ ์ฝ๋ค.
- ๋จ์ : ๋ณต์กํ ๋น์ ํ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋ง ํ๊ธฐ ์ด๋ ค์ธ ์ ์์
- Python ํจํค์ง: sklearn.linear_model.LogisticRegresson
5๏ธโฃ ๋จธ์ ๋ฌ๋ ๊ธฐ์ด ๋ง๋ฌด๋ฆฌ
โ ์ ํํ๊ท vs ๋ก์ง์คํฑํ๊ท
์ ํํ๊ท(ํ๊ท) |
๋ก์ง์คํฑํ๊ท(๋ถ๋ฅ)
|
||
๊ณตํต์
|
๋ชจ๋ธ ์์ฑ์ด ์ฌ์ | ||
๊ฐ์ค์น(ํน์ ํ๊ท๊ณ์)๋ฅผ ํตํ ํด์์ด ์ฌ์ | |||
X๋ณ์์ ๋ฒ์ฃผํ, ์์นํ ๋ณ์ ๋ ๋ค ์ฌ์ฉ ๊ฐ๋ฅ | |||
์ฐจ์ด์
|
Y(์ข ์๋ณ์) | ์์นํ | ๋ฒ์ฃผํ |
ํ๊ฐ์ฒ๋ | Mean Square Error R Square(์ ํ ํ๊ท๋ง) |
Accuracy
F1 - score |
|
sklearn ๋ชจ๋ธ ํด๋์ค |
sklearn.linear_model.linearRegression |
sklearn.linear_model.LogistricRegression
|
|
sklearn ํ๊ฐ ํด๋์ค |
sklearn.metrics.mean_squared_error skelarn.metrics.r2_score |
sklearn.metrics.accuracy_score
skelearn.metrics.f1_score |
โ ๋ฐ์ดํฐ ๋ถ์ ํ๋ก์ธ์ค
'๐ ํต๊ณํ & ๋จธ์ ๋ฌ๋ ๊ธฐ๋ก' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
240205 MON ๋จธ์ ๋ฌ๋ ์ฌํ - ๋ฐ์ดํฐ ๋ถ์ ํ๋ก์ธ์ค (1) | 2024.02.05 |
---|---|
240202 FRI ๋จธ์ ๋ฌ๋ ๊ธฐ์ด ์ค์ต (0) | 2024.02.03 |
240131 WED ๋จธ์ ๋ฌ๋ ๊ธฐ์ด - ์ ํํ๊ท (0) | 2024.01.31 |
240124 WED ํต๊ณํ ๊ธฐ์ด 4/4 (1) | 2024.01.24 |
240123 TUE ํต๊ณํ ๊ธฐ์ด 3/4 (1) | 2024.01.23 |