1๏ธโฃ ๋จธ์ ๋ฌ๋์ด๋?
โ ์ฉ์ด ์ ๋ฆฌ
- AI: ์ธ๊ณต์ง๋ฅ
- ๋จธ์ ๋ฌ๋: ๊ด์ธก๋ ํจํด์ ๊ธฐ๋ฐ์ผ๋ก ์์ฌ ๊ฒฐ์ ์ ํ๊ธฐ ์ํ ์๊ณ ๋ฆฌ์ฆ
- ๋ฅ๋ฌ๋: ์ธ๊ณต์ ๊ฒฝ๋ง์ ์ด์ฉํ ๋จธ์ ๋ฌ๋
- ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค: AI๋ฅผ ํฌ๊ดํ์ฌ, ํต๊ณํ + ์ปดํจํฐ๊ณตํ์ ๋ฐํ์ผ๋ก ๋ฐ์ ํ ์ตํฉํ๋ฌธ
- ๋ฐ์ดํฐ ๋ถ์: ๋ฐ์ดํฐ ์ง๊ณ, ํต๊ณ ๋ถ์, ๋จธ์ ๋ฌ๋์ ํฌํจํ ์์
โ ์ข ๋ฅ
โ ์ ์ฉ ๋ถ์ผ
- ๊ธ์ต: ์ ์ฉํ๊ฐ, ์ฌ๊ธฐํ์ง, ์ฃผ์ ์์ธก
- ํฌ์ค์ผ์ด: ์ง๋ณ ์์ธก, ํ์ ๋ฐ์ดํฐ ๋ถ์
- ์ด์ปค๋จธ์ค: ๊ณ ๊ฐ ๊ตฌ๋งค ํจํด ๋ถ์, ์ถ์ฒ ์์คํ , ๊ฐ๊ฒฉ ์ต์ ํ, ์ฅ๋ฐ๊ตฌ๋ ๋ถ์
- ์์ฐ์ด์ฒ๋ฆฌ: ๋ฒ์ญ, ์ฑ๋ด, ํ ์คํธ๋ถ์
- ์ด๋ฏธ์ง & ์์์ฒ๋ฆฌ: ์ผ๊ตด์ธ์, ์ด๋ฏธ์ง ์์ฑ
2๏ธโฃ ์ ํํ๊ท
์ข ์ ๋ณ์ $Y$์ ํ ๊ฐ ์ด์์ ๋ ๋ฆฝ ๋ณ์ (๋๋ ์ค๋ช ๋ณ์) $X$์์ ์ ํ ์๊ด ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ๋ ํ๊ท๋ถ์ ๊ธฐ๋ฒ
์ ํ ํ๊ท - ์ํค๋ฐฑ๊ณผ, ์ฐ๋ฆฌ ๋ชจ๋์ ๋ฐฑ๊ณผ์ฌ์
์ํค๋ฐฑ๊ณผ, ์ฐ๋ฆฌ ๋ชจ๋์ ๋ฐฑ๊ณผ์ฌ์ . ๋ ๋ฆฝ๋ณ์ 1๊ฐ์ ์ข ์๋ณ์ 1๊ฐ๋ฅผ ๊ฐ์ง ์ ํ ํ๊ท์ ์ ํต๊ณํ์์ ์ ํ ํ๊ท(็ทๅๅๆญธ, ์์ด: linear regression)๋ ์ข ์ ๋ณ์ y์ ํ ๊ฐ ์ด์์ ๋ ๋ฆฝ ๋ณ์ (๋๋ ์ค๋ช
ko.wikipedia.org
โ ์ ํํ๊ท ๊ฐ์
์ ํ์ฑ (Linearity)
์ข ์ ๋ณ์(Y)์ ๋ ๋ฆฝ ๋ณ์(X) ๊ฐ์ ์ ํ ๊ด๊ณ๊ฐ ์กด์ฌํด์ผ ํจ
๋ฑ๋ถ์ฐ์ฑ
์ค์ฐจ์ ๋ถ์ฐ์ด ๋ชจ๋ ์์ค์ ๋ ๋ฆฝ ๋ณ์์ ๋ํด ์ผ์ ํด์ผ ํจ
์ ๊ท์ฑ (Normality)
์ค์ฐจ ํญ์ ์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ผ์ผ ํจ
๋ ๋ฆฝ์ฑ (Independence)
X ๋ณ์๋ ์๋ก ๋ ๋ฆฝ์ ์ด์ด์ผ ํจ
โ ์ฌ๊ธฐ์ ์ ๊น - ๋ค์ค๊ณต์ฐ์ฑ ๋ฌธ์
ํ๊ท๋ถ์์์ ๋ ๋ฆฝ๋ณ์(X)๊ฐ์ ๊ฐํ ์๊ด๊ด๊ณ๊ฐ ๋ํ๋๋ ๊ฒ
ex) ํค, ์ฒด์ค์ผ๋ก ๋ค๋ฅธ ๋ฐ ์ฌ์ด์ฆ๋ฅผ ์์ธกํ๋ค๋ฉด, ํค์ ์ฒด์ค์ ์๋ก ์ฐ๊ด์๋ ๋ณ์์ด๊ธฐ ๋๋ฌธ์ ๋ค์ค๊ณต์ ์ฑ ๋ฌธ์ ๊ฐ ์๊น
โก๏ธ ํด๊ฒฐ ๋ฐฉ๋ฒ
1. ์๋ก ์๊ด๊ด๊ณ๊ฐ ๋์ ๋ณ์ ์ค ํ๋๋ง ์ ํ(์ฐ์ ๋ ํน์ ์๊ด๊ด๊ณ ํ๋ ฌ)
2. ๋ ๋ณ์๋ฅผ ๋์์ ์ค๋ช ํ๋ ์ฐจ์์ถ์(Principle Component Analysis, PCA) ์คํํ์ฌ ๋ณ์ 1๊ฐ๋ก ์ถ์
โ ์ฉ์ด ์ ๋ฆฌ
- ๊ณตํต
- $Y$: ์ข ์ ๋ณ์, ๊ฒฐ๊ณผ ๋ณ์ (=์๊ณ ์ถ์ ๊ฐ)
- $X$: ๋ ๋ฆฝ ๋ณ์, ์์ธ ๋ณ์, ์ค๋ช ๋ณ์
- ํต๊ณํ์์ ์ฌ์ฉํ๋ ์ ํํ๊ท ์
- $\beta_0$: ํธํฅ(Bias)
- $\beta_1$: ํ๊ท ๊ณ์
- $\varepsilon$: ์ค์ฐจ(์๋ฌ), ๋ชจ๋ธ์ด ์ค๋ช ํ์ง ๋ชปํ๋ Y์ ๋ณ๋์ฑ
$$ Y = \beta_0 + \beta_1X + \varepsilon $$
- ๋จธ์ ๋ฌ๋/๋ฅ๋ฌ๋์์ ์ฌ์ฉํ๋ ์ ํํ๊ท ์
- $w$: ๊ฐ์ค์น
- b: ํธํฅ(Bias)
$$ Y = wX + b $$
โก๏ธ ๋ ์ ๋ชจ๋ ํ๊ท๊ณ์ ํน์ ๊ฐ์ค์น๋ฅผ ๊ฐ์ ์๋ฉด, $X$๊ฐ ์ฃผ์ด์ก์ ๋ $Y$๋ฅผ ์ ์ ์์์ ์๋ฏธ
โ ์ฌ๊ธฐ์ ์ ๊น - ๊ฐ์ค์น
๊ฐ์ค์น($w$)๋ฅผ ์๊ฒ ๋๋ฉด $X$๊ฐ์ ๋ํ์ฌ $Y$๊ฐ์ ์์ธกํ ์ ์์, ๊ทธ๋ผ ๊ฐ์ค์น๋ ์ด๋ป๊ฒ ๊ตฌํ๋๊ฐ?
โก๏ธ ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ ์๋ค๋ฉด ๊ฐ์ค์น๋ฅผ '์ถ์ 'ํ ์ ์์ (๋จธ์ ๋ฌ๋์ ๊ดํตํ๋ ๋ถ์ ๋์)
โ ์ฌ๊ธฐ์ ์ ๊น - ํ๊ท vs ๋ถ๋ฅ
ํ๊ท: ์ซ์($y$) ๋ง์ถ๊ธฐ
๋ถ๋ฅ: ๋ฒ์ฃผ(ex. $y=0$, $y=1$) ๋ง์ถ๊ธฐ
3๏ธโฃ ํ๊ท๋ถ์ ํ๊ฐ ์งํ
โ MSE (Mean Squared Error)
$$MSE = \frac{\sum\limits_{i=1}^n (y_i - \hat{y_i})^2}{n}$$
- ์๋ฌ ์ ์๋ฐฉ๋ฒ
- ์ ์) ์๋ฌ = ์ค์ ๋ฐ์ดํฐ - ์์ธก ๋ฐ์ดํฐ โก๏ธ $\varepsilon = y_i - \hat{y_i}$
- ์๋ฌ๋ฅผ ์ ๊ณฑํ์ฌ ๋ชจ๋ ์์๋ก ๋ง๋ค๊ธฐ, ๋ค ํฉ์น๊ธฐ โก๏ธ $\sum\limits_{i=1}^n (y_i - \hat{y_i})^2$
- ๋ฐ์ดํฐ๋งํผ ๋๋๊ธฐ โก๏ธ $\frac{\sum\limits_{i=1}^n (y_i - \hat{y_i})^2}{n}$
โ ๊ธฐํ ํ๊ฐ ์งํ
- RMSE: MSE์ Root๋ฅผ ์์ ์ ๊ณฑ ๋ ๋จ์๋ฅผ ๋ค์ ๋ง์ถ๊ธฐ
$$RMSE = \sqrt{\frac{\sum\limits_{i=1}^n (y_i - \hat{y_i})^2}{n}}$$
- MAE: ์ ๋๊ฐ์ ์ด์ฉํ์ฌ ์ค์ฐจ ๊ณ์ฐํ๊ธฐ
$$MAE = \frac{1}{n}\sum\limits_{i=1}^n{\left\vert y_i - \hat{y_i} \right\vert}$$
4๏ธโฃ ์ ํํ๊ท๋ง์ ํ๊ฐ ์งํ: R Square
์ ์ฒด ๋ชจํ์์ ํ๊ท์ ์ผ๋ก ์ค๋ช ํ ์ ์๋ ์ ๋
โ ์ฉ์ด ์ ๋ฆฌ
- $y_{i}$: ํน์ ๋ฐ์ดํฐ์ ์ค์ ๊ฐ
- $\bar{y}$: ํ๊ท ๊ฐ
- $\hat{y}$: ์์ธก, ์ถ์ ํ ๊ฐ
$$R^2 = \frac{SSR}{SST} = \frac{SSR}{SSR+SSE}$$
5๏ธโฃ ๋ค์ค์ ํํ๊ท
๋ค์์ $X$๋ก๋ถํฐ $Y$๋ฅผ ์์ธก
โ ์์นํ ๋ฐ์ดํฐ vs ๋ฒ์ฃผํ ๋ฐ์ดํฐ
6๏ธโฃ ์์ฝ
- ์ฅ์
- ์ง๊ด์ ์ด๋ฉฐ ์ดํดํ๊ธฐ ์ฝ๋ค. X-Y๊ด๊ณ๋ฅผ ์ ๋ํ ํ ์ ์๋ค.
- ๋ชจ๋ธ์ด ๋น ๋ฅด๊ฒ ํ์ต๋๋ค(=๊ฐ์ค์น ๊ณ์ฐ์ด ๋น ๋ฅด๋ค).
- ๋จ์
- X-Y๊ฐ์ ์ ํ์ฑ ๊ฐ์ ์ด ํ์ํ๋ค.
- ํ๊ฐ์งํ๊ฐ ํ๊ท (mean)ํฌํจ ํ๊ธฐ์ ์ด์์น์ ๋ฏผ๊ฐํ๋ค.
- ๋ฒ์ฃผํ ๋ณ์๋ฅผ ์ธ์ฝ๋ฉ์ ์ ๋ณด ์์ค์ด ์ผ์ด๋๋ค.
- Python ํจํค์ง
- sklearn.linear_model.LinearRegression
'๐ ํต๊ณํ & ๋จธ์ ๋ฌ๋ ๊ธฐ๋ก' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
240202 FRI ๋จธ์ ๋ฌ๋ ๊ธฐ์ด ์ค์ต (0) | 2024.02.03 |
---|---|
240201 THU ๋จธ์ ๋ฌ๋ ๊ธฐ์ด - ๋ก์ง์คํฑํ๊ท (0) | 2024.02.01 |
240124 WED ํต๊ณํ ๊ธฐ์ด 4/4 (1) | 2024.01.24 |
240123 TUE ํต๊ณํ ๊ธฐ์ด 3/4 (1) | 2024.01.23 |
240123 TUE ํต๊ณํ ๊ธฐ์ด 2/4 (1) | 2024.01.23 |