240123 TUE ํต๊ณํ ๊ธฐ์ด 2/4
1๏ธโฃ ํ๊ท (Average, Mean)
๋ฐ์ดํฐ ์งํฉ์ ๊ฐ์ฅ ์ ๋ํ๋ด๋ ๋จ์ผ ์ซ์/๊ฐ
๋ค์ํ ํ๊ท ์ด ์๊ณ , ๊ฐ ํ๊ท ์ ํ์์ ๋ฐ๋ผ ์ฌ์ฉ๋จ
์ผ๋ฐ์ ์ผ๋ก ์๊ฐํ๋ ํ๊ท ์ '์ฐ์ ํ๊ท ':
2๏ธโฃ ์๋, ์ด์์น
โ ์๋ (Skewness)
ํน์ ํ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ดํฐ๊ฐ ํธํฅ๋ ๊ฒ
๊ผฌ๋ฆฌ(tail)๋ฅผ ๋น๊ธด ๊ฒ์ฒ๋ผ ์๊ฒผ๋ค๊ณ ํํ
์๋๊ฐ ์์ผ๋ฉด ํ๊ท ์ด ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๋ํํ์ง ๋ชปํจ
โ ์ด์์น (Outlier)
๋ค๋ฅธ ๊ด์ธก์น์ ์ ์ํ๊ฒ ๋ค๋ฅธ ๋ฐ์ดํฐ
'์ ์ํ๋ค'์ ์๋ฏธ๊ฐ ๋ชจํธํ ์ ์์ด, ์ด์์น ๋ถ๋ฅ๋ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ๋งค ๋ค๋ฆ
์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ๋ก : IQR, 2~3 ํ์คํธ์ฐจ
์ ์ฒด ๊ฒฝํฅ์ ๋ณผ ๋ ์ผ๋ฐ์ ์ผ๋ก ์ ๊ฑฐํด์ผ ํ์ง๋ง, ๊ฒฝ์ฐ/์ฐ์ ์ ๋ฐ๋ผ ์ง์คํด์ ๋ถ์ํด์ผ ํ ๋๋ ์์
3๏ธโฃ ๋ค์ํ ํ๊ท
โ ๋ํฏ๊ฐ: 3M
์ฐ์ ํ๊ท | ์ค์๊ฐ | ์ต๋น๊ฐ |
๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ํ ๋ค ์ ์ฒด ๋ฐ์ดํฐ ์๋ก ๋๋ | ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฌํ์ฌ ๊ฐ์ด๋ฐ ์๋ ์์น | ๊ฐ์ฅ ๋น๋ฒํ๊ฒ ๋ฑ์ฅํ๋ ๊ด์ธก์น |
์๋์ ์ด์์น์ ์ทจ์ฝ | ์๋์ ์ด์์น์ ๊ฐ์ธ(robust) → ํ๊ท ์ ๋์์ผ๋ก ํ์ฉ | · ๋ฑ์ฅํ๋ ๊ด์ธก์น์ ๊ฐ์ด ๋ค์ํ์ง ์์ ๊ฒฝ์ฐ ํจ๊ณผ์ · ํ๊ท ์ ์๋ฏธ๋ก๋ ์ ํฉํ์ง ์์ผ๋ฏ๋ก, ์ ํ์ ์ผ๋ก ์ฌ์ฉํ ๋ ์ ์ฉ |
โ ํ๊ท 3๋์ฅ (ใ )
ํ๊ท ์ ์ธ๊ธํ ๋ ๊ฐ์ฅ ๋ง์ด ์ธ๊ธ๋๋ 3๊ฐ์ง ํ๊ท
์ง๊ณ์ ๋ถํ ์ ์ฐ์ฐ ํ๋ก์ธ์ค๊ฐ ๊ฐ๊ธฐ ๋ค๋ฆ
ํต๊ณ/ML์์๋ ๋ง์ด ์ฐ์ด์ง๋ ์์
์ฐ์ ํ๊ท | ๊ธฐํํ๊ท | ์กฐํํ๊ท ๊ฐ |
๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ํ ๋ค ์ ์ฒด ๋ฐ์ดํฐ ์๋ก ๋๋ | ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๊ณฑํ ๋ค ์ ์ฒด ๋ฐ์ดํฐ์ ์๋ก ์ ๊ณฑ๊ทผ์ ์ทจํด์ค ๊ฒ | ์ญ์๋ฅผ ํฉํ ๋ค, ๋ค์ ์ญ์๋ฅผ ์ทจํ ๊ฒ |
ex. F1-score |
โ ๊ธฐํ ํ๊ท
์ค์ ๋ก ๊ต์ฅํ ๋ง์ด ์ฐ์ด๋ฉฐ ์ ์ฉํจ
๋ก๊ทธํ๊ท | ์ ์ญํ๊ท |
๊ฐ ๊ด์ธก์น๋ฅผ ๋ก๊ทธ ๋ณํํ ๋ค ์ฐ์ ํ๊ท ์ ์ง๊ณ | ์/ํ์ ๋ฐ์ดํฐ๋ฅผ ์ผ๋ถ(k%) ์ ๊ฑฐํ ๋ค ์ฐ์ ํ๊ท ์ ๊ตฌํจ |
์ด์์น์ ์๋์ ๊ฐ๊ฑดํจ | ๊ทน๋จ์ ์ธ ๊ฐ๋ค์ ์ ๊ฑฐํ์์ผ๋ฏ๋ก ์ด์์น์ ๊ฐ๊ฑด, ์๋์๋ ์ฌ์ ํ ์ทจ์ฝ |
๋ก๊ทธ ๋ณํ์ผ๋ก ์ธํด ๊ฒฐ๊ณผ๊ฐ์ ๋ํ ์ง์ ์ ์ธ ํด์์ด ์ด๋ ค์, ์๋์ ์ธ ๋น๊ต์ ์ ์ฉ |
๋ณํ์ด ์๊ธฐ ๋๋ฌธ์ ๊ฒฐ๊ณผ๊ฐ์ ๋ํ ์ง์ ์ ์ธ ํด์์ด ๊ฐ๋ฅ |
โ ์ฐธ๊ณ : ์๋น๊ณค ํธ์ ์ด์ผ๊ธฐ
์๋น๊ณคํธ์ ํจ๊ณผ: ๋ด๊ฐ ์ ์ผ ์๋๊ฐ, ๋๋ ๋ญ ํ๊ท ์ ๋
์๋น๊ณคํธ์ ํจ๊ณผ, ๊ธฐ๋ง์ ์ฐ์๊ฐ ํจ๊ณผ, ๊ณผ์ ์ค๋ฅ, ์ค๋งํ ๋ฐ๋ณด ๋ฑ ์ธ์ง์ ํธํฅ์ ๋ถ๋ฅด๋ ์ด๋ฆ์ ๋ค์ํฉ๋๋ค. ํ ๋ง๋๋ก ์์ ์ ํ๊ท ์ด์์ด๋ผ๊ณ ๋ณด๋๋ฐ ๋นํด ๋จ๋ค์ ํ๊ท ์ ๋๋ผ๊ณ ๋ณธ๋ค๋ ๊ฑฐ์ฃ .
news.sap.com
4๏ธโฃ ํ๊ท ์ ํต๊ณ์ ํ์ฉ
ํ๊ท ๊ฐ์ ์ผ๋ง๋ ์ ๋ขฐํ ์ ์๋์ง ๊ฒ์ฌ
์ฌ๋ฌ ํ๊ท ๊ฐ์ ๋น๊ตํ๊ฑฐ๋, ํน์ ๊ฐ๋ณด๋ค ํฐ์ง ๊ฒ์ฌ
ํต๊ณ์์ ํ๊ท ์ ๋น๊ต์ ๋ค๋ฃจ๊ธฐ ์ฌ์ด ์ด์ → ์ค์ฌ ๊ทนํ ์ ๋ฆฌ
โ ์ฌ๊ธฐ์ ์ ๊น - ํ๋ฅ ๋ถํฌ (Probability Distribution)
์ค์ ๋ก ์์ฃผ ๋ณผ ์ ์๋ ์ผ๋ถ ํ๋ฅ ์ ์ผ์ด์ค๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ ๊ฒ
ex. ๋ฒ ๋ฅด๋์ด ๋ถํฌ, ์ดํญ ๋ถํฌ, ์ ๊ท ๋ถํฌ
โ ์ค์ฌ ๊ทนํ ์ ๋ฆฌ (Central Limit Theorem)
๋ ๋ฆฝ์ ์ด๊ณ ๋์ผํ ๋ถํฌ๋ฅผ ๊ฐ๋(iid) ํ๋ฅ ๋ณ์์ ๊ฒฝ์ฐ,
์๋ ๋ฐ์ดํฐ์ ๋ถํฌ๊ฐ ๋ฌด์์ด๋ , ํ๋ณธ ํ๊ท ์ ๋ถํฌ๊ฐ ์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค.
๐ฐ ํ๋ณธ์ ๋ถํฌ์ ๋ฌด๊ดํ๊ฒ ํ๋ณธ ํ๊ท ์ ๋ถํฌ๊ฐ ์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค.
โก๏ธ ์ ๊ท ๋ถํฌ๋ฅผ ์ด์ฉํ๋ฉด ์๋์ ๋ถํฌ์ ์๊ด ์์ด ํ๊ท ์ ๋ํ ํต๊ณ ๋ชจ๋ธ์ ๋ง๋ค ์ ์๋ค.
โ ์ฌ๊ธฐ์ ์ ๊น - iid ์กฐ๊ฑด
iid = ๋ ๋ฆฝ์ (independent)์ด๋ฉฐ ๋์ผํ๊ฒ(identically) ๋ถํฌ(distributed)ํจ
๋ ๋ฆฝ์ = ๊ฐ๊ฐ์ ๊ฐ๋ณ ๊ด์ธก์น ์ฌ์ด์ ์ฐ์์ฑ์ด ์กด์ฌํ์ง ์์
๋์ผํ๊ฒ ๋ถํฌํจ = ๋ถํฌ์ ํํ ๋ฟ ์๋๋ผ ๋ชจ์๋ ๊ฐ์
์ด์์น์ ์ฌํ ์๋๋ iid๋ฅผ ์๊ณกํ๊ธฐ ๋๋ฌธ์, CLT๊ฐ ์ด๊ธ๋จ
โ ์ฌ๊ธฐ์ ์ ๊น - ์๋ ด์ ์๋
CLT = ํ๋ณธ ํ๊ท ์ ๋ถํฌ๊ฐ ์ ๊ท๋ถํฌ๋ก ์๋ ด(Conversion)ํจ
์ด๋ค ๋ฐ์ดํฐ๋ ๋ ๋น ๋ฅด๊ฒ(=๋ ์ ์ ๋ฐ์ดํฐ๋ก) ์๋ ดํ๋ ๋ฐ๋ฉด,
์ด๋ค ๋ฐ์ดํฐ๋ ๊ต์ฅํ ๋๋ฆฌ๊ฒ(=ํจ์ฌ ๋ง์ ๋ฐ์ดํฐ๋ก) ์๋ ดํจ
โ t-๋ถํฌ
CLT์ ์ฝ๊ฐ์ ์ฌ์ (๋ถํฌ๋ฅผ ๋๊ฒ)๋ฅผ ์คฌ๋ค๊ณ ์๊ฐํ๊ธฐ…
๋ถ์ฐ์ ๋์ฒดํ๊ธฐ ์ํ '์์ ๋'๋ผ๋ ๋ชจ์๊ฐ ์์ผ๋ฉฐ, ์ด๋ ๋ฐ์ดํฐ์ ์์ ์ฐ๊ด ์์
1. ํ๊ท ์ ์ถ์ ํ๊ณ ์ถ์๋ฐ ๋ถ์ฐ๋ ๋ชจ๋ฅผ ๊ฒฝ์ฐ
2. CLT๊ฐ ๋ง์กฑ๋ ๋งํผ ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ์ง ์์ ๊ฒฝ์ฐ
โก๏ธ t-๋ถํฌ ์ฌ์ฉ
5๏ธโฃ ํต๊ณ์ ๊ฐ์ค ๊ฒ์
์ฃผ์ด์ง ์๋ฃ๊ฐ ํน์ ๊ฐ์ค์ ์ถฉ๋ถํ ๋ท๋ฐ์นจํ๋์ง ์ฌ๋ถ๋ฅผ ๊ฒฐ์ ํ๋ ํต๊ณ์ ์ถ๋ก ๋ฐฉ๋ฒ
ex) A/B ํ ์คํธ๋ก ๋ ์ง๋จ์ ๋งค์ถ ๋น๊ต, ์ธ๊ทธ๋จผํธ์ ๋ฐ๋ฅธ ํน์ฑ ์ฐจ์ด, ๋ ์ง๋จ์ ์ํ์ ํจ๊ณผ ์ฐจ์ด ๋ฑ
โ ๊ตฌ๋ถ
๊ท๋ฌด ๊ฐ์ค (Null Hypothesis) |
๋๋ฆฝ ๊ฐ์ค (Alternative Hypothesis) |
์ฒ์๋ถํฐ ๋ฒ๋ฆด ๊ฒ์ ์์ํ๋ ๊ฐ์ค ์ฐจ์ด๊ฐ ์๊ฑฐ๋ ์๋ฏธ์๋ ์ฐจ์ด๊ฐ ์๋ ๊ฒฝ์ฐ์ ๊ฐ์ค ์ด๊ฒ์ด ๋ง๊ฑฐ๋ ๋ง์ง ์๋ค๋ ํต๊ณํ์ ์ฆ๊ฑฐ๋ฅผ ํตํด ์ฆ๋ช ํ๋ ค๋ ๊ฐ์ค |
๊ท๋ฌด ๊ฐ์ค์ ๋๋ฆฝํ๋ ๋ช
์ ์๋กญ๊ฒ ์ ์ฆํ๊ณ ์ ํ๋ ๊ฒ |
๐ฃ๏ธ A๋ฅผ ์ด์ฉํ๋ ์ ์ ๋ค์ 1ํ ์ํ ๊ตฌ๋งค๋์ ์ฃผ์ค/์ฃผ๋ง ์ฐจ์ด๊ฐ ์์ ๊ฒ์ด๋ค. | ๐ฃ๏ธ A๋ฅผ ์ด์ฉํ๋ ์ ์ ๋ค์ 1ํ ์ํ ๊ตฌ๋งค๋์ ์ฃผ์ค/์ฃผ๋ง ์ฐจ์ด๊ฐ ์์ ๊ฒ์ด๋ค. |
โ ๊ฐ์ค์ ๊ฒ์
- ํต๊ณ๋ (Statistics) ์์ฑ
- ํต๊ณ๋์ ํน์ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ฏ๋ก ๊ด๋ จ ํ๋ฅ ์ ๊ตฌํ ์ ์์
- ex) 1ํ ์ํ ๊ตฌ๋งค๋ ํ๊ท : A ์ง๋จ x1, B ์ง๋จ x2
- ํต๊ณ๋์ด ๋ฐ๋ฅด๋ ๋ถํฌ ํ์ธ
- ๊ฒ์ ์ ์ํ ํ๋์ ๊ฒ์ ํต๊ณ๋ (Test Statistic) ์์ฑ
โ ์ฌ๊ธฐ์ ์ ๊น - ๊ฒ์ ํต๊ณ๋๊ณผ ๊ฐ์ค์ ๊ธฐ๊ฐ
๊ฒ์ ํต๊ณ๋์ด ๊ท๋ฌด๊ฐ์ค์์ ๊ฐ์ ํ ๊ฒ๋ณด๋ค ์ง๋์น๊ฒ ํฌ๊ฑฐ๋ ์์ ๋, ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ ์ ์์
p-value = ์ง๋์น๊ฒ ํฌ๊ฑฐ๋ ์์์ ์ ๋ํํ ๊ฒ
โ ์ฌ๊ธฐ์ ์ ๊น - p-value์ ๊ท๋ฌด๊ฐ์ค
๊ท๋ฌด๊ฐ์ค์ด ์ ํํ๋ค๋ ๊ฐ์ ํ์ ์ค์ ๊ด์ฐฐ๋ ๊ฒฐ๊ณผ๋งํผ ๊ทน๋จ์ ์ธ ๊ฒ์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ํ๋ฅ
์ผ๋ฐ์ ์ผ๋ก p-value๊ฐ ์ฐ๊ตฌ๋ฅผ ์์ํ ๋ ์ธ์ด ๊ธฐ์ค ์์น๋ณด๋ค ์์ผ๋ฉด ๊ท๋ฌด๊ฐ์ค์ด ํ๋ ธ๋ค๊ณ ์ฌ๊น
์ด๋ฌํ ๊ธฐ์ค ์์น = ์ ๋ขฐ ์์ค (Confidence Level)
โ ์ฌ๊ธฐ์ ์ ๊น - ์ ๋ขฐ ์์ค๊ณผ ์ค๋ฅ1์ข ์ค๋ฅ: ๊ท๋ฌด๊ฐ์ค์ด ๋ง์๋๋ฐ ๊ธฐ๊ฐํ๋ ๊ฒ
2์ข ์ค๋ฅ: ๊ท๋ฌด๊ฐ์ค์ด ํ๋ ธ๋๋ฐ ๊ธฐ๊ฐํ์ง ๋ชปํ๋ ๊ฒ
*์ผ๋ฐ์ ์ผ๋ก ํต๊ณํ์ 1์ข ์ค๋ฅ๋ฅผ ๋ ์ค์์ํ์ฌ ์ด๋ฅผ ๊ธฐ์ค์ผ๋ก ์ก๊ณ , 2์ข ์ค๋ฅ๋ฅผ ์ต์ํ
์ ๋ขฐ ์์ค: 1์ข ์ค๋ฅ๊ฐ ๋ฐ์ํ์ง ์์ ๊ฐ๋ฅ์ฑ
์ ์ ์์ค: 1์ข ์ค๋ฅ๊ฐ ๋ฐ์ํ ๊ฐ๋ฅ์ฑ