ํ์ด์ฌ ๊ฐ์ ์๊ฐ์ ์์ํ๋ค. ๊ทผ๋ฐ ๊ฐ์ ์งํ ๋ฐฉ์์ด ๋ฌด๋ฐ๊ธฐ์ธ ๊ฑด ์ข์๋ฐ ์ค๋ช ์ด ๋๋ฌด ๋ถ์กฑํ ๊ฒ ๊ฐ์์ ์ฝ๊ฐ ๋นํฉ์ค๋ฝ๋ค.
Liked
- ์ค๋๋ง์ ํ์ด์ฌ ์กฐ๋ฌผ์กฐ๋ฌผ ํ ์ .
Lacked
- TIL ์ธ ๋๋ง๋ค ๊ณ์ ์ฐ๋ ๊ฒ ๊ฐ์๋ฐ ์ด๋ก ์ ๋ถ์กฑ…
Learned
1. ๋ฐ์ดํฐ ๋ถ์์ ํ๋ฆ
- ๋ฌธ์ ์ ์ ๋ฐ ๊ฐ์ค ์ค์ ํ๊ธฐ
- ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ๋ณธ ์ธํ ํ๊ธฐ
- ๋ฐ์ดํฐ ๋ถ์ํ๊ธฐ
- ๋ถ์ ๊ฒฐ๊ณผ ์๊ฐํ ํ๊ธฐ
- ์ต์ข
๊ฒฐ๋ก ๋ด๋ฆฌ๊ธฐ
2. ํ์ด์ฌ ๊ธฐ์ด
- ํ์ด์ฌ : ํ๋ก๊ทธ๋๋ฐ ์ธ์ด
- ๋ผ์ด๋ธ๋ฌ๋ฆฌ : ์ํํธ์จ์ด ๊ฐ๋ฐ์ ์ฐ์ด๋ ํ๋ถ ํ๋ก๊ทธ๋จ๋ค์ ๋ชจ์์ง (์ฝ๋ ๋ชจ์์ง)
- pandas : ๋ฐ์ดํฐ ๋ถ์์ ์ฌ์ฉ๋๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ
- matplotlib : ์๊ฐํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ
3. ํ์ด์ฌ ๋ฌธ๋ฒ ๊ธฐ์ด
- ๋ณ์ : ๋ฐ์ดํฐ๋ฅผ ๋ด๋ ์ปจํ ์ด๋
- ๋ฆฌ์คํธ : ์ธ๋ฑ์ค(์์)๊ฐ ์๋ ๋ฐ์ดํฐ๋ค์ ๋ชจ์์ง
#๋ณ์
student_1 = "๊น์ฒ ์"
student_2 = "๊น์ํฌ"
…
student_3 = "ํ๊ธธ๋"
#๋ฆฌ์คํธ
students_list = ["๊น์ฒ ์", "๊น์ํฌ", …, "ํ๊ธธ๋"]
- ๋์ ๋๋ฆฌ : ์ด๋ฆ(key)๊ณผ ๊ฐ(value)์ด ์์ผ๋ก ์ด๋ฃจ์ด์ง ๋ฐ์ดํฐ๋ค์ ๋ชจ์์ง
#๋ณ์๋ก ํ๋์ฉ ์ง์
๊น์ฒ ์_height = 180
๊น์ฒ ์_weight = 70
๊น์ฒ ์_room = "room1"
…
#๋์
๋๋ฆฌ
๊น์ฒ ์ = {'height' : 183, 'weight' : 68, …}
4. Pandas, Matplotlib ํ์ฉํ ๋ฐ์ดํฐ ๋ถ์ ๋ฐ ์๊ฐํ ๊ธฐ์ด
- ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ๋ณธ ์ธํ ํ๊ธฐ → ๋ฐ์ดํฐ ๋ถ์ํ๊ธฐ
import pandas as pd #pandas ์ฌ์ฉ ์ ์ธ
titanic = pd.read_table('/content/train.csv',sep=',') #titanic ํ
์ด๋ธ ๊ฐ์ ธ์ค๊ธฐ
titanic = titanic.dropna() #null๊ฐ ์ ๊ฑฐ
titanic.head()
corr=titanic.corr(method='pearson') #ํผ์ด์จ ๋ฐฉ๋ฒ์ผ๋ก ์๊ด๊ณ์ ๊ตฌํ๊ธฐ
corr = corr[corr.Survived !=1] #์๊ด๊ณ์ Survived ์์๊ฐ 1(์ต๋)์ด ์๋ ์๋ง ๋ถ๋ฌ์ค๊ธฐ
corr #์กฐํ
- ๋ถ์ ๊ฒฐ๊ณผ ์๊ฐํํ๊ธฐ
import matplotlib.pyplot as plt #matplotlib ์ฌ์ฉ ์ ์ธ
corr = corr.drop(['PassengerId'], axis ='rows') #Passenger Id ์ด ์ ๊ฑฐ
corr['Survived'].plot.bar() #Survived ์ด ์ง์ ํ ๋ง๋๊ทธ๋ํ๋ก ์กฐํ
- ๊ฒฐ๊ณผ
import pandas as pd
import matplotlib.pyplot as plt
titanic = pd.read_table('train.csv',sep=',')
# 1.Null(๊ณต๋ฐฑ) ๋ฐ์ดํฐ ํ์
ํ๊ธฐ
print(titanic.isnull().sum())
# 2. ๊ณต๋ฐฑ ๋ฐ์ดํฐ ์ ๊ฑฐํ๊ธฐ
titanic = titanic.dropna()
#์๊ด๊ณ์ ๊ตฌํ๊ธฐ
corr=titanic.corr(method='pearson')
#survived 1์ธ ์์ ์ ์ธํ๊ธฐ
corr = corr[corr.Survived !=1]
#passengerId ์ด ์ญ์ ํ๊ธฐ
corr = corr.drop(['PassengerId'], axis ='rows')
#์์กด์จ ์๊ด๊ด๊ณ ๋ฐ ๊ทธ๋ํ ์์ฑํ๊ธฐ
corr['Survived'].plot.bar()
#x์ถ ๋ ์ด๋ธ 45๋ ํ์ ํ๊ธฐ
plt.xticks(rotation=45)
5. NumPy, Seaborn
- NumPy : ๋ฐ์ดํฐ ์ฐ์ฐ์ ๋์์ค๋ค.
- Seaborn : matplotlib ์๊ฐํ๋ฅผ ๋์์ค๋ค.
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
titanic = pd.read_table('/content/train.csv',sep=',') #titanic ํ
์ด๋ธ ๊ฐ์ ธ์ค๊ธฐ
titanic = titanic.dropna() #null๊ฐ ์ ๊ฑฐ
titanic.head()
titanic.describe() #๋ฐ์ดํฐ ํต๊ณ์น ์์ฝ
#๋์ด๋ณ๋ก ํ์คํ ๊ทธ๋จ ๊ตฌํ๊ธฐ (์ฒซ ๋ฒ์งธ ๊ทธ๋ํ)
titanic['Age'].hist(bins=40,figsize=(18,8),grid=True)
#๋์ด๋ณ ๊ตฌ๋ถ ๋ฐ ๊ฐ ๋์ด๋ณ ์์กด์จ ํ์ธ ํ๊ธฐ
titanic['Age_cat'] = pd.cut(titanic['Age'],bins=[0,3,7,15,30,60,100],include_lowest=True,labels=['baby','children','teenage','young','adult','old'])
#์ฐ๋ น๋๋ฅผ ๊ธฐ์ค์ผ๋ก ํ๊ท ๊ฐ์ ๊ตฌํด ๋ณผ์ ์์ด์!
titanic.groupby('Age_cat').mean()
#๊ทธ๋ํ ํฌ๊ธฐ ์ค์
plt.figure(figsize=(14,5))
# ๋ฐ ๊ทธ๋ํ ๊ทธ๋ฆฌ๊ธฐ (x์ถ = Age_cat, y์ถ = Survived)
sns.barplot(x='Age_cat',y='Survived',data=titanic)
# ๊ทธ๋ํ ๋ํ๋ด๊ธฐ (๋ ๋ฒ์งธ ๊ทธ๋ํ)
plt.show()
Longed for
- ๋ค์์ฃผ๋ถํฐ ๋ณธ์บ ํ๋๊น ์ฃผ๋ง ์ฌ์ด์ ์ฒด๋ ฅ์ ๋ณด์ถฉํด๋๊ณ ์ถ๋ค.
'๐ฅ ๋ด์ผ๋ฐฐ์์บ ํ DA' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
231218 MON ๋ฏธ๋ ํ๋ก์ ํธ ์์ (0) | 2023.12.18 |
---|---|
2312-2 WIL (1) | 2023.12.17 |
231214 THU ์๋ธ์ฟผ๋ฆฌ, JOIN, ํผ๋ดํ ์ด๋ธ, ์๋์ฐ ํจ์, ๋ ์ง ํฌ๋งท (1) | 2023.12.17 |
231213 WED SQL๋ก ๊ฐ๊ณตํ๊ธฐ, ์กฐ๊ฑด๋ฌธ (1) | 2023.12.17 |
231212 TUE SQL ๊ธฐ๋ณธ ๊ตฌ์กฐ (0) | 2023.12.17 |