<aside> ❓ copy()를 사용할 때는 이름이 같지만 파이썬, 판다스, 넘파이에서 모두 사용할 수 있습니다. 그런데 기능이 약간 차이가 있으니 어디에서 불러서 사용하는지 확인해봐야합니다. 어디에서 불러서 사용하는지 어떻게 확인할까요?
<aside>
❓ sns.heatmap()
, df.style.background_gradient()
→ 두 가지의 차이점?
df.style.background_gradient()
→ 성질이 다른 각 변수를 각각 비교하고자 할 때 적합합니다.
<aside> ❓ 왜 groupby 로 할 수 있는 것은 pivot_table로도 대부분 구현이 가능할까요?
<aside> ❓ 바이올린 플롯에서 가운데 점은 무엇을 의미하나요?
<aside> ❓ 시각화를 하기 위해 어떤 라이브러리를 쓰는 것이 좋을까요?
모든 라이브러리가 장단점이 있지만
시각화를 할 때 많은 색을 사용하기 보다는 몇가지의 색으로만 하는 것이 좋다.
kosis 데이터를 가지고 분석하기!
MDIS 마이크로데이터
에서 제공하고 있다.소(재)부(품)장(비)산업 데이터로 확인!
행렬전환 기능 중요!
없었을 땐 melt사용
결측치 제거
dropna()
: 결측치가 하나라도 있으면 삭제필요없는 열 삭제
drop(columns = '')
정규표현식
re
(regular expression : regexp)[ ]
: 일치시킬 문자 세트의 패턴[가나다]
: 가 or 나 or 다 중 하나를 포함하고 있는지[가-힣]
: 한글 가부터 힣까의 문자 중 하나를 포함하고 있는지[0-9]
: 0~9까지의 숫자 중 하나를 포함하고 있는지[^0-9]
: 숫자를 포함하고 있지 않음[^가-힣]
: 한글이 포함되어 있지 않음[가-힣+]
: 한글이 하나 이상 포함되는지연,월 분리하기
내 방식
df["연월"] = df['연월'].replace('[^0-9]','',regex = True)
df["연"] = df['연월'].str[:4].astype('int')
df["월"] = df['연월'].str[-2:].astype('int')
강사님 방식
# 슬라이싱 사용하는 방법
df["연"] = df["연월"].str[:4].astype(int)
df["월"] = df["연월"].str[-2:].astype(int)
# split()을 사용하는 방법
df["연"] = df["연월"].str.split(".").str[0].astype(int)
df["월"] = df["연월"].str.split(".").str[1].astype(int)
연, 월을 분리한 이유?
컬럼명 다시 설정해주기
rename(columns={’원래컬럼명’ : ‘변경컬럼명’})
왜 inplace를 사용하지 않는가?
→ 앞으로 없어질 계획인 속성값, 메서드 체이닝을 했을 때도 제대로 동작하지 않는다.
DataFrame.nlargest(*n*, *columns*, *keep='first'*)
nlargest()
→ sort_values(ascending = False).head(n)
과 같음nsmallest()
→ sort_values(ascending = True).head(n)
와 같음kosis 데이터를 볼 때 주의할 점은 제공된 데이터가 평균인지 합계인지 구분할 필요가 있다.