❓ 트래픽이 터질 경우를 대비해서 어떻게 해주는 것이 좋나요?
→ import를 손을 봐도 트래픽 비용이 줄어들 수 있다.
→ 캐시 사용방법이나 파일 I/O 관리, 데이터 베이스 관리에 따라 비용이 달라짐
❓ isin()과 .str.contains()는 무슨 차이가 있나요?
❓ str.contains()로 뽑았는데 이름이 비슷한 상호명일 경우 어떻게 제거하나요?
❓ 현업에서 분석할 때 예외적인 경우를 제거해주지 못한다면 어떤 문제가 생길 수 있나요? 크게 문제가 될 수 있나요??
❓ heatmap과 style.background_gradient() 어디서 적절할까?
→ 전달하고자 하는 메시지가 무엇인가에 따라 달라짐.
crosstab을 이용한 방법
margins 이용 방법
pd.crosstab(index = df_b['시도명'], columns = df_b['브랜드'],
margins = True
)
합계 시리즈 추가
df_skorea = pd.crosstab(index = df_b['시도명'], columns = df_b['브랜드'])
df_skorea['합계'] = df_skorea.sum(axis = 1)
pivot_table 사용 방법
df_b.pivot_table(index = '시도명', columns = '브랜드',
values = '상호명', aggfunc = 'count',
fill_value = 0, margins = True, margins_name = '합계'
)
groupby 사용
내 방식 😊
df_skorea = df_b.groupby(['시도명','브랜드'])['브랜드'].count().unstack()
count_brand= df_b.groupby(['시도명'])['브랜드'].count()
df_skorea = pd.merge(left= df_skorea, right=count_brand, how = 'inner', on = '시도명')
groupby 사용방식
df_skorea = df_b.groupby(
['시도명','브랜드']
)['상호명'].count().unstack().fillna(0).astype(int)
df_skorea['합계'] = df_skorea.sum(axis = 1)
❓롯데리아가 0개일 때는 inf로 나오는데, 실제로 분석 때 이런 계산 불가한 수치가 나오면 삭제처리를 하게 되나요? 아니면 따로 수치를 입력해주게 되나요?
→ 목적에 따라 다름.
❓ scatterplot 은 수치 변수간의 상관 관계를 보고자 할 때 주로 시각화 합니다. 어떤 도구로 어디에서 시각화 해봤을 까요?
fdr 에서 ffang끼리 주가 상승률을 비교
pandas
https://pandas.pydata.org/docs/reference/api/pandas.plotting.scatter_matrix.html
seaborn => pairplot()
plotly =>scatter_matrix()
https://plotly.github.io/plotly.py-docs/generated/plotly.express.scatter_matrix.html