2023.02.08 | Notion

❓ 트래픽이 터질 경우를 대비해서 어떻게 해주는 것이 좋나요?

→ import를 손을 봐도 트래픽 비용이 줄어들 수 있다.

→ 캐시 사용방법이나 파일 I/O 관리, 데이터 베이스 관리에 따라 비용이 달라짐

트래픽 분석이나 관리해주는 도구를 사용해준다.
인프라에서 나오는 로그 데이터를 따로 분석하기도 한다.

❓ isin()과 .str.contains()는 무슨 차이가 있나요?

isin()은 완전 일치해야할 때 사용
.str.contains()는 정규표현식도 들어가 있고 문자열 중에 포함하는 내용만 있을 때 사용하는 것이다.

❓ str.contains()로 뽑았는데 이름이 비슷한 상호명일 경우 어떻게 제거하나요?

상권업종 대분류 코드를 사용하여 분류한다.

❓ 현업에서 분석할 때 예외적인 경우를 제거해주지 못한다면 어떤 문제가 생길 수 있나요? 크게 문제가 될 수 있나요??

분석결과에 대한 신뢰를 어느정도 할 수 있느냐의 문제입니다. 지금 사용하는 데이터도 실시간 데이터는 아닙니다. 어느정도의 오차는 고려를 하고 보고서나 대시보드 등을 만든다면 주의사항을 함께 기입해 주면 좋습니다.

❓ heatmap과 style.background_gradient() 어디서 적절할까?

→ 전달하고자 하는 메시지가 무엇인가에 따라 달라짐.

heatmap() : 전체 스케일 비교에 적절
style.background_gradient() : 각 변수별 비교에 적절

0306 버거지수

브랜드명 파생변수

crosstab을 이용한 방법

margins 이용 방법

pd.crosstab(index = df_b['시도명'], columns = df_b['브랜드'],
		margins = True
)

margin : count 합계를 보여줌

합계 시리즈 추가

df_skorea = pd.crosstab(index = df_b['시도명'], columns = df_b['브랜드'])
df_skorea['합계'] = df_skorea.sum(axis = 1)

pivot_table 사용 방법

df_b.pivot_table(index = '시도명', columns = '브랜드',
                 values = '상호명', aggfunc = 'count',
                 fill_value = 0, margins = True, margins_name = '합계'
)

groupby 사용

내 방식 😊

df_skorea = df_b.groupby(['시도명','브랜드'])['브랜드'].count().unstack()
count_brand= df_b.groupby(['시도명'])['브랜드'].count()
df_skorea = pd.merge(left= df_skorea, right=count_brand, how = 'inner', on = '시도명')

groupby 사용방식

df_skorea = df_b.groupby(
    ['시도명','브랜드']
)['상호명'].count().unstack().fillna(0).astype(int)
df_skorea['합계'] = df_skorea.sum(axis = 1)

❓롯데리아가 0개일 때는 inf로 나오는데, 실제로 분석 때 이런 계산 불가한 수치가 나오면 삭제처리를 하게 되나요? 아니면 따로 수치를 입력해주게 되나요?

→ 목적에 따라 다름.

0으로 처리해도 되는 데이터라면 0으로 채우고 inf대신 np.nan으로 변경해줄 수 도 있음
0으로 채우면 안되는 데이터도 있어서 그럼 안함
- 보통 빈도수는 0으로 채우면 되는데 평균이나 계산이 필요한 데이터들은 안됨
  - 나이, bmi 지수, 체중, 키 → 현실 세계에서 0이될 수 없는 데이터
  - 예) 타이타닉 데이터에서 생존 여부를 예측하는데 나이가 중요한 요손데 나이에 결측치가 많다. 결측치가 있으면 머신 러닝이 계산하지 못한다. 나이를 0으로 채우면 제대로 예측할 수 없어서 이럴 때는 평균값이나 중앙값 구간화를 사용해준다.
  - 구간화 (binning): 히스토그램 시각화에서 막대의 수를 구할때 사용하기도함. 예를 들어 나이에 결측치가 많은데 나이 변수를 사용할 때 어린이, 성인, 고령자 등으로 범주화 하는 것을 말한다.
DB에서 설정할 때 없는 값은 null 값으로 관리하는데 가끔 -1등으로 표기하는 실수를 하기도 한다.
- -1 값이 결측치 대신 들어있는데 평균을 계산하면 완전 잘못된 계산을 하게된다.

❓ scatterplot 은 수치 변수간의 상관 관계를 보고자 할 때 주로 시각화 합니다. 어떤 도구로 어디에서 시각화 해봤을 까요?

fdr 에서 ffang끼리 주가 상승률을 비교
pandas

https://pandas.pydata.org/docs/reference/api/pandas.plotting.scatter_matrix.html
seaborn => pairplot()
plotly =>scatter_matrix()

https://plotly.github.io/plotly.py-docs/generated/plotly.express.scatter_matrix.html

0306 버거지수

브랜드명 파생변수

상관계수