tidy-data
http://vita.had.co.nz/papers/tidy-data.pdf
Q. 깔끔하지 않는 데이터?
- 한 열에 하나의 변수가 있는게 아니라 다양한 열에 하나의 변수가 분포
- 열 이름이 개인소득의 범위로 되어있어 보기엔 좋지만, 분석하기에 어렵다
- 비슷한 데이터 : kosis 데이터
- 각 행이 개별 관측치가 아니라 집계가 되어있는 데이터
- 서울코로나 데이터 => 각 행이 개별 관측치, 각 확진자에 대한 정보를 담고 있습니다.
Q. 일별 시세 => 각 행이 관측치 일까요? 집계가 되어 있는 데이터 일까요?
- 일별 시세는 집계가 되어이있는 데이터
- 왜 ?
- 집계를 하지 않으면 데이터가 너무 많아져서
- 하루의 모든 거래가 합쳐진 데이터이다.
pd.melt
- melt
- 깔끔한 데이터로 만들기 위해 사용함
- 열에있는 데이터를 행으로 녹인다
- kosis 데이터 사용
아파트 분양가 데이터
- apt전국 평균 분양가격(2013년 9월부터 2015년 8월까지
- 평균 분야 가격이라 월별로 평균가격이 나온다(집계데이터)