왜 줄여?
Q. 파일 사이즈를 줄여야하는 이유?
ex) 노트북을 구매하기 위해 용량을 1T, 2T 등을 고민할 수 있는데 용량에 따라 비용이 20~30만원까지 차이가 납니다.
기업에서는 Log를 쌓을 때 데이터 엔지니어는 시간 단위로 파일을 저장할 것인지 , 어떤 기준, 어떤 도구로 데이터를 저장할 것인지를 고민하게 됩니다.
효율적인 데이터 저장 및 검색을 위해 설계된 오픈소스, 열 지향 데이터 파일 포맷
언제 사용?
→ 공공데이터나, 용량이 큰 데이터를 로컬에 사용할 때 용량이 엄청 커서 이걸 줄일 때 사용한다.
열단위
Java, C++, Python 언어 지원
Q. Parquet 의 장점?
데이터 프레임을 parquet 파일형식으로 저장
df.to_parquet('파일저장명.parquet.gzip')
저장 파일 방식으론 여러 개가 있지만 gzip
이 가장 read 속도가 빠름
csv
와 parquet.gzip
으로 저장했는데 용량이 오히려 parquet이 더 크다.