Q. pairplot
그리는 이유?
-
scatter를 그리게 되면 시간이 아주 오래걸린다.
-
샘플만 추출해서 시각화를 진행해야 조금 빠르게 시각화를 출력해볼 수 있다.
-
등급이 잘 나뉘어졌는지 시각화 가능
-
상관계수를 통해 pairplot을 그렸던 시각화와 함께 비교를 해보면 양의 상관이 있는지 음의 상관이 있는지 없는지를 본다.
- 상관계수는 -1~1사이의 값을 갖는다
- 구매 빈도가 높으면 구매 금액도 함께 높아지는양의 상관이 있다는 것을 상관계수로 확인할 수 있다.
-
기본적으로 이 함수는 데이터의 각 숫자 변수가 단일 행의 Y축과 단일 열의 X축에 걸쳐 공유되도록 축 그리드를 생성합니다. 대각선 플롯은 다르게 처리됩니다. 각 열에 있는 데이터의 한계 분포를 표시하기 위해 단변량 분포 플롯이 그려집니다 변수의 하위 집합을 표시하거나 행과 열에 서로 다른 변수를 플롯할 수도 있습니다. 이것은 몇 가지 일반적인 스타일을 쉽게 그릴 수 있도록 고안된 PairGrid의 상위 수준 인터페이스입니다. 더 많은 유연성이 필요한 경우 PairGrid를 직접 사용해야 합니다.
seaborn.pairplot — seaborn 0.12.2 documentation
Q. 상관 계수를 볼 때 주의해야 할 점이 있다면? 어떤 점이 있을까요?
- 인과 관계와 혼동하지 않는다
- 상관이 있는 것만으로는 인과가 있다고는 단정하지 못하고, 인과의 전제에 지나지 않는다.
- '상관은 인과를 함축하지 않는다 (Correlation does not imply causation)'는, 과학이나 통계학에서 사용되는 어구로, 2개의 변수의 상관이 자동적으로 한 편이 이제 한 편의 원인을 의미한다는 것은 아닌 것을 강조한 것이다 (물론, 그러한 관계가 있는 경우를 완전하게 부정하는 것이 아니다).
- 완전히 반대의 말인 '상관은 인과를 증명한다 (correlation proves causation)'는 오류이며, 동시에 발생한 2개의 사상에 인과관계를 주장하는 것이다. 이러한 오류는 거짓 원인 (영: false cause)으로 불린다 (라틴어에서는 "cum hoc ergo propter hoc", 직역하면 '그것과 함께, 그리고 그러므로'). 전후즉인과의 오류는, 2개의 사상에 순서 관계가 있는 것이 전제이며, '거짓 원인'의 일종이다.
- 심슨의 역설을 주의한다.
- 데이터의 세부 그룹별로 일정한 추세나 경향성이 나타나지만, 전체적으로 보면 그 추세가 사라지거나 반대 방향의 경향성을 나타내는 현상을 의미한다.
- 심슨의 역설은 통계의 함정이 유발할 수 있는 잘못된 결과를 설명하는 데 쓰이기도 한다.
- 샘플의 크기가 작으면 결과가 왜곡될 수 있습니다.
- 이상치에 민감하다
- 다중공선성(두 변수 사이에 강한 상관관계가 있는 경우에 발생한다.)
머신러닝 기초
머신러닝 비지도 학습 고객 군집화
Q. 머신러닝, 딥러닝에서 추상화된 도구(Scikit-learn, TensorFlow, PyTorch, Transformer, FastAI 등) 를 사용했을 때의 장점과 단점이 있다면?
- 장점
- 개발 시간 단축
- 정확성 향상
- 재사용성
- 하드웨어 가속
- 단점
- 일반성 부족
- 실제 동작의 이해 부족(하지만 이건 장점이 될 수도)
- 구성의 어려움
- 메모리 사용 증가