20230313 | Notion

📝 실습 내용 요약

0501
- 머신러닝의 지도학습의 분류를 사용하는 Scikit-learn API 기초
- DecisionTree 를 실습(수치데이터만 사용)
0502
- 범주형 데이터를 인코딩(수치데이터로 변환)
- One-Hot-Encoding(pd.get_dummies)
- RamdomForest
0503
- One-Hot-Encoding(scikit-learn)
- 언더피팅, 오버피팅을 평가할 때 train, test 두 가지 데이터에 대한 점수를 비교
- 기존에는 test데이터에 대해서만 평가했는데 train 데이터로 평가해볼 예정
- cross validation 기법을 사용해서 평가

📈 오버피팅, 언더피팅

Untitled

📉 loss?

🗑️ 엔트로피?

🧑‍🎓 학습, 예측 데이터셋 나누기(실습)

정답값이자 예측 해야할 값 = Churn
문제와 답안 나누기
- X(문제) : 독립변수, 2차원 행렬
- y(정답) : 종속변수, 1차원 벡터
- X, y 행의 수가 같은지 확인(중요!!!!!)
학습과 예측으로 나누기
- X_train : 시험의 기출문제
- y_train : 기출문제의 답
- X_test : 실전 문제
- y_test : 실전문제의 답
train_test_split 무작위로 데이터셋을 train과 test로 나눔
```
from sklearn.model_selection import train_test_split

 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
```
- stratify : 보통 번역할 때 층화표집으로 번역하기도 함
sklearn.model_selection.StratifiedKFold

🏋️ Training 데이터를 나눌 때 조심해야할 것

학습 모델을 만들었는데 정확도가 99%가 나올 경우? (실수때문이라면)
- 정답을 학습 데이터에 포함시키면 제대로 학습하기 어려움
- 데이터 누수! (Data Leakage)
  - 미래에 대한 전혀 알 수 없는 정보가 모델 학습에서 사용된 경우
  - test데이터가 학습에 이용된 경우
- 누수가 발생 → 모델을 사용하여 의사 결정을 내리기 전까지는 모델이 정확해보임 But 그 이후에는 모델이 매우 부정확
해커톤(경진대회) 특성 상, 리더보드 제출을 위해 추론에 사용될 test데이터 들이 사전에 주어지지만, 실제 모델을 서비스하는 환경에서는 test 데이터들이 어떠한 데이터들이 몇 개가 입력으로 들어올지 모른다.

🔥 One-Hot-Encoding

장단점

	장점	단점
Ordinal encoding	범주형 변수의 순서나 등급을 반영하여 정보를 유지	변수의 크기가 순서와 상관 없이 숫자로 표현되기 때문에 모델 학습에 문제가 발생
One hot encoding	범주형 변수의 모든 값을 고려하여 정보를 유지	변수가 많아질수록 변환된 변수의 차원이 늘어나게 되어 모델 학습에 필요한 데이터의 양이 증가

장점
- 모든 머신러닝 알고리즘에서 사용가능
- 범주형 변수를 숫자형 변수로 변환하면서, 모델이 변수의 상관관계를 이해할 수 있다.
- 범주형 변수의 카테고리가 많아져도 적용할 수 있다.
단점
- 카테고리가 많은 경우, 변수의 차원이 늘어남
- 범주형 변수의 카테고리 수가 적을 경우, 희소 행렬이 생성
- 메모리와 처리 속도에 부담될 수 있다.

🥟 pd.get_dummies

One-hot-encoding
- X_raw의 컬럼 InternetService 에서 DSL일 때 1인 컬럼을 생성하기 위한 코드
```
X_raw['InternetService_DSL'] = X_raw['InternetService'] == 'DSL'
```
- 원래는 이렇게 하나하나 해줘야하지만 너~무 많아서 다 못함
train, test의 Feature를 동일하게 만들어주야 학습과 예측을 할 때 오류가 생기지 않음
- train, test를 각각 따로 인코딩하면, 컬럼 순서, 개수가 달라질 수 있음.
- 다른 feature를 사용하면 학습했을 때, 오류가 발생하기 때문에 train으로 맞춰주는 작업이 필요
- scikit-learn에서 fit, transform을 할 때, train에만 fit을 해주는 이유도 같다.
알아서 컬럼에 _ 언더바를 추가하여 값을 추가해주고 문자를 알아서 바꿔줌!
수치형 변수도 인코딩이 될 수 있음!!
One-hot-encoding을 할 때 결측치는 고려하지 않음.

🚫 결측치를 채우는 방법

🤔 희소행렬?

🌲 결정트리 학습법

🌲 RandomForest