230227 복습 용 정리 Logistic

2진 분류일 때 사용 / 12345이면 OVO, OVM 사용 / 선형 회귀 분석

(0 또는 1)
분류 문제에 있어서 기준선 BaseLine 모델(여러개 한번에 하다가 실수하는 것보다 이거 하나 중심으로 잡고 작업 시작)

분류모델은 y가 카테고리 일 때 만 사용하기

model.score(x, y)

정확도 점수? 설명력? R^2 회귀예측 모델을 통해,' 대략 이정도면 맞출 수 있다.' 설명 가능

-> 계속 데이터를 고치고 고치면서 설명력을 올려야함 (노가다?)

전처리 과정

1. 훈련데이터 학습 데이터 나누기 (계속 반복되는 내용)

2. 데이터는 전부 숫자여야함. 문자, 이미지, 동영상 -> 숫자로

문자는 형태소분석, 이미지, 동영상은 어차피 숫자로 저장되어 있음

모델링에서 알고리즘 선택 시, 보통 경험, 검색 이용 잘 모르면 일단 여러개 한 번에 돌려보고 그 중 잘 맞는 것 가져다가 사용하기!

다중공선성(multicollinearity) : 독립 변수의 일부가 다른 독립 변수의 조합으로 표현될 수 있는 경우

더미 변수 이용 해결 (원-핫 인코딩 기법) -> 1, 0으로만 만들어서 표현

두 개이면 0,1 세개이면 (a-b = 0,1 a-c = 0,1) // get_dummies 이용 후 생성된 첫 컬럼을 지워줌(중복되니까)

피처 엔지니어링 : 기존에 존재하는 변수를 활용해서 새 변수를 만들어 사용하는 것.

분포 알고리즘, 선형 관계로 전제X, 다중 분류 모델 (여러 카테고리를 이용해도 됨)

데이터가 커지면 상당히 느려짐, 작은 데이터 셋에 적

vs K-means 와의 차이, 클러스크와 분포 차이, 비지도와 지도의 차이 ,k-means은 컴퓨터가 알아서 분류, KNN은 우리가 설정함

스케일링 : 스케일링을 사용해도 정확도가 오르지 않음, 하지만 넣는게 좋음!

스케일링 이용해서 0~1로 바꿔줌, 데이터 특성에 따라 불합리가 생기기도 함

- 표준화 스케일링 : 평균 0, 표준편차 1, 데이터 고르게 분포(정규분포) / 편파가 심하면 데이터 왜곡 발생

- 로버스트 스케일링 : 중앙값 0, 아웃라이어가 많을 때, 또는 아웃라이어의 영향을 줄이고 싶을 때 사용

- 최소-최대 스케일링 : 분포 특성을 최대한 그대로 유지하고 싶을 때, (최대 1, 최소 0/ 비교군 데이터를 하나로 맞춰야함)

- 정규화 스케일링 : 행 기준 (거의 사용X)

조용한 블로그