Logistic_Regression (분류) :
2진 분류일 때 사용 / 12345이면 OVO, OVM 사용 / 선형 회귀 분석
(0 또는 1)
분류 문제에 있어서 기준선 BaseLine 모델(여러개 한번에 하다가 실수하는 것보다 이거 하나 중심으로 잡고 작업 시작)
분류모델은 y가 카테고리 일 때 만 사용하기
model.score(x, y)
정확도 점수? 설명력? R^2 회귀예측 모델을 통해,' 대략 이정도면 맞출 수 있다.' 설명 가능
-> 계속 데이터를 고치고 고치면서 설명력을 올려야함 (노가다?)
전처리 과정
1. 훈련데이터 학습 데이터 나누기 (계속 반복되는 내용)
2. 데이터는 전부 숫자여야함. 문자, 이미지, 동영상 -> 숫자로
문자는 형태소분석, 이미지, 동영상은 어차피 숫자로 저장되어 있음
모델링에서 알고리즘 선택 시, 보통 경험, 검색 이용 잘 모르면 일단 여러개 한 번에 돌려보고 그 중 잘 맞는 것 가져다가 사용하기!
다중공선성(multicollinearity) : 독립 변수의 일부가 다른 독립 변수의 조합으로 표현될 수 있는 경우
더미 변수 이용 해결 (원-핫 인코딩 기법) -> 1, 0으로만 만들어서 표현
두 개이면 0,1 세개이면 (a-b = 0,1 a-c = 0,1) // get_dummies 이용 후 생성된 첫 컬럼을 지워줌(중복되니까)
피처 엔지니어링 : 기존에 존재하는 변수를 활용해서 새 변수를 만들어 사용하는 것.
KNN : 최근접 이웃 모델
분포 알고리즘, 선형 관계로 전제X, 다중 분류 모델 (여러 카테고리를 이용해도 됨)
데이터가 커지면 상당히 느려짐, 작은 데이터 셋에 적
vs K-means 와의 차이, 클러스크와 분포 차이, 비지도와 지도의 차이 ,k-means은 컴퓨터가 알아서 분류, KNN은 우리가 설정함
스케일링 : 스케일링을 사용해도 정확도가 오르지 않음, 하지만 넣는게 좋음!
스케일링 이용해서 0~1로 바꿔줌, 데이터 특성에 따라 불합리가 생기기도 함
- 표준화 스케일링 : 평균 0, 표준편차 1, 데이터 고르게 분포(정규분포) / 편파가 심하면 데이터 왜곡 발생
- 로버스트 스케일링 : 중앙값 0, 아웃라이어가 많을 때, 또는 아웃라이어의 영향을 줄이고 싶을 때 사용
- 최소-최대 스케일링 : 분포 특성을 최대한 그대로 유지하고 싶을 때, (최대 1, 최소 0/ 비교군 데이터를 하나로 맞춰야함)
- 정규화 스케일링 : 행 기준 (거의 사용X)
'복습용 기술공부' 카테고리의 다른 글
23.03.02 공부 복습 (0) | 2023.03.02 |
---|---|
230228 Decision Tree, Random Forest (0) | 2023.02.28 |
230224 데이터 정의와 알고리즘 3개(선형회귀, 로지스틱회귀, SVM) (1) | 2023.02.24 |
23-02-23 공부 내용 정리 Perceptron (0) | 2023.02.23 |
통계와 빅데이터 공부 내용 메모 (0) | 2023.02.22 |