23.03.02 공부 복습

복습용 기술공부

01241 2023. 3. 2. 17:32

앙상블, 보팅, 배깅, 부스팅 -> 크게 이정도 있음

감정분석 : 글 좋은지 나쁜지 파악

텍스트 분석 : 메시지의 감정적 어조가 긍정적인지 부정적인지, 중립적인지 파악하는 것.

비정형 텍스트 데이터 준비 -> 테그스트로부터 특성 벡터 구성 (ex : 형태소 분석)

문장 -> 단어장 -> 각각 숫자로 바꿈(index) // 단어 배열과 위치가 중요함

일단 각 자 분류해서 직접 레이블링 하는 방법이 최고임

단어 분리 : 각 단어를 분리

공백으로 분리 : 공백을 기준으로 분리

단어 줄기 : 공백을 기준으로 단어를 원형으로 바꿔줌

ex)

runners -> runner

running -> run

영어 형태소 분석

pip install nltk

from sklearn.feature_extraction.text

단어 빈도수, 역 문서 빈도수

문장에서 등자한느 단어 파악, 어디에 쓸모 없는 말이 들어가는지, 어느 위치에 중요한 말이 들어 가는지 파악

문서에서 반복되는 빈도는 크게 상관이 없다고 보고 문장에서 반복되는 빈도(역빈도)를 보는 (TfidfVectorizer)

문서에서 반복되는 빈도를 보는 (CounterVectorizer)

from sklearn.pipeline import Pipeline

여러개를 순차적으로 작업해야 하면, pipeline 이용해서 작업하기

koNLPy 형태소 분석기 설치 방법

1. java (LTS) 안정화 버전 설치

2. 환경 변수 지정 (설정- 시스템 환경 -변수( 시스템 속성) - 환경 변수 - 시스템 변수 -새로만들기 - 디렉터리 - 찾아보기

ex) C:\Program FIles\Java\jdk1-7\bin <- path에 새로만들기로 추가

ex) C:\Program Files\Java\jdk1-7 <- JAVA_HOME 새로만들기로 추가

3. pip install koNLPy

4. install 내가 사용할 것 ex)JPype1 설치 (윈도우, 파이썬 호환 맞추기)

5. 마우스 우측 클릭, cmd shell

pip install JPype1~~ 파일명

※ window에서 Mecab() 지원 X

import re

sub, findall 은 잊지 말기 + ?이용해서 삼항연산자 처럼 주는 방법 조금 더 공부해보기

(?: a | b | c ...)

BeautifulSoup 에서

BeautifulSoup(res.text, 'html.parser')

find, findall - 파라미터 아무것도 x tag, class_ = 클래스,

select_one, selcect (css 속성자 이용해서 찾음) select 는 리스트 findall도 리스트

import os

os.listdir('폴더명') #폴더명 안에 있는 파일 확인

.strip() : 공백 제거