🔍 머신러닝 5일차
👨🏫질의응답 타임
💡정보이득 = 부모의 불순도 - 자식의 불순도
불순도가 작아지는 변수 = 정보이득이 큰 변수로 채택
불순도와 정보이득을 따로 보면 안된다. 같이 봐야한다.
💡상관관계(corr)은 feature값의 변화에 따른 현재 target y의 변화
피쳐 인폴턴시스는 예측해야하는 임의의 값을 찾는데에 활용성이 높은 변수를 찾는 것.
상관관계가 높다고 인폴턴시스가 높은 것은 아니다. 상관관계 != 피쳐 인폴턴시스
💡피쳐 인폴턴시스가 크다는 것은 정보이득이 크다는 것.
💡가중치
변수의 값이 큰 애들은 가중치가 적게 나오고 변수의 값이 작은 애들이 가중치가 크게 나온다.
값의 크기에 따라 가중치가 달라진다.
가중치만을 보고
x = 1~10 가중치 100
y = 1000~2000 가중치 2
y가 x보다 50배 중요하다고 말할 수 없다.
- 임의로 만든 데이터로 모델링합니다.
- Linear Regression, Ridge, Lasso, Elasticnet 알고리즘으로 모델링합니다.
📕 SVM (Support Vector Machine)
- 분류를 위한 기준선, 즉 결정 경계선(Decision Boundary)을 찾는 알고리즘
- SVM 성능을 높이기 위해 정규화 작업이 필요
- 분류 문제와 회귀 문제 모두에 사용 가능(SVC, SVR)
-
모든 서포트 벡터 머신이 마진
서포트벡터로 마진을 결정짓는데에 결정적인 역할을 한다.
마진이 넓다는건 그만큼 분류되는 값들의 차이가 확실하다는 뜻이라서, 미래에 다른 데이터가 들어왔을때 그만큼 분류가 더 확실하다는 의미입니다
빨간선이 정확하게 나눠지면 좋지만!!!
이건 테스트 모형이고,
다른 모형에서는 점이 다르게 찍히기 때문에
마진이 넓은 여유로운 그래프가 더 좋다!!
어느 정도의 오류를 우리가 허용할 것인가?
머신러닝에 쓸 알고리즘을 고민할 시간에 데이터 분석에 대한 부분에 더 투자해라.
머신러닝은 개념을 찾는 것이 어려운 것이지, 데이터 이해와 전처리에 더 투자하는 것이 좋다.
따라서, 데이터 이해단계에 많은 노력을 하는 것을 추천한다.
주말을 이용해서 조금씩 정리하길 바란다.
- 이장래강사님
kNN에서의 R2는 학습데이터에 대한 정보가 없으므로 학습데이터에 대한 평균을 이야기하는 것이 아님.
실제 평가에서의 R2는 실제값의 평균과 비교된다.
전체 데이터의 70% 훈련데이터 / 30% 평가데이터
검증데이터는 훈련데이터의 10%
검증을 여러번 한다고 모델의 정확성이 높아지는 것은 아니죠?
이정도의 정확성이 나온다고 예측만 해본것이군요!
📕 K-Fold Cross Validation(교차검증)
[머신러닝 기초] K겹 교차 검증(K-fold cross validation) 이란? 초보자를 위한 쉽고 간단한 정리! — 비버의 Data log (tistory.com)
[머신러닝 기초] K겹 교차 검증(K-fold cross validation) 이란? 초보자를 위한 쉽고 간단한 정리!
안녕하세요. 비버입니다! 😀 새롭고 어려운 지식을 많이 아는 것도 좋지만 기본기를 단단히 다지는 일도 못지않게 중요하다고 생각합니다. 그래서 저는 시간이 날 때마다 틈틈이 내가 알고 있
bbdata.tistory.com
'KT AIVLE School 3기 > 머신러닝' 카테고리의 다른 글
KT Ailvle DX트랙 29일차 (0) | 2023.03.14 |
---|---|
KT Aivle DX 트랙 26일차 (0) | 2023.03.09 |
KT Avile DX트랙 25일차 (0) | 2023.03.08 |
KT Avile DX트랙 24일차 (0) | 2023.03.07 |
KT Aivle DX트랙 23일차 (0) | 2023.03.06 |