KT AIVLE School 3기/머신러닝 6

KT Ailvle DX트랙 29일차

이장래 강사님의 👨‍🏫 마지막 질의 응답 Time😢 💡클래스 불균형 => 언더샘플링과 오버샘플링은 y값에 대해서만 한다. x값을 맞추기 위해서 하지는 않는다. 💡VIF(분산 팽창지수) x변수들관의 관계는 회귀문제에만 사용할 수 있는가? Linear Reggression에도 영향이 있고 로지스틱 리그레션에도 영향이 있고 KNN에도 관계가 있다. VIF란, Variance Inflation Factor의 약자로서, 분산 팽창 인수라고 한다. 이 값은 다중회귀분석에서 독립변수가 다중 공산성(Multicollnearity)의 문제를 갖고 있는지 판단하는 기준이며, 주로 10보다 크면 그 독립변수는 다중공산성이 있다고 말한다. feature간의 상관에서 neighbor간의 상관으로 넘어가서, 상관이 높은 neig..

KT Aivle DX 트랙 27일차

🔍 머신러닝 5일차 👨‍🏫질의응답 타임 💡정보이득 = 부모의 불순도 - 자식의 불순도 불순도가 작아지는 변수 = 정보이득이 큰 변수로 채택 불순도와 정보이득을 따로 보면 안된다. 같이 봐야한다. 💡상관관계(corr)은 feature값의 변화에 따른 현재 target y의 변화 피쳐 인폴턴시스는 예측해야하는 임의의 값을 찾는데에 활용성이 높은 변수를 찾는 것. 상관관계가 높다고 인폴턴시스가 높은 것은 아니다. 상관관계 != 피쳐 인폴턴시스 💡피쳐 인폴턴시스가 크다는 것은 정보이득이 크다는 것. 💡가중치 변수의 값이 큰 애들은 가중치가 적게 나오고 변수의 값이 작은 애들이 가중치가 크게 나온다. 값의 크기에 따라 가중치가 달라진다. 가중치만을 보고 x = 1~10 가중치 100 y = 1000~2000 가중..

KT Aivle DX 트랙 26일차

🔍머신러닝 4일차 👨‍🏫 질의응답 시간! 💡 kNN 모델 성능을 높이기 위한 방법 - MinMaxScaler - StandardScaler - MaxAbsScaler - BobustScaler 등등 이 많은 스케일링 중에 수업시간에는 한정된 시간을 고려하여 MinMaxScaler를 사용하는 것이지, MinMax 정규화를 사용할 것을 강조한 것은 아니다. 또한, 우리 입장에서는 독립변수가 1개인 경우 스케일링을 진행할 필요없다. ❓❗ x_train, x_test만 스케일링을 하고 y는 왜 하지 않는건가요? 우리가 예측해야 하는 타겟인 y는 독립변수들 값에 따른 거리를 비교해 최근접 이웃을 골라 예측하기 때문에 스케일링 하지 않는다. 💡 선형회귀 모델을 이용해서 도출한 회귀선(가중치, 편향)과 seaborn..

KT Avile DX트랙 25일차

🔍 머신러닝 3일차! 📝 어제에 이어서 데이터 전처리 📌 변수 추가 - 분석에 의미가 있다고 판단되는 변수를 추가한다. # 데이터 확인 data['Name'] # Title 변수 추가 data['Title'] = data['Name'].str.extract('([A-Za-z]+)\.') # [a-zA-Z] : 알파벳 모두 #추출대상에 공백을 포함하지 않아서 공백은 나오지 않는다. # Title 확인 data['Title'] # 확인 data['Title'].value_counts() # 중요 호칭외에는 Others로 변경. main_tit = ['Mr','Miss','Mrs','Master'] data.loc[data['Title'].isin(main_tit)==False,'Title'] = 'Other..

KT Avile DX트랙 24일차

🔍머신러닝 2일차! 📝 전날 들어온 질문들로 하는 깨알복습 - 데이터프레임.drop(열, axis = 1) : 선택한 열 혹은 행을 제거할 수 있다. axis=0 행 , axis=1 열 / 자꾸 헷갈리는 axis!! 0행,1열로 외우자!! - 데이터프레임.loc [ 행,열 ] (괄호)가 아니라 [대괄호]라는 것을 잊지 말자!! # 산점도 그리기 plt.figure(figsize=(10,5)) plt.subplot(1,2,1) # 실제 데이터 sns.scatterplot(x_test['Petal.Length'], x_test['Petal.Width'], hue = y_test) # hue는 y_test에 품종이 3가지가 있는데 색깔을 y_test값 가지고 구분해달라는 것 plt.subplot(1,2,2) ..

KT Aivle DX트랙 23일차

다시 돌아온 이장래 강사님 🤗 진심으로 환영합니당!! 그리웠어요ㅜㅜ 오늘 이장래 강사님께서 강의해주실 내용은 머신러닝! 머신러닝은 인간이 경험을 쌓아서 학습하듯 컴퓨터에 여러 경험 데이터를 주고 인공신경망에 학습시키는 것을 말한다. 머신 러닝, 즉 기계를 학습시킨다. # 학습 방법에 따른 분류 1. 지도 학습(Supervised Learning) ←본 과정에서는 지도 학습에 대해 학습함. 학습대상이 되는 데이터에 정답을 주어 규칙성, 즉 데이터의 패턴을 배우게 하는 학습 방법 2. 비지도 학습(Unsupervised Learning) 정답이 없는 데이터 만으로 배우게 하는 학습 방법 3. 강화 학습(Reinforcement Learning) 선택한 결과에 대해 보상을 받아 행동을 개선하면서 배우게 하는 ..