KT AIVLE School 3기 13

빅프로젝트 시작!

드디어 5월 30일 빅프로젝트가 시작되었다!!! 일단 일정은 그렇고 우리는 빅프 조가 (목요일 날) 발표되자마자 금요일날 아이디어를 공유하였다. 금요일에는 카톡으로 공유하였고 월요일에는 대면으로 아이디어 회의를 했다. 월요일 대면 아이디어 회의는 임당역 파스쿠찌에서 회의를 하였다! 아래 보다시피 8명 회의로 쾌적한 장소였다. 우리 회의는 오전 9시부터 오후 5시까지 소요되었다. 5월 31일 - 1등 워크숍 start ! 현재 빅프로젝트 공식 첫 대면이다! 많은 아이디어 중 좁히고 좁혀서 가장 좋은 3가지를 선정 후 효과성(매출↑, 가치↑)과 실현가능성을 바탕으로 분석해서 한가지를 정하였다. 그 후 고객과 직원으로 나뉘어 인터뷰를 통해 니즈를 분석하였고, POV(Point of View)라고 해서 user..

KT Ailvle DX트랙 29일차

이장래 강사님의 👨‍🏫 마지막 질의 응답 Time😢 💡클래스 불균형 => 언더샘플링과 오버샘플링은 y값에 대해서만 한다. x값을 맞추기 위해서 하지는 않는다. 💡VIF(분산 팽창지수) x변수들관의 관계는 회귀문제에만 사용할 수 있는가? Linear Reggression에도 영향이 있고 로지스틱 리그레션에도 영향이 있고 KNN에도 관계가 있다. VIF란, Variance Inflation Factor의 약자로서, 분산 팽창 인수라고 한다. 이 값은 다중회귀분석에서 독립변수가 다중 공산성(Multicollnearity)의 문제를 갖고 있는지 판단하는 기준이며, 주로 10보다 크면 그 독립변수는 다중공산성이 있다고 말한다. feature간의 상관에서 neighbor간의 상관으로 넘어가서, 상관이 높은 neig..

KT Aivle DX 트랙 27일차

🔍 머신러닝 5일차 👨‍🏫질의응답 타임 💡정보이득 = 부모의 불순도 - 자식의 불순도 불순도가 작아지는 변수 = 정보이득이 큰 변수로 채택 불순도와 정보이득을 따로 보면 안된다. 같이 봐야한다. 💡상관관계(corr)은 feature값의 변화에 따른 현재 target y의 변화 피쳐 인폴턴시스는 예측해야하는 임의의 값을 찾는데에 활용성이 높은 변수를 찾는 것. 상관관계가 높다고 인폴턴시스가 높은 것은 아니다. 상관관계 != 피쳐 인폴턴시스 💡피쳐 인폴턴시스가 크다는 것은 정보이득이 크다는 것. 💡가중치 변수의 값이 큰 애들은 가중치가 적게 나오고 변수의 값이 작은 애들이 가중치가 크게 나온다. 값의 크기에 따라 가중치가 달라진다. 가중치만을 보고 x = 1~10 가중치 100 y = 1000~2000 가중..

KT Aivle DX 트랙 26일차

🔍머신러닝 4일차 👨‍🏫 질의응답 시간! 💡 kNN 모델 성능을 높이기 위한 방법 - MinMaxScaler - StandardScaler - MaxAbsScaler - BobustScaler 등등 이 많은 스케일링 중에 수업시간에는 한정된 시간을 고려하여 MinMaxScaler를 사용하는 것이지, MinMax 정규화를 사용할 것을 강조한 것은 아니다. 또한, 우리 입장에서는 독립변수가 1개인 경우 스케일링을 진행할 필요없다. ❓❗ x_train, x_test만 스케일링을 하고 y는 왜 하지 않는건가요? 우리가 예측해야 하는 타겟인 y는 독립변수들 값에 따른 거리를 비교해 최근접 이웃을 골라 예측하기 때문에 스케일링 하지 않는다. 💡 선형회귀 모델을 이용해서 도출한 회귀선(가중치, 편향)과 seaborn..

KT Avile DX트랙 25일차

🔍 머신러닝 3일차! 📝 어제에 이어서 데이터 전처리 📌 변수 추가 - 분석에 의미가 있다고 판단되는 변수를 추가한다. # 데이터 확인 data['Name'] # Title 변수 추가 data['Title'] = data['Name'].str.extract('([A-Za-z]+)\.') # [a-zA-Z] : 알파벳 모두 #추출대상에 공백을 포함하지 않아서 공백은 나오지 않는다. # Title 확인 data['Title'] # 확인 data['Title'].value_counts() # 중요 호칭외에는 Others로 변경. main_tit = ['Mr','Miss','Mrs','Master'] data.loc[data['Title'].isin(main_tit)==False,'Title'] = 'Other..

KT Avile DX트랙 24일차

🔍머신러닝 2일차! 📝 전날 들어온 질문들로 하는 깨알복습 - 데이터프레임.drop(열, axis = 1) : 선택한 열 혹은 행을 제거할 수 있다. axis=0 행 , axis=1 열 / 자꾸 헷갈리는 axis!! 0행,1열로 외우자!! - 데이터프레임.loc [ 행,열 ] (괄호)가 아니라 [대괄호]라는 것을 잊지 말자!! # 산점도 그리기 plt.figure(figsize=(10,5)) plt.subplot(1,2,1) # 실제 데이터 sns.scatterplot(x_test['Petal.Length'], x_test['Petal.Width'], hue = y_test) # hue는 y_test에 품종이 3가지가 있는데 색깔을 y_test값 가지고 구분해달라는 것 plt.subplot(1,2,2) ..

KT Aivle DX트랙 23일차

다시 돌아온 이장래 강사님 🤗 진심으로 환영합니당!! 그리웠어요ㅜㅜ 오늘 이장래 강사님께서 강의해주실 내용은 머신러닝! 머신러닝은 인간이 경험을 쌓아서 학습하듯 컴퓨터에 여러 경험 데이터를 주고 인공신경망에 학습시키는 것을 말한다. 머신 러닝, 즉 기계를 학습시킨다. # 학습 방법에 따른 분류 1. 지도 학습(Supervised Learning) ←본 과정에서는 지도 학습에 대해 학습함. 학습대상이 되는 데이터에 정답을 주어 규칙성, 즉 데이터의 패턴을 배우게 하는 학습 방법 2. 비지도 학습(Unsupervised Learning) 정답이 없는 데이터 만으로 배우게 하는 학습 방법 3. 강화 학습(Reinforcement Learning) 선택한 결과에 대해 보상을 받아 행동을 개선하면서 배우게 하는 ..

KT Aivle DX 트랙 20일차

>> Class(클래스) # 파이썬을 배우는 이유는 컴퓨터의 CPU, RAM, SSD 자원을 활용하는 방법을 배우기 위함이다. # 1. 변수선언 : RAM(메모리) 사용하는 방법 # 2. 데이터타입 : 메모리를 사용할 때 어떤 형태(숫자,문자,리스트,불리언,튜플등)의 데이터가 들어가는지 정의한다. RAM을 효율적으로 사용(공간을 배분)하는 장점이 있다. ex) 숫자가 들어가면 작은 공간, 문자열은 큰 공간 # 3. 연산자 : CPU를 사용하는 방법 # 4. 입출력 : SSD 사용하는 방법 : RAM에 있는 것을 SSD에 저장하거나 SSD에 있는 걸 RAM에 저장한다.: pickle # 5. 조건문, 반복문 : 코드를 효율적으로 사용하는 방법을 정의 : if, elif, else, for, while, b..

KT Aivle DX트랙 19일차

오늘의 수업 주제는 금요일에 이어서 데이터 수집! 금요일은 API에 대해 알아보는 시간이었다. 오늘은 웹크롤링, 한마디로 URL을 입력하여 데이터를 받아서 코드를 가지고 그 데이터를 데이터프레임으로 구현하는 수업을 할 시간이다. 일단 박두진 강사님은 크롤링보다는 웹에 대해 먼저 설명해주셨다. ------------------------request-----------------→ Client Internet Server ←---------------------response------------------ 클라이언트에서 URL을 입력하면 인터넷이 DNS서버(도메인 네임서버)로 URL을 IP(인터넷 프로토콜)주소로 바꿔준다. 서버는 24시간 켜져있고 일하는 컴퓨터. 브라우저(어플리케이션)는 웹서핑을 하기 ..

KT Aivle DX트랙 18일차

오늘의 교육과정은 데이터 수집이다. 이전까지는 로컬에서 기존파일을 읽거나 Github에서 데이터를 읽어와서 데이터를 다루고 다듬고 분석했던 수업들이었다. 예를 들어 로컬에서 읽어온다면, # 라이브러리 불러오기 import pandas as pd # 데이터 읽어오기 temp = pd.read_csv('로컬파일명.csv') # 확인 temp.head() Github에서 읽어온다면, # 라이브러리 불러오기 import pandas as pd # 데이터 읽어오기 path = 'https://raw.githubusercontent.com/Gitjub주소.csv' temp = pd.read_csv(path) # 확인 temp.head() ~ 이런 식이었다. 하지만, 로컬에서 읽는 건 필요한 데이터를 꼭 다운로드해야..