2021년 4월 19일 월요일

(가칭) MSBA 데이터 처리 및 머신러닝 with 파이썬 목차

 제가 쓰고 있는 책의 목차입니다.


목차



1장.        유용한 사전지식

1-1. 교수님 과목 순서가 바뀌었어요.

1-2. 머신러닝 모델을 먼저 돌려 봐?

1-3. 이 책의 구성


2장.        아나콘다 내비게이터 설치 및 파이썬


3장.        프로젝트1. 미국 주택시장 가격 분석

3-1. 궁금한 게 뭔데? – 문제 제기

3-2. 어디서 데이터를 구하지? – 데이터 구하기

3-3. 타겟변수 설정

3-4. 데이터 처리 (Data Cleaning)

3-4-1. 데이터 불러오기

3-4-2. ID변수 설정 

3-4-3. 데이터 병합

3-4-4. 타겟변수 생성 

3-4-5. 기타 변수 데이터 처리1

3-4-6. 기타 변수 데이터 처리2

3-5. 탐색적 자료분석 및 시각화

3-5-1.  결측값50% 초과 변수 제거

3-5-2. 요약통계 및 도수분포표 검토

3-5-3. 이상값 제거

3-5-4. 상관계수 검토

3-5-5. t검정 (옵션)

3-5-6. 시각화

3-6. 머신러닝 모델 수립

3-7. 머신러닝 모델 실행

3-7-1. 데이터 추가 처리 (문자형 데이터 및 결측값 처리)

3-7-2. 데이터 분할 및 대체

3-7-3. Decision Tree 모델

3-7-4. Random Forest 모델

3-7-5. Gradient Boosting 모델

3-7-6. Bagging (for Decision Tree) 모델

3-7-7. Logistic Regression 모델

3-7-8. Lasso 모델

3-7-9. Neural Network  모델

3-7-10. SVM 모델

3-7-11. Lasso 변수 선택 후 Logistic Regression모델

3-7-12. LASSO 변수 선택 후 Neural Network 모델

3-7-13. LASSO 변수 선택 후 SVM 모델

3-7-14. Ensemble 모델

3-8. 최적 모델 선정 및 활용


4장.        프로젝트2. 국내기업 ERP 도입 요인 분석 가격 분석

...


1장.        Stack Overflow 이용 팁

2장.        자주 쓰이는 파이썬 기능 요약

3장.        자료 다운로드 및 데이터 정의

4장.        MSBA 에필로그

2021년 4월 16일 금요일

귀국 후 느낀 단상 (4월 중순)

데이터 읽는 남자 J

미국에서의 4년간 유학생활을 마치고 아이들을 데리고 귀국한지 3개월 반 정도 지났다. 그간 실은 미국 MSBA에서 배운 파이썬 코딩 및 머신러닝 절차를 지도교수님의 허락하에 책으로 쓰고 있어서 바쁜 나날을 보내고 있었다. 몇 개월 후에는 책으로 출간되기를 꿈 꿔 본다.

오늘은 우리 집의 '화장실 천재 Coke'군이 ACT 시험을 보는 날이라서 아침 일찍 서울 마포에 있는 풀브라이트 코리아 건물에 Coke군을 집어넣고 왔다. 시험 잘 보기를^^

옆에 스벅이 있었으면 좋겠다고 생각해쓴데 아예 옆 건물에 있다. 한국 만세!

여기서도 쓰고 있는 책 원고를 정서하다가 2시간 넘게 정서하니까 정신이 나갈 것 같아서 지난 3개월간 한국에서 느낀 점들을 잠시 정리하는 게 나을 것 같아서 블로그에 돌아왔다. 아마 몇 개월 후면 이 감각을 잊어버릴 것이므로 적어두겠다.

우선 '어디서나 걸을 수 있다'는 점이 돌아온 한국에서의 최대 장점 중 하나이다. 우웅? 미국에서는 못 걸어요? 라고 물어본다면... 안 걷게 된다, 그리고 걸으면 안되는 사회적 분위기(?)다 라고만 답변해 두겠다. 이건 설명하기 좀 어렵고 미국 가서 몇 달 살아보면 절실히 깨닫게 된다. 좀 걷고 싶은데... 걸을 데 까지 또 한참 차 타고 나가야 한다. 귀찮아서 못 걷는다.^^ 특히 어둠이 깔리면 공원 자체도 출입금지다. 우리나라에서는 직장 다니면서 지하철 등을 타고 다니고 점심 먹으러 나다니고 집에 귀가해서 잠시만 걸으면 가볍게 1만보를 돌파한다. 환상이다. 미국에 없는 엄청난 건강 환경이다.

둘째, 자동차 타고 다니면 가끔 재미있는 광경을 보게 된다. 나는 건널목에 주차해 있고 앞에 사람들이 건너는데 가끔 사람들이 미안해 하면서 뛰어서 건널목을 건넌다. 이 때 건널목은 신호등이 없는 아파트 단지내 건널목이다. 그때 차 안에서 이 광경을 보면 절로 웃음이 난다. 아...뛰실 필요까지는 없는데... 하면서. 미쿡에서는 정말 상상도 못할 일이다. 뛰시는 분들에게 감사한 마음, 그리고 미안한 마음 이렇게 동시에 복잡한 마음이 든다. 그런데 더 웃긴 건, 내가 그 건널목을 건널 때는 나도 차에게 미안해서 뛰게 된다는 것이다. 한국생활 업데이팅 장착?!

세째, 건물 문 열 때 가끔씩 습관적으로 뒷사람이 편하도록 나도 모르게 문을 잡고 있다. 그럼 한국분들은 (그렇게 해주는 사람이 없기 때문에) 엄청 고마워들 하신다. 이 미쿡 습관은 가급적 계속 장착한 채 살아가고 싶다.

네째,  한국에 귀국해서 갑자기 대장활동이 활발해 졌다. 이는 음식이 신토불이 음식이 들어가고 맘이 편해져서인지 호홋 소화가 갑자기 엄청 잘된다. 3개월 반이 지난 지금도 한국 집밥이 그렇게 맛있다. 

다섯째, 코로나 땜에 조금 일찍 귀국한 면이 있어서 '화장실 천재 Coke'군도 한국에 귀국해서 외국인 고등학교를 가게 되었다. 으음....외국인 고등학교 학비가...학비가... UCO대학 MSBA 1년 학비의 두 배가 더 된다. 아웅.... 학비를 생각하면 코로나 위험을 감수하고 내가 UCO의 골프학부라도 들어갈 걸 그랬다. 참고로 나는 골프 처럼 작은 공 스포츠는 아주 싫어한다. 왕 큰 공 스포츠를 좋아한다. 축구, 농구처럼. 단 야구는 예외로 좋아한다. 일전에 170만원짜리 미국차(?) 이야기를 한 바 이다. 내가 거주하는 분당에 고급 외제차가 적지 않은 비중이지만, 외국인 고등학교 주차장에 가면 엄청난 학비를 감당하는 분들이라서 그런지 일단 거짓말 안하고 절반이 1억이 넘는 외제차들이다. 내 생전 그렇게 많은 고급 외제차 행렬은 한국에서는 처음 본다. 매일 Coke군 등하교 시킬 때마다 보는 광경이다. 그럼 스쿨버스를 태우지 왜 힘들게 170만원짜리 미국차로 등하교 시키냐고 물으신다면..호홋... 스쿨버스는 1년에 가볍게 270만원인가 280만원 내기 때문에 미국차를 1대 반이나 더 살 수 있다. 그래서 가볍게 스쿨버스는 포기. 이 이야기를 이렇게 길게 하는 이유는 하루키의 상실의 시대에 보면 여자 주인공 미도리네 집안이 집안은 가난한데 고급 사립학교에 미도리를 넣어서 미도리가 엄청 고생한 이야기가 나온다. 아내와 이런 이야기를 종종 나눈다. 우리 집이 바로 Coke군 고등학교의 미도리네 집안 고바야시 서점이라고. 소설 이야기가 우리 집 이야기가 되다니...

여섯 째, 다른 영어는 귀국해서 입에서 튀어나오는지는 모르겠는데 황당하거나 당황스러운 일이 있을 때 'Oh my God!'은 가끔 튀어나온다. 영어 잘하는 편도 아니고 평상시 영어를 이제는 쓰지도 않는다. 좀 경망스럽다. 이 습관은 빨리 단절해야 겠다. 아 책을 펴서 강사 생활을 조금씩 뚫으면 전화 영어를 좀 해서 아예 영어 말하기  기능을 상실하는 일은 방지해야 겠다.

일곱째, 미국의 Half Price Books에 해당하는 알라딘 중고서점이 우리 집 앞에서 5분 거리에 있는데 완죤 환상적이다. 코로나 시기에 망하면 안된다를 간절히 외치고 있다. 내게는 스벅보다도 더 중요한 시설이다. 꼭 살아남아 주시고 다른 동네에도 계속 개설해서 번창하세요. 아... 알라딘 중고서점에 알바라도 하고 싶다. 책 좀 읽으면서^^

글을 마치면서 마포 한가운데 풀브라이트 코리아 건물 바로 옆에 노변 공원이 있는 줄 몰랐다. 국내는 이렇게 너무나도 걷기 좋은 시설이 곧곧에 들어서고 있다. 나보다도 팔자가 좋을 것 같은 견공들도 자주 보이고^^

그리고 원년부터 프로야구를 봐 왔는데 해가 갈수록 더 재밌어진다. 저녁에 프로야구 중계를 틀거나 문자중계 보면서 책 원고를 수정하고 있으려니 행복한 미소가 절로 난다. 아직 본격적으로 돈을 벌지 못해 아내에게 미안하지만 아침에 햇빛 쬐면서 책 원고 쓰고, 저녁에 프로야구 들으면서 책 원고 감수하고 하는 지난 한달 반이 정말 행복했다. 

내년 프로야구가 개막할 때 쯤에는 책과 강사 일도 좀 풀려서 집안에도 보탬이 되고 싶은 생각이다. 또 달려나가보자.





 


  










 

2021년 2월 15일 월요일

귀국했습니다. 그리고 일상의 생각들 기록 시작, 우선 "미국차"

지난 4년간 미국 주립대 University of Central Oklahoma에서 MBA 그리고 MSBA (Master of Science in Business Analytics)를 졸업하고 지난 12워말 1월 초 귀국했습니다. 이제 재학생이 아니고 졸업생이네요^^

돌아와서 다시 한국생활에 적응하는 약간의 적응기도 있었고, 일을 준비하는 단계이기도 합니다. 아마 수개월에서 혹은 더 길게 일 준비를 할 것 같습니다.  때문에 이 블로그에는 제가 미국에서 배워 온 학문들의 체계적인 내용일 실릴 수도 있고, 그냥 일상생활 기록들을 생각나는대로 올릴지도 모르겠습니다. 

지금 현재 제 생각은 여기는 평소대로 제 신변잡기 및 제 취미인 영어표현 수집 등을 적는 내 마음의 일기장으로 할까 생각중입니다. ... 미국에서 배워 온 학문내용은 다른 블로그에 올릴까 생각중입니다.

오늘은 "미국차" 관련 에피소드를 올릴까 합니다.

제 아이가 미국에서 4년간 Oklahoma Edmond의 중고등학교에서 재학했기 때문에 국내 돌아와서는 다행히 외국인학교 고등학교에 들어가서 고교생활을 시작했습니다.

제 모교인 University of Central Oklahoma에서 인터스터디를 통한 유학생으로 장학금 받고 즐겁게 다녔고, 학비도 왕 저렴하기 때문에 실은 별 걱정없이 4년을 다녔는데요. 특히 제 아이들은 미국 중고교 다니면서 모두 무료로 다녔습니다. 참고로 제 아이가 다녔던 Edmond North High School은 오클라호마 주내에서 인정받는 공립고교였습니다. 

그런데 웬걸, 한국에 돌아오니 한국의 외국인학교는 1년 학비가 3천5백만원 선입니다. 기절할 뻔 했습니다^^. 하지만 막상 들어가니까 학교 선생님들이 아무래도 사립학교다 보니 여러모로 학생들을 배려해 주시고 대학입학 컨설팅도 해주시는 것 같아 뭐... 미국고교보다 나은 점도 있네, 하면서 놀라워 하고 있습니다. 미국은 월마트 절반쯤 되는 광할하게 넓은 학교 건물이 옆으로 퍼져서 달랑 2층으로 됐는데, 여기 학교는 7층인가로 건물이 구성돼 있어서 아이가 계단 오르락 내리락 하느라 바쁩니다. 

일단 제 MSBA학비가 학기당 7천불대였고, 장학금 받은 것 감하고 학교에서 학생 job 하거나 교수님 Research Assistant해서 번 수익을 제외하면 저는 한 학기당 사실 3천불~4천불 미만으로 학비가 들었는데요. 그럼 1년 치면 얼마 안 들거든요. 암튼 우리 아이 1년 한국내 외국인고교 다니는 돈으로 저는 UCO를 4년은 거뜬히 다닐 수 있다는 계산이 나오네요^^ 물론 미국에 거주하면 아파트 렌트비를 내야해서 전체 계산이 달라지지만요.

한국의 외국인고교 버스통학비가 1년에  270~80만원인가 합니다. 그래서 겸사겸사해서 지인이 다니는 회사에서 직원간에만 사고파는 20년된 국산 중고차를 170만원인가 들여서 하나 샀습니다. 순전히 아이 통학시켜줄 요량으로^^

그런데 첫날 통학하려고 차를 시동을 거는데 놀랍게도 왼쪽 사이드미러가 펼치고 닫는 기능이 고장나서 진짜 우왕좌왕했습니다. 그래서 15분 걸리는 통학길을 왼쪽 사이드미러 없이 정말 조심조심해서 운전을 해서 아이를 데려다 주었습니다. 돌아와서 부리나케 자동차 서비스센터에 가서 물어보니까 고치는데 17만원 이상 든다고 하네요. 호홋...그래서 자동차 값의 10%를 주고 고칠 순 없으니까(^^) 그냥 집으로 다시 와서 손으로 어찌어찌해서 기어코 정상각도로 왼쪽 사이드 미러를 만들어놨습니다. 여기서 헛점은 만약 다시 한번 사이드미러 작동버튼을 누르면 또다시 왼쪽 사이드 미러 각도가 엉망이 된다는 것이었습니다. 그래서 룰을 정했습니다.

"이 차의 사이드미러 버튼은 결코 건드리지 않겠다."라고

그날 오후 자랑스럽게 아이를 데리러 아이 고교로 차를 몰고 갔더니, 아이가 신기했는지 어떻게 사이드미러 고쳤냐고 묻더라고요. 그래서 얼렁뚱땅 대강 손으로 손봐줬다고 둘러대고서 혹시나 하는 말인데 이 차의 사이드미러 버튼은 두 번 다시 건드리면 안된다고 엄포를 놨습니다.

그러자, 제 아이가 한 마디 했고 저는 웃겨서 쓰러질 뻔 했습니다.

"그럼 이 차 미국차 됐네요!"

이게 무슨 말이냐면, 미국 차는 대부분 사이드 미러 접는 기능 자체가 없습니다. 주차장 간격이 넓어서 사이드 미러를 접을 필요가 없거든요. 미국에서 차를 구입하고 집에 와서 며칠 후 사이드 미러 접는 기능이 없다는 것을 발견하고 웃펐던 기억이 나네요. 참고로 제 차는 토요타 캠리였습니다. 

오케이! 외국인 고교에 아이를 데려다 주는 데는 역시 "미국차"로 델다 줘야지 제격이지...

하면서 아침마다 아파트 주차장에서 저희의 그 170만원짜리 "미국차"에 시동을 걸고 있습니다.

--

제가 글을 쓰면서 마음이 정리되는 스타일이라 이 블로그에는 신변잡기, 책, 언어배우기 등을 천천히 올릴가 합니다. 아마 제 마음의 공개 일기장 정도로 이 블로그를 쓸 것 같습니다.


미국대학에서 돌아온 J