데이터 사이언티스트와 시작하는
통계와 R 머신러닝 완벽 가이드

'머신러닝 강의' 에서의 핵심 개념, 통계와 수학으로 배우는 R 머신러닝

강의 난이도
2/5
8번으로 제.대.로 이해하는 R 머신러닝 강의 !
머신러닝 알고리즘의 근본 이해, 어렵지는 않으셨나요?
머신러닝, 개념의 확실한 이해를 위해서는 통계적 지식과 수학적 개념이 필수입니다. 더 이상 오픈 소스를 찾기 보다 머신러닝 알고리즘을 정확히 배우고 활용해보세요.
본 강의에서는 다양한 머신러닝 알고리즘의 기본 원리부터 충실하게 배우고 현업에서 적용할 수 있는 방법을 배웁니다.

일정

20.05.10 ~ 20.06.28 | 총 8회
매주 일요일 10:00 ~ 13:00, 총 24시간

정원 및 준비물

총 15명
노트북

장소

러닝스푼즈 강의장
강남대로 94길 15, S2빌딩 3층
머신러닝
잠깐!
진짜 수학&통계도 모르면서
머신러닝을 제대로 적용하고 있다고 생각하세요?
“내 데이터에
어떤 머신러닝 기법을 골라야 할까요?”

고객의 성별, 나이, 주소, 결제 시간 등 변수의 종류가 많은 만큼 데이터 분석법도 천차만별.
내가 원하는 가설을 설정하고 검증하기 위한 데이터 셋 선택에는 데이터를 바라보는 통계적인 관점이 반드시 필요해요!

정확도 0.1% 올리는데
이렇게나 오래 걸린다고..!?”
만약 90%의 정확도에서 90.1%의 정확도로 머신러닝 예측도를 올리려면 수많은 시간과 테스트가 필요해요. 분류모형의 경우 성능을 판단할 때 혼동행렬을 사용하는 데, 이처럼 수학&통계 지식을 모른다면? 성능을 판단하고 개선하기가 어렵죠!
“머신러닝, 데이터와 코드만 넣으면
원하는 답이 나오나요?”
그럴리가요! 머신러닝 알고리즘 실행 결과로 여러 수치와 결과를 얻을 수 있는 데, 만약 수학&통계 지식을 알고 있다면 머신러닝의 결과에 대한 정확한 해석으로 제대로 적용할 수 있게 되겠죠?
이렇듯, 머신러닝을 제대로 적용하고 활용하려면
수학&통계는 필수적입니다.
수학&통계는 물론 머신러닝 알고리즘의 근본적인 이해까지 –
20년 이상 경력의 데이터 사이언티스트에게 제대로 배워보세요!
나성호 강사
· 기업리뷰 분석을 통한 국내 리테일 은행의 조직문화 분석
· 신용카드 고객의 이용 업종 기반 고객 세분화 및 연관규칙 발굴
· 소비 트렌드 발굴 및 카드 추천 모형 개발
· 행정자치부 공공데이터를 활용한 신규 고객 확대 방안
· 은행 지점 경쟁력 강화 방안 수립 및 은행 지점별 경쟁력 요인 분석
· 주성분 분석을 활용한 기업 분류 모형 개발
· 계좌이동제 시행에 따른 은행 고객 이탈 모형 개발
· 간편 결제 관련 PC 사의 향후 전망
· 금융회사 영업점 평가(KPI) 방안 연구 외 다수 프로젝트 진행

| 강의특징

머신러닝
01
“머신러닝이 무엇인지 제대로 배워보고 싶어요!”
솔직해집시다. 머신러닝을 잘 모르기도 하고, 안다고 해도 오픈소스 복붙하기 바빴던 지난 날들. 지금이라도 늦지 않았습니다. 머신러닝의 큰 틀인 지도학습, 비지도학습 중 현업에서 가장 많이 쓰는 기법들을 수학&통계를 기반으로 머신러닝 알고리즘을 강의 진행 시, 하나씩 살펴보며 제대로 알려드리겠습니다.
머신러닝
02
“그렇다고 제대로된 머신러닝 적용을 위한
수학&통계를 배우고자 대학원 진학을 할 수도 없고 ···”
우리가 ‘수학&통계’를 배워야 한다고 하면 뭔가 대학원을 가야만 할 것 같은 두려움에 사로잡혀 대학원 진학을 쉽게 생각합니다. 그것도 물론 좋지만, 머신러닝을 제대로 알고 적용하고자 대학원에 가긴 돈과 시간이 많이 들잖아요. 이 강의 하나면 적어도 머신러닝에 필요한 근본적인 수학&통계지식은 충분히 배울 수 있습니다. 딱 한 번으로 제대로 머신러닝 배워서 데이터 분석 전문가로 거듭나보자구요.
머신러닝
03
“결과적으로 데이터 분석을 너무 잘하고 싶어요!”
이 강의를 수강하는 분들 대부분이 데이터 분석으로 커리어를 시작하고 싶거나, 이미 데이터 분석을 하고 있으실겁니다. 데이터 분석 전문가는 3가지 역량인 프로그래밍 기술, 수학&통계 지식, 도메인 지식을 필수로 갖춰야합니다. 본 강의는 R을 활용한 프로그래밍 기술과 수학&통계 지식을 확실하게 가져갈 수 있도록 도와드립니다. 이 강의를 통해 확실하게 머신러닝을 배워보세요!
“단 8번으로 머신러닝의 원리를 이해하고
바로 활용해볼 수 있을까요?”
물론입니다! 강사님의 노하우가 모두 담긴
‘이론서’같은 교재가 있기에 충분히 가능합니다.
탄탄한 교재는 물론,
다양한 교육기관과 기업에서 인증받은 강의력까지 –
더 이상 시간 ·돈 낭비 없이
‘머신러닝 강의’를 통해 자유자재로 활용해보세요!

| 수강효과

01
알고리즘 분석을 통한
머신러닝 원리 완벽 이해!
단순히 오픈 소스를 복붙하면서 머신러닝 이론을 공부하는 것이 아닙니다. 수학&통계 기반으로 머신러닝 알고리즘을 하나하나 분석해나가며, 머신러닝의 원리를 근본적으로 이해하고 비교, 분석하면서 실제 나의 데이터에 어떤 머신러닝 기법을 적용할 수 있을 지에 대해서 알 수 있습니다.
02
다양한 머신러닝 기법을
상황에 따라 자유자재로!
근본적으로 머신러닝 원리를 이해하게 되었으니, 이제는 적용해야죠! 어떤 상황에서 어떤 머신러닝 기법을 사용해야 최선의 결과물을 얻어낼 수 있을지 쉽게 판단하게 되며, 이를 바탕으로 성과 창출은 물론 데이터 관련 직무자로서 스킬셋이 크게 향상하게 됩니다.
03
데이터 분석 직군에 필요한
통계 기반 관점 확립!
데이터 분석 직군에게 가장 필요한 3대 역량 중 하나로 ‘통계적인 관점’이 반드시 들어가죠. 수학&통계기반 데이터 분석을 꾸준히 진행한 결과, 이러한 통계학적 관점을 가지고 데이터를 바라볼 수 있는 시각을 가지게 됩니다. 이제는 어떤 데이터를 만나더라도 통계학적 관점으로 정확한 가설 설정 및 검증이 가능해집니다.

| 수강대상

R 기초(자료형(데이터 프레임, 리스트 등))를 알고 계신 분들을 전제로 합니다.

데이터 사이언스에 필요한
통계 지식이 궁금하신 분

수리 통계 지식을 바탕으로
머신러닝 코드를 깊게 이해하고 싶은 분

통계적 지식을 기반으로
논문을 작성해야 하는 분

딥러닝 입문

머신러닝을 현업에 적용하여
성과를 창출하고 싶은 분

단 8번의 머신러닝 강의,
머신러닝 알고리즘은 가능한 수식 단계까지 내려가 근본적인 원리를 설명드리고,
실습 과정에서는 효율적으로 코딩할 수 있는 프로그래밍 노하우도 함께 전달해드리겠습니다.
- 강사님 인터뷰 -

| 수강후기

허수정데이터 분석가
Read More
지금까지는 머신러닝이 뭔지도 제대로 모르고 그냥 선임들이 시키는대로 사용하기 바빴는데, 머신러닝의 원리부터 차근차근 학습해나가다보니 왜 그 머신러닝 개념을 사용해서 그 결과를 냈는지 이제서야 이해하게 되었습니다. 확실히 데이터 분석 직군에서 살아남으려면 통계지식은 무조건 필수인 것 같네요.
진창훈마케터
Read More
무엇보다 강사님의 열정적인 모습이 인상깊습니다! 강사님의 친절한 설명은 물론 머신러닝 강의이지만 R 프로그래밍 실력을 기초부터 집중적으로 학습할 수 있어서 너무 좋았습니다. 결과적으로 이론과 실습의 병행으로 실무에 바로 적용할 수 있었어서 만족합니다.
조형규데이터 분석가
Read More
강의안이 상당히 잘 되어 있는 것은 물론, 이 강의안이 제 것이 될 수 있도록 강사님이 설명을 굉장히 잘해주십니다. 특히 생소한 통계지식에 대한 설명이 충분해서 강의 후 교안과 강사님의 강의 내용을 바탕으로 복습할 수 있어서 데이터 분석가로서 역량이 확 성장하게 된 것 같아요.
임우진학생
Read More
대학원에서 논문을 준비하던 대학원생이었습니다. 물론 대학원 수업도 굉장히 좋았지만, 뭔가 이 강의는 대학원에서 배운 머신러닝 강의와 통계 강의를 실무에 적용하기 위한 함축적인 강의인 것 같다고 느꼈어요. 덕분에 배웠던 내용도 정리할 수 있었던 것은 물론, 논문 피드백까지 받을 수 있어서 감사했습니다. 퀄리티 있는 강의를 제공해주셔서 감사합니다.
Previous
Next

| 수강혜택

01
데이터 분석 커리어를 준비하는
석·박사 대학원생들을 위한 논문 피드백!
02
당장 머신러닝을 현업에 적용해야 하는
실무자분들을 위한 개별 컨설팅!

| 커리큘럼

목표변수가 있는 지도학습 알고리즘의 종류를 이해하고, 회귀모형 및 분류모형의 성능을 평가할 때 사용하는 다양한 지표가 의미하는 바를 이해할 수 있습니다.

이론
– 지도학습의 개념 및 프로세스
– 데이터셋 분할 방법의 이해 : Hold-out validation 및 k-folds cross-validation
– 회귀모형의 성능 평가 지표 : MSE, RMSE, MAE, MAPE
– 분류모형의 성능 평가 지표 : 혼동행렬, F1-점수, ROC 및 AUC
– 데이터표준화
– 다양한 거리 계산법

실습
– 데이터표준화를 위한 scale() 함수 활용법
– 거리 계산을 위한 dist() 및 daisy() 함수 활용법
목표변수와 입력변수 간 상관성 여부를 판단하기 위해 각 변수들의 속성에 따라 크게 4가지로 구분되는 검정 방법의 사용법에 대하여 알아봅니다.

이론
– 확률변수 및 확률분포의 개요 : 정규분포, 카이제곱분포, t분포 및 F분포
– 통계적 가설검정의 이해
– 4가지 검정 방법 : 피어슨 상관계수검정, t-검정, 분산분석 및 카이제곱검정

실습
– 정규분포 관련 함수 활용법 : rnorm(), pnorm(), qnorm(), dnorm()
– 목표변수와 입력변수 간 그래프 그리기 : 산점도, 상자수염그림
– 4가지 검정 방법 실습
선형회귀분석 알고리즘을 이용하여 연속형 목표변수에 대한 회귀모형을 적합하고, 여러 가지 가정을 만족하는지 여부를 확인하며 마지막으로 회귀모형의 성능을 평가하는 지표를 출력하는 방법에 대해 알아봅니다.

이론
– 선형회귀분석 알고리즘의 이해 : 회귀분석의 가정 및 최소제곱법을 통한 회귀계수의 추정
– 회귀모형 및 회귀계수의 유의성 검정 방법에 대한 이해
– 단계적 방법(stepwise)을 통한 변수선택법의 이해
– 다중공선성을 판단하는 분산팽창지수의 이해
– 표준화회귀계수의 이해 및 다중선형회귀모형의 해석

실습
– 데이터셋 분할 및 단순선형회귀모형의 적합
– 회귀모형 및 회귀계수의 유의성 검정
– 잔차가정 확인 : 그래프를 이용한 방법 및 car 패키지를 이용한 방법
– 분산팽창지수를 통한 다중공선성 문제 변수 확인
– 단계적 방법을 통한 다중선형회귀모형의 적합
– 표준화회귀계수 확인 및 회귀모형의 해석
– 회귀모형의 추정값 생성 및 4가지 성능 지표 확인 : MSE, RMSE, MAE, MAPE
로지스틱회귀분석 알고리즘을 이용하여 범주형 목표변수에 대한 분류모형을 적합하고, 모형의 유의성 검증을 실시하며 분류모형의 성능을 평가하는 지표를 출력하는 방법에 대해 알아봅니다.

이론
– 로지스틱회귀분석 알고리즘의 이해 : 오즈와 로짓변환
– 가능도 함수에 대한 이해 및 최대 로그 가능도 방법을 통한 회귀계수의 추정
– 로지스틱회귀모형 및 회귀계수의 유의성 검정 방법에 대한 이해
– 더미변수에 대한 이해
– 오즈비의 개념 및 로지스틱회귀모형의 해석

실습 – 데이터셋 분할 및 로지스틱회귀모형의 적합
– 로지스틱회귀모형 및 회귀계수의 유의성 검정
– 오즈비의 출력 및 해석
– 분류모형의 추정확률 생성 후 분리기준점에 따른 추정값 생성
– 분류모형 성능 지표 확인 : 혼동행렬, F1-점수, ROC 및 AUC
대표적인 비모수적인 알고리즘 중 하나인 의사결정나무 알고리즘을 이용하여 범주형 목표변수에 대한 분류모형을 적합하고, 과적합을 회피하기 위한 가지치기 필요 여부를 확인하는 방법에 대해 알아봅니다.

이론
– 의사결정나무 알고리즘의 이해 : 분리규칙 (불순도의 감소량)
– 가지치기 필요 여부 판단 기준
– 나무모형의 해석 및 활용법

실습
– 데이터셋 분할 및 의사결정나무 분류모형의 적합
– 가지치기 필요 여부 판단 방법
– 잔차가정 확인 : 그래프를 이용한 방법 및 car 패키지를 이용한 방법
– 나무모형의 시각화 및 해석
– 분류모형의 추정값 및 추정확률 생성 후 성능 지표 확인
회귀나무 알고리즘으로 연속형 목표변수에 대한 회귀모형을 적합하고, 선형회귀모형과의 성능을 비교합니다.

이론
– 회귀나무 알고리즘의 이해 : 분리규칙 (분산의 감소량)
– 가지치기 필요 여부 판단 기준
– 회귀나무모형의 해석 및 활용법

실습
– 데이터셋 분할 및 회귀나무모형의 적합
– 가지치기 필요 여부 판단 방법
– 회귀나무모형의 시각화 및 해석
– 회귀모형의 추정값 생성 후 성능 지표 확인
– 선형회귀분석 모형과 성능 비교
배깅 기법 중 부트스트랩핑을 활용한 랜덤 포레스트 알고리즘으로 분류모형을 생성한 다음, 의사결정나무 분류모형과의 성능을 비교하는 방법에 대해 알아봅니다.

이론
– 앙상블 방식의 비교 : 배깅과 부스팅
– 랜덤포레스트 알고리즘의 이해
– 변수의 중요도에 대한 이해
– 그리드 서치 방식을 활용한 분류모형 최적화

실습
– 데이터셋 분할 및 랜덤포레스트 분류모형의 적합
– 분류모형의 변수의 중요도 확인
– 그리드 서치를 통한 분류모형 최적화
– 의사결정나무 분류모형과의 성능 비교
부스팅 기법 중 경사하강법을 활용한 그래디언트 부스팅 알고리즘으로 분류모형을 생성한 다음, 랜덤 포레스트 분류모형과의 성능을 비교하는 방법에 대해 알아봅니다.

이론
– 경사하강법에 대한 이해
– 그래디언트 부스팅 알고리즘의 이해 : 분류모형의 손실함수
– 변수의 중요도에 대한 이해
– 그리드 서치 방식을 활용한 분류모형 최적화

실습
– 데이터셋 분할 및 그래디언트 부스팅 분류모형의 적합
– 분류모형의 변수의 중요도 확인
– 그리드 서치를 통한 분류모형 최적화
– 랜덤 포레스트 분류모형과의 성능 비교

| 강사소개 및 인터뷰

나성호
(현) 헬로데이터사이언스 대표
(전) 하나금융경영연구소
(전) 하나SK카드
(전) 현대캐피탈
(전) 삼성화재
– 패스트캠퍼스, 멀티캠퍼스, 데이터솔루션 등 다수 기업 강의

(학력)
– 한양대학교 경영학과 박사 과정 (MIS(데이터마이닝) 전공)
– 서울대학교 경영학과 석사 졸업 (마케팅(데이터베이스마케팅) 전공)
– 고려대학교 식량자원학과 학사 졸업
1. 자기소개 부탁드립니다.
안녕하세요! 나성호입니다. 저는 약 17년 간 다양한 금융회사를 다니면서, 고객 데이터를 분석하고 직접 마케팅을 수행하는 업무를 가장 많이 하였으며, 현재는 ‘헬로데이터사이언스’라는 작은 회사를 운영하면서 R과 Python을 활용한 데이터 분석 전반에 관하여 강의하고 있습니다.

오랜 기간 기업 현장에서 마케팅 데이터 분석가로 근무했던 경험을 토대로 현업에서 데이터 분석 업무를 담당하시는 수강생분들께 조금이나마 도움이 되는 내용을 전달해드리고자 노력하고 있습니다
2. 강의에서는 주로 어떤 내용을 다룰 예정이시고, 어떤 형태로 진행되나요?
머신러닝 데이터 분석을 잘 하려면 3가지 역량을 갖추어야 합니다.

첫 번째, R 프로그래밍 언어의 자료형과 기본 문법에 대한 지식이 있어야 합니다.
두 번째로는 아울러, 머신러닝 학습 알고리즘에 대한 깊이 있는 이해도 요구됩니다.
마지막으로 무엇보다 해결하려는 분야의 도메인 지식도 갖추고 있어야 합니다. 하지만 이는 수강생 여러분 각자가 해결할 수 있는 분야입니다.

이번 강의에서는 첫 번째 역량을 갖춘 수강생분들에게 두 번째 역량인 R을 활용한 머신러닝 데이터 분석 방법에 관한 전반적인 지식과 노하우를 전달해드릴 예정입니다.

알고리즘은 가능한 수식 단계까지 내려가 근본적인 원리를 설명드리고, 실습 과정에서는 효율적으로 코딩할 수 있는 프로그래밍 노하우도 함께 전달해드리겠습니다.
3. 본 강의에서 배운 내용을 수강생 분들이 어떻게 활용할 수 있을까요?
직장인들은 현업에서 해결하고자 하는 문제에 관하여 목표변수를 먼저 설정하고, 목표변수와 관련 있는 입력변수들로 데이터셋을 구성한 다음, 강의 중에 소개해드리는 다양한 머신러닝 알고리즘을 활용하여 다양한 모형을 적합하고, 성능을 비교함으로써 최적의 모형을 선택할 수 있습니다.

아울러 선택된 모형을 해석함으로써 실제 업무에 활용할 수 있는 액션플랜을 도출할 수 있어야 합니다. 이와 관련된 내용은 강의 도중에 설명해드리겠습니다.
4. 다른 강의와 어떤 차별 점이 있나요?
저는 3가지를 염두에 두어 강의하고 있습니다.

✔첫째, 겉만 아는 강의는 지양합니다. 따라서 코드만 알려주고 따라치게 하는 강의는 절대로 하지 않습니다. 물론 라이브로 코딩을 하기 때문에 수강생에 따라 학습 속도가 다르게 느껴질 수 있습니다.

✔둘째, 알고리즘의 기본 개념을 전달하는데 중점을 두고 있습니다. 당장은 어렵고 필요 없는 과정이라 생각될 수 있겠지만, 데이터 분석가로 오래 일하려면 알고리즘을 반드시 알아야 합니다.

✔마지막으로 효율적인 코딩을 위해 tidyverse 패키지 계열의 함수를 위주로 코딩하고 중복을 피하기 위해 가능한 사용자 정의 함수를 많이 만듭니다.
5. 마지막으로 수강생들에게 하고 싶으신 말
R은 프로그래밍 언어입니다. 저는 영어 공부하는 것과 같은 방법을 사용해야 한다고 생각합니다. 즉, 가능한 많은 코드를 접하고, 무조건 직접 손으로 몇 번이고 반복해서 코딩을 해봐야 합니다.

코드를 눈으로 읽고 해석할 수 있다고 해도 아직은 자신의 것이 아닙니다. 손가락에 코드를 익혀야 비로소 자신의 것이 됩니다.

이번 강의에서 전달해드리는 강의 내용을 제대로 습득하려면 상당한 시간이 소요될 것이므로, 우보천리의 마음가짐으로 꾸준하게 학습하시면 바라시는 바를 성취하실 수 있다고 저는 확신합니다.
수강료 110만 원80만 원
수강신청은 결제 순으로 선착순 마감될 수 있습니다.
개강 후 환불은 학원법 시행령 <제18조 제3항> 수강료 반환기준에 의거합니다.
# 환불 세부규정 확인하기 (클릭)
30만 원 할인, 놓치지 마세요!