artificial intelligence

강화학습 핵심개념과 알고리즘 구현
Reinforcement learning

본 콘텐츠는 강화학습을 원리부터 탄탄하게 이해하고 실습으로 익히는 강화학습 알고리즘 온라인 강의입니다. 세계 최고의 인공지능 회사인 Deepmind와 OpenAI가 주로 연구하는 강화학습을 기초부터 튼튼하게 학습하는 프리미엄 온라인 강좌! 지금 들어보세요!

난이도

중상-심화

수강료

190,000원

총 영상 분량

미정

바둑 AI 알파고를 만든 강화학습 (Reinforcement Learning)

세계적인 프로 바둑 기사인 이세돌 9단과의 시합 알파고는 수를 둘 때마다 다양한 착점 중 가장 승률이 높을 것으로 계산된 수를 선택하며 바둑을 진행하여 반복 학습을 통해 바둑을 두는 과정을 깨우쳐 나가는 강화 학습(reinforcement learning)을 통해 학습된 대표적인 케이스라고 할 수 있습니다.

의사결정을 최적화시켜주는 기술, 강화학습

강화학습이라는 기술은 인간의 도파민 시스템에서부터 착안이 되어서 환경에서 보상과 상태의 변화를 통해서 로봇이 스스로 환경 속에서 살아남는 법을 배우게 하는 방법입니다. 기존의 지도학습, 비지도학습과 다르게 어떤 지침이 내려오는 것이 아니라 평가를 통해서 더 좋은 선택을 하게 됩니다.

결국, 강화학습은 AI의 미래와 닮아있다
인공지능 분야에서 가장 사랑받는 분야이자 세계 최고의 인공지능 회사인 Deepmind와 OpenAI가 연구하는 분야가 바로 강화학습입니다. 이 기술이 앞으로 세상을 바꾸는 기술이 될 것이라고 확신하며, 그것이 곧 AI의 미래가 될 것입니다.

강화학습 기초이론부터 핵심개념, 알고리즘 구현까지!
본 강의는 AI 엔지니어 송호연님과 함께 강화학습의 기초개념부터 핵심이론, 그리고 최신 강화학습 알고리즘에 대해 학습합니다. 특히 이론 지식 뿐만 아니라 수학적인 배경지식을 바탕으로 다양한 최신 강화학습 알고리즘 등을 학습하게 됩니다.

강화학습 개념부터 알고리즘 구현까지

AI 인공지능 덕후 크리스 송호연과 함께하는 강화학습 알고리즘, 같이 공부 해보실까요?

본 강의는 어떻게 구성되나요?

Course Curriculum

1강 강화학습 소개
2강 멀티 암드 벤디트
3강 마르코프 결정 곽정
4강 동적 프로그래밍
5강 몬테카를로 방법
6강 시간차 학습
7강 n단계 부트스트랩
8강 표에 기반한 방법을 이용한 계획 및 학습
9강 근사를 이용한 활성 정책 예측
10강 근사를 적용한 활성 정책 제어
11강 근사를 활용한 비활성 정책 방법
12강 적격 흔적
13강 정책 경사도 방법
– 강화학습이란 무엇인가?
– 강화학습 프레임 워크 (Reinforcement Learning Framework)
– 도파민 시스템
– 에이전드, 탐험과 활용
– 특정 상황이 주어졌을 때 에이전트가 취하는 정책(Policy)
– 보상 신호 (Reward Signal)
– 가치 함수 (Value Function)
– 환경 모델 (model based/model-free)
– 멀티 암드 밴딧 (Multi-aremd Bandit)
– Not instruction, But evaluation
– 탐험, 활용 트레이드 오프
– 행동 가치 방법 (Action Value Method)
– 탐욕적 정책 (greedy policy)
– 입실론 탐욕정 정책 (epsilon greedy policy)
– 점증적 구현 (incremental policy)
– 기하급수적 최신 가중 평균 (exponential recency-weighted average)
– 신뢰 상한 절냑 (upper confiednce Bound, UCB)
– 맥락적 밴디트 (Contextual Bandit)
– 밴디트 알고리즘들 (Bandit Algorithms)
– 마르코프 상태 (Markov State)
– 보상 (Reward)
– 상태 전이 확률 (State Transition Probability)
– 상태 전이 행렬 (State Transition Matrix)
– 마르코프 프로세스 (Markov Process)
– 마르코프 보상 프로세스 (Markov Reward Process)
– 보상, 가치 함수 (Reward, Value Function)
– 이득 (Return)
– 할인 계수 (Discount Factor)
– 가치 함수 (Value Function)
– 마르코프 결정 프로세스 (Markov Decision Process)
– 정책 (Policy)
– 상태 가치 함수 (State Value Function)
– 행동 가치 함수 (Action Value Function)
– 벨만 방정식 (Bellamn Equation)
– 최적 가치 함수, 정책 (Optimal Value Function, Policy)
– 동적 프로그래밍을 활용한 계획 (Planning by Dynamic Programming)
– 정책 반복 (Policy Iteration)
– 정책 평가 (Policy Evaluation (Prediction))
– 정책 향상 (Policy Improvement (Control))
– 가치 반복 (Value Iteration)
– 일반화된 정책 반복 (Generalized Policy Iteration)
– 몬테카를로 강화학습 (Monte-Carlo Reinforcement Learning)
– 몬테카를로 예측 (Monte-Carlo Prediction)
– 블랙잭 예시 (Blackjacm Example)
– 몬테카를로 행동 가치 추정 (Monte-Carlo Action-Value Estimation)
– 몬테카를로 제어 (Monte-Carlo Control)
– 활성 정책 & 비활성 정책 (On-policy & Off-policy)
– 중요도 샘플링 (Importance Sampling)
– 비활성 몬테카를로 (Importance Sampling for Off-Policy Monte-Carlo)
– 입실론 탐욕적 정책 (e-greedy exploration)
– 몬테카를로 정책 반복 (Monte-Carlo policy Iteration)
– 시간차 학습 (MC vs TD Control)
– 몬테카를로 백업 (Monte-Carlo Backup)
– 시간차 백업 (Temporal-Difference Backup)
– 동적 프로그래밍 백업 (Dynamic Programming Backup)
– 부트스트래핑과 샘플링 (Bootstrapping and Sampling) – 강화학습에 대한 통합적인 뷰
– 몬테카를로 행동 가치 추정 (Monte-Carlo Aciton-Value Estimation)
– 몬테카를로 제어 (Monte-Carlo Control)
– 활성 정책 & 비활성 정책 (On-policy & Off-policy)
– 중요도 샘플링 (Importance Sampling)
– 중요도 샘플링을 활용한 비활성 몬테카를로 (Importance Sampling for Off-Policy Monte-Carlo)
– 중요도 샘플링을 활용한 비활성 시간차학습 (Importance Sampling for Off-Policy TD)
– 큐러닝 제어 알고리즘 (Q-Learning Control Algorithm)
– SARSA의 Q함수 업데이트 공식 (Updating Action-Value Functions with SARSA)
– 큐러닝 제어 알고리즘 (Q-Learning Control Algorithm)
– DP와 TD의 관계 (Relationshop Between DP and TD)
– n단계 TD 방법 (n-step TD learning)
– 단일 단계 TD (one-step TD)
– 두 단계 TD (two-step TD)
– n단계 TD (n-step TD)
– n단계 SARSA (n-step SARSA)
– n단계 비활성 정책 학습 (n-step off-policy learning)
– 모델 기반 & 모델 자유 (model-based & model-free RL)
– 분포 모델 & 표본 모델 (distributional model & sample model)
– 시뮬레이션 (simulation)
– 상태 공간 계획 & 계획 공간 계획 (state-space planning & plan-space planning)
– 시뮬레이션된 경험 (simuatled experience)
– 계획과 학습의 관계 (Relationship between planning and learning)
– 다이나 Q (Dyna-Q)
– 모델 학습 & 강화학습 (model-learning & reinforcement-learning)
– 직/간접적 강화학습 (direct/indirect reinforcement-learning)
– 다이나-Q 알고리즘 (Dyna-Q Algorithm)
– Dyna Maze 예제
– Dyna-Q: Maze Experiment
– 다이나 미로: 직관 (Dyna Maze: Intuition)
– 잘못된 모델의 확률 (Possibility of a wrong model)
– 환경 변화 예시 (An example of environment change)
– 다이나-Q+ (Dyna-Q+)
– 우선순위가 있는 일괄처리 (Prioritized Sweeping)
– 주사위 던지기 정책 (Rollout Policy)
– 몬테카를로 트리 탐색 (Monte-Carlo Tree Search)
– 몬테카를로 트리 탐색: 4단계 (Monte-Carlo Tree Search: 4 Steps)
– Selection, Expansion, Simulation, Update
– 가치 함수 근사 (Value Function: Approximation)
– 대규모 강화학습 (Large-Scale Reinforcement Learning)
– 예측 목적 (VE, 평균 제곱 오차, Mean Squared Value Error)
– 어떤 근사 함수를 사용할까? (planning)
– 비선형 함수 근사: 인공 신경망 (Artificial Neural Network)
– Gradient Descent
– 특성 벡터 (Feature Vectors)
– Experience Replay in DQN
– DQN in Atari
– 선형 가치 함수 근사 (Linear Least Squares Prediction)
– 선형 최소 제곱 예측

Special 01. AI 엔지니어 Chris 송호연 직강

카카오, 네이버를 거쳐 Google Developer Expert로 활동하면서 최신 강화학습 기술을
개발하고 있는 AI 엔지니어 송호연이 직접 강의 합니다.

Special 02. 강화학습 기초개념부터 탄탄히!

원리부터 시작하여 핵심 개념까지 이해하는 최고의 강화학습 알고리즘 이론 수업!
본 강의 하나로 모두 정리할 수 있습니다.

Special 03. 강화학습 핵심 알고리즘 구현 실습

각 실습 예제들은 앞에서 배운 알고리즘을 자연스럽게 다시 활용할 수 있도록 구성되어있습니다. 기초 모델부터 시작하여 성능 개선까지 차근차근 모든 알고리즘을 실습, 구현해보는 과정입니다.

Google Developer Expert이자 AI 덕후 Chris와 함께
강화학습을 시작해보세요!

수강대상은 어떻게 되나요?

Target audience

강화학습 기초부터, 강화학습의 전체적인 그림을 이해하고 싶은 분

강화학습을 이제 막 시작하고자 하시는 분들에게 강화학습의 기초와 그림을 어떤 것보다 쉽게 그려주는 강의입니다.

AI을 제품과 서비스에 적용시키기 위한 연구를 진행 중인 개발자/엔지니어

AI Production을 위해 다양한 기술과 알고리즘을 개발하고 있는 개발자와 엔지니어들에게 필요한 강의입니다.

강화학습의 원리를 깊게 이해하여 활용해보고 싶은 개발자/엔지니어

강화학습의 깊이 있는 공부가 필요한 분들을 위해 커리큘럼이 구성되어 있습니다. 특히 수학적인 원리와 알고리즘을 깊게 다룹니다.

본 강의의 강사님은?

Course Instructor

Chris 송호연

AI Engineer

(현) Tensorflow Contributor
(현) Google Developer Expert for Machine Learning
(전) Naver Clova AI Research Engineer
(전) Kakao Data Engineer
– KAIST 전산학과/기술경영학과 학부 졸업
– KAIST 기술경영전문대학원 석사 졸업
오직 러닝스푼즈에서만!
강화학습이 세상을 바꿔나가는 여정을 함께 하세요!