게임, 로보틱스 환경으로 배우는
심층 강화학습 입문

강화학습 입문에 필요한 핵심 논문 10개 구현과 5개 환경에서의 실습까지

강의 난이도
3/5
강화학습을 완전히 이해하고 활용하기 위해서는
반드시 수학적인 이해와 다양한 환경에서의 실습이 필요합니다.
선형대수, 확률과 통계, 미분 등 강화학습을 제대로 활용하기 위해 반드시 이해해야 하는 수학부터,
게임, 로보틱스 환경에서의 실습을 진행해보며 다양한 환경에서의 강화학습을 경험해봅니다.
뿐만 아니라 강화학습을 응용한 Application 강사님의 컨설팅까지!
고전 강화학습부터 최신 강화학습 논문 10개를 리뷰하고 구현해보면서 강화학습을 완벽 입문해보세요.

일정

21.03.27 ~ 21.05.08 | 총 7회
매주 토요일 10:00 ~ 13:00, 총 21시간
* 코로나 상황에 따라 온라인 라이브 병행

정원 및 준비물

총 15명
노트북

장소

러닝스푼즈 강의장
강남대로 94길 15, S2빌딩 4층
강화학습,
다양한 영역에서의 적용 사례를 통해
그 성과를 확인할 수 있습니다.
아래는 강화학습을 적용한 예시입니다.(출처: 유튜브)

로보틱스

컴퓨터비전

최적화

자연어처리

게임

추천시스템

강화학습, 배워서 활용하려 보니
어떻게 시작해야 할 지 막막하지 않으셨나요?
강화학습

단 7번의 강의로
이 모든 것을 해결할 수 있도록 -
강화학습 의 핵심 논문 10개 리뷰와 구현까지 모든 걸 담았습니다.

핵심만 다루는 논문 10개
탄탄한 수학 이론 학습
강화학습
5가지 환경에서의 실습
강화학습

이를 통해 여러분은 다양한 환경을 스스로 구성하여
향상된 강화학습의 결과물을 만들 수 있습니다.

| 강의특징

01
강화학습에 대한
탄탄한 수학 이론 학습
강화학습을 보다 잘 이해하기 위해서는 수학적인 개념이 필수입니다. 그러나, 강화학습을 처음 공부하실 때 강화학습 이론에서 나오는 수학에 대한 이해가 부족해서 포기하시는 분들이 많습니다. 우리는 본 과정에서 단순히 코드 실습을 통해 알고리즘을 이해하는 것이 아니라 세세한 수식 학습을 통해 알고리즘의 원리를 파악합니다. 그림과 예제들을 통해 수식을 보다 이해하기 쉽게 강의를 구성했습니다.
02
고전부터 최신 알고리즘을
모두 담은 커리큘럼
고전 강화학습에서 나오는 주요 알고리즘을 모두 다루며 강화학습의 기본을 다집니다. 이후 최신 발표된 논문 중 심층 강화학습에서 필수로 봐야하는 10개의 논문을 리뷰합니다. 최신 논문에서 나오는 심층 강화학습 알고리즘을 다룰 때에는 오픈소스 딥러닝 프레임워크인 PyTorch를 사용합니다. PyTorch의 장점을 기반으로 하여 최신 알고리즘들까지 쉽고 세세하게 리뷰하고 구현하고자 합니다.
03
간단한 제어 환경부터 시뮬레이션 환경까지
강화학습에서 가장 중요한 특징은 환경에서 에이전트를 움직인다는 것입니다. 에이전트를 움직이는 알고리즘도 중요하지만, 환경을 잘 구성해주는 것이 매우 중요합니다. 본 강의에서는 간단한 제어 환경 뿐만 아니라 실제 게임과 그래픽스에서 쓰이는 시뮬레이션 환경까지 포함하여 복잡한 환경에서는 환경이 어떻게 구성되어 있는지, 환경을 구성할 때는 무엇이 중요한 지 등을 알려드립니다.
강화학습을 적용하기 위해서는 아래와 같은 5가지 요소가 필요합니다.

환경

행동

상태

에이전트

보상

특히, 강화학습의 중요한 특징
에이전트가 움직이는 환경을 잘 구성하는 것이 무엇보다 중요합니다.
본 강의는 간단한 Toy 환경 뿐만 아니라,
실제 게임과 그래픽스에서 쓰이는 시뮬레이션 환경
복잡한 환경까지 다루게 됩니다.
즉, 강화학습을 복잡한 환경에서 실습할 수 있는 유일한 강의입니다.
본 과정은 강화학습을 입문으로 하는 분들을 대상으로 합니다.
수식의 이해와 고전 강화학습부터 최신 강화학습
논문 10개의 리뷰와 구현을 통해 입문을 도와드립니다.
강화학습 코리아 운영진이자
한양대학교 석사과정에서 강화학습을 연구하는
현업 전문가에게 직접 배웁니다.
강화학습
이동민 강사
(현) 한양대학교 석사과정
(현) Reinforcement Learning Korea 운영진
– 서울대학교 로봇 학습 연구실 연구
– 서울대학교 제어 및 최적화 연구실 연구
– 삼성 멀티캠퍼스 강화학습 강사
– 삼성전자 서울대 공동연구소 강화학습 강사
– 한국원자력연구원 강화학습 세미나 발표
– 한국항공우주연구원 강화학습 세미나 발표
– 1st 함께하는 딥러닝 컨퍼런스 강화학습 세미나 발표

| 수강효과

01
파이토치를 활용한
강화학습 이론 완벽 습득
해당 강의를 통해 우리는 지금까지 세세한 수식 학습으로 알고리즘의 원리를 파악하는 연습을 통해 강화학습에 대한 탄탄한 기본기를 쌓았습니다. 이제 쌓았던 기본기를 바탕으로 강화학습 논문을 볼 때 이해하지 못하고 놓쳤던 부분들을 이해할 수 있도록 도움을 줄 것입니다. 배웠던 것을 이용하여 다양한 논문들을 읽고 활용해보세요!
02
최신 강화학습 이론읕 통한
논문 이해와 알고리즘 구현 능력
실제로 혼자 논문을 보면 이해가 쉽지않고 오픈소스 알고리즘들도 복잡한 형태이기에 파악하기 어렵습니다. 수강 후, 실제 혼자 논문을 볼 수 있고, 복잡한 형태가 아닌 간결한 형태의 코드를 통해 알고리즘 코드의 핵심적인 부분을 이해하게 됩니다. 또한 구현 시, 결과 분석과 파라미터에 대한 변화 확인 및 결과 비교을 통해 앞으로 강화학습 구현과 분석이 더 쉽게 느껴질 것입니다.
03
강화학습 전문가의 논문 및 실무 컨설팅 기회
수강 시에는 환경을 주로 게임과 로보틱스에 맞추어 학습했지만, 헬스케어, 교통, 에너지, 비즈니스 관리, 금융 등 다양한 분야에 강화학습을 적용하고 싶은 분들은 저와 함께 수강생분들이 가지고 있는 고민을 함께 나누고자 합니다. 현업에서는 강화학습을 어떻게 적용해야 할지, 환경은 어떻게 구성해야 할 지, 해결하고자 하는 문제에는 어떤 알고리즘이 제일 알맞은 지 등을 컨설팅 받을 수 있습니다.

| 수강대상

강화학습에 필요한 수학적 지식을 쌓아 입문하고 싶은 분

numpy를 다뤄본 경험이 있으며, 딥러닝 기초 개념 학습 후 다음 단계로 나아가고 싶은 분

대학원 논문을 작성하고 있거나 현업에서 강화학습을 사용해 성과를 내기 위해 조언을 받고 싶은 수강생

"파이썬을 전혀 모르는 데 수강할 수 없는걸까?"

수강대상을 보고
자신은 파이썬을 전혀 모르는
데.알.못이라고 걱정하지 마세요!
수강생 분들의 성장을 위한 의지와 열정에
러닝스푼즈가 최선을 다해 도와드리겠습니다.

파이토치를 활용한 강화학습 입문.
10번의 논문 리뷰와 구현 그리고 실습을 통한 환경 구성까지.

| 커리큘럼

강화학습의 개념에 대해서 알아봅니다. 그리고 강화학습이 어떻게 발전되어 왔고, 최신 강화학습의 사례들은 어디까지 확장해 있는지 알아봅니다. 강화학습이 많은 발전을 이루었지만, 어떠한 한계점들이 있는지 알아봅니다. 그리고 강화학습에서 가장 기본적인 개념인 마르코프 결정과정(Markov Decision Process)을 소개합니다. 실습에서는 앞으로 실습에서 이용할 프레임워크와 라이브러리들을 설치하는 시간이 있겠습니다.

이론
– 강화학습이란?
– 마르코프 결정 과정(Markov Decision Process) 알아보기

실습
– 필요한 프레임워크 및 라이브러리 설치해보기
MDP를 이용하여 정책과 가치를 업데이트할 수 있는 다이나믹 프로그래밍 (Dyanmic 에 대해서 알아봅니다. 이어서 환경의 model(a.k.a dynamics)를 알 때 쓸 수 있는 알고리즘들인 정책 이터레이션과 가치 이터레이션에 대해서 알아봅니다. 환경의model을 알 때 다이나믹 프로그래밍으로 업데이트할 수 있었다면, 반대로 환경의 model을 모를 때 업데이트할 수 있는 몬테카를로 방법과 시간차 방법에 대해 알아봅니다. 실습에서는 앞서 배운 정책 이터레이션과 가치 이터레이션을 실제 그리드월드 환경에서 구현해봅니다.

이론
– 다이나믹 프로그래밍(Dynamic Programming)에 대해 알아보기
– 몬테카를로(Monte-Carlo) 방법에 대해 알아보기
– 시간차(Temporal Difference) 방법에 대해 알아보기

실습
– 그리드월드 환경에서 정책 이터레이션(Policy Iteration) 구현해보기
– 그리드월드 환경에서 가치 이터레이션(Value Iteration) 구현해보기
이전 시간에 몬테카를로 방법과 시간차 방법을 이용하여 업데이트를 하였다면, 이제는 업데이트한 값을 이용해 에이전트를 제어할 수 있는 알고리즘인 SARSA와 Q-Learning 알고리즘에 대해 학습합니다. 실습에서는 그리드월드 환경에서 SARSA와 Q-Learning 알고리즘을 구현해봅니다. 이어서, 다음시간부터는 심층 강화학습을 다룰 것이기 때문에 딥러닝 프레임워크인 PyTorch를 이용한 기본적인 tensor 조작법에 대해 알아봅니다.

이론
– SARSA 알고리즘에 대해 알아보기
– Q-Learning알고리즘에 대해 알아보기

실습
– 그리드월드 환경에서 SARSA 알고리즘 구현해보기
– 그리드월드 환경에서 Q-Learning 알고리즘 구현해보기
– PyTorch를 이용하여 기본적인 tensor 조작법 익히기
심층 강화학습에서 가장 처음에 나온 알고리즘인 DQN과 Double DQN에 대해서 학습합니다. 이어서 DQN 알고리즘의 문제점인 overestimation을 해결하는 Double DQN에 대해서도 이해해봅니다. 실습에서는 Cartpole 환경에서 DQN과 Double DQN에 대해 구현해봅니다.

이론
– DQN 알고리즘 알아보기
– Double DQN 알고리즘 알아보기

실습
– Cartpole 환경에서 DQN, Double DQN 구현해보기
Value가 아닌 Policy를 기반으로 하는 Policy Gradient에 대해서 알아봅니다. 이어서 Policy Gradient 방법을 Actor와 Critic을 나누어 학습하는 Actor-Critic 방법에 대해 알아봅니다. 실습에서는 Cartpole 환경에서 Advantage Actor-Critic(A2C) 알고리즘을 구현해봅니다.

이론
– Policy Gradient 방법 알아보기
– Actor-Critic 방법 알아보기

실습
– Cartpole 환경에서 Advantage Actor-Critic 알고리즘 구현해보기
Actor-Critic 방법에서 deterministic policy를 사용하는 Deep Deterministic Policy Gradient(DDPG) 알고리즘에 대해 학습합니다. 실습에서는 Lunarlander 환경 뿐만 아니라 Cheetah 환경까지 확장하여 DDPG 알고리즘을 구현해봅니다.

이론
– Deep Deterministic Policy Gradient 알고리즘 알아보기

실습
– Lunarlander 환경에서 DDPG 구현해보기
– Cheetah 환경에서 DDPG 구현해보기
강화학습에서 가장 중요한 탐험(Exploration) 문제는 현재까지도 완전히 해결할 수 없는 고질적인 문제입니다. 이러한 탐험 문제를 통계학에서 자주 쓰이는 entropy라는 개념을 이용하여 풀어내는 maximum entropy RL에 대해서 배워봅니다. 또한 현재 model-free RL에서 SOTA(state-of-the-art)이자, Actor-Critic 방법에서 stochastic policy를 사용하는 Soft Actor-Critic 알고리즘에 대해 학습합니다. 실습에서는 Cheetah, Ant 환경에서 Soft Actor-Critic 알고리즘을 구현해봅니다.

이론
– Maximum entropy RL 알아보기
– Soft Actor-Critic 알고리즘 알아보기

실습
– Cheetah, Ant 환경에서 Soft Actor-Critic 알고리즘 구현해보기

| 강사소개 및 인터뷰

강화학습
이동민
(현) 한양대학교 석사과정
(현) Reinforcement Learning Korea 운영진
– 서울대학교 로봇 학습 연구실 연구
– 서울대학교 제어 및 최적화 연구실 연구
– 삼성 멀티캠퍼스 강화학습 강사
– 삼성전자 서울대 공동연구소 강화학습 강사
– 한국원자력연구원 강화학습 세미나 발표
– 한국항공우주연구원 강화학습 세미나 발표
– 1st 함께하는 딥러닝 컨퍼런스 강화학습 세미나 발표
1. 자기소개 부탁드립니다.
안녕하세요. 한양대학교에서 연구를 하고 있는 이동민이라고 합니다. 저는 주로 그래픽스와 로보틱스 분야에서 다양한 로봇들을 이용하여 다양한 task들을 학습하고 제어하는 데에 관심이 많습니다. 학부 때 처음으로 강화학습을 접하였으며, 수식을 쓰는 것에 재밌었고, 알고리즘을 구현하여 학습된 에이전트를 보는 데에 뿌듯함을 느껴, 계속 강화학습을 공부하다보니 어느새 공부하고 있습니다. 강화학습을 통해 감사하게도 다양한 곳에서 연사와 강의를 진행하였으며, 현재 페이스북 커뮤니티인 Reinforcement Learning Korea에서 운영진도 맡고 있습니다. 강화학습에 대한 얘기는 언제든지 환영입니다!
2. 강의에서는 주로 어떤 내용을 다룰 예정이시고, 어떤 형태로 진행되나요?
강의에서는 강화학습을 입문하시는 분들이 강화학습의 이론과 구현을 이해하고 적용해보고 활용하는 데에 초점이 맞춰져 있습니다. 이론에서는 고전 강화학습 개념부터 최신 심층 강화학습 논문들까지 포괄적으로 다룰 예정이며, 구현에 있어서도 간단한 환경 1~2개 뿐만 아니라 실제 게임이나 로보틱스에서 사용하는 로봇들을 이용하여 학습시키고 제어해볼 예정입니다.
강의는 이론 1~2시간, 실습 1~2시간으로 진행될 예정입니다.
3. 본 강의에서 배운 내용을 수강생 분들이 어떻게 활용할 수 있을까요?
이 강의는 실제 문제에 강화학습을 적용할 수 있도록 진행되기 때문에 강의를 수강 후에는 적용하고 싶은 분야에 원활하게 적용할 수 있습니다. 특히, 6~7주차에서 배우는 DDPG, SAC 알고리즘들은 강화학습을 활용하는 다양한 현업에서 사용 중인 알고리즘으로써 실제 적용에 많이 사용됩니다. 또한 강화학습에 대한 기본기를 탄탄히 익혔기 때문에 앞으로 다양한 논문들을 볼 때나 오픈소스 코드들을 마주하였을 때 당황하지 않고 스스로 분석하고 이용할 수 있게 됩니다.
4. 다른 강의와 어떤 차별 점이 있나요?
다른 강의와는 달리 최신 알고리즘들을 강의합니다. 또한 이론으로 배웠던 알고리즘을 간단한 환경에서 실습하는 것 뿐만 아니라 복잡한 로봇 환경에서 실습하여 환경에 대한 이해와 구성을 더 다양하게 다룰 것이고, 복잡한 환경에서 알고리즘을 구현할 때는 어떤 점들이 중요한 지 등을 자세히 다루고자 합니다. 이렇게 배운 것들을 토대로 수강생분들이 적용하고 싶은 문제를 함께 고민해보고 강화학습을 적용하기 위한 로드맵을 그려보고자 합니다.
5. 마지막으로 수강생들에게 하고 싶으신 말
강화학습을 처음 시작할 때 저도 많이 막막하고 힘들었던 시기가 있었습니다. 기본적인 개념에서 수식 하나가 이해안되서 일주일동안 헤매었던 적도 있었고, 구현을 너무 못해서 제 자신한테 많이 실망하고 몇 개월동안 구현을 안한적도 있었습니다. 하지만 저는 여기서 포기하지 않고 이해가 안되어도 꾸준히 매일매일 보았고, 잘하시는 분들의 말 한마디 한마디를 되뇌어보면서 이해하려고 노력하였습니다. 구글 딥마인드의 수장인 데미스 허사비스는 이러한 말을 하였습니다. “위대한 에이전트 뒤에는 위대한 환경이 있다.” 저는 수강생분들이 7주라는 기간 동안 헤매지 않도록 도울 것이며, 7주 뒤에는 위대한 수강생분들이 될 수 있도록 좋은 환경으로 이끌 예정입니다. 수강생 여러분들, 모두 잘 부탁드립니다!
100만 원75만 원
수강신청은 결제 순으로 선착순 마감될 수 있습니다.

개강 후 환불은 학원법 시행령 <제18조 제3항> 수강료 반환기준에 의거합니다.

# 환불 세부규정 확인하기 (클릭)
25만 원 할인, 놓치지 마세요!