course thumbnail
  • 데이터사이언스
  • 중급, 고급

BERT와 GPT를 활용한 자연어처리 파이프라인 : 텍스트 분류부터 AI GPT 챗봇까지

트렌스포머 아키텍처의 기본인 BERT와 GPT-3부터 최신 트렌드 Chat GPT까지! 자연어처리 모델의 파이프라인을 통해 다양한 도메인에서 자연어처리 기술을 적용해 보세요!

1기
23.03.19 ~ 23.05.07 (총 8회) 매주 일요일 10:00 ~ 13:00 (총 24시간)

IT 대기업에서 경험한 초거대 언어 AI 모델의 최신 트렌드!

BERT, GPT-3와 같은 대규모 모델을 사용하기 위해 검토해야 하는 주의점과 모델 경량화 등
경험에 기반한 케이스 스터디를 통해 기초부터 심화까지! 자연어처리 모델을 다룰 예정입니다.


강의소개

BERT, GPT 동작 파이프라인 이해를 통한
Pytorch 기반 자연어처리 최신 기술 8주 마스터!

자연어 강의

01. Pytorch와 Huggingface의 Transformer를 이용한 모델 구현

자연어처리를 위한 Pytorch 활용 방법을 익히고, 다양한 딥러닝 자연어처리 모델을 구현하는 방법을 배워봅니다. 또한, 이 강의에서 다루지 않는 모델이라도 Pytorch와 Transformers 라이브러리를 통해 스스로 원하는 모델을 설계할 수 있습니다.

02. Text Classification & Text Generation 모델 구현 & 현직 엔지니어의 팁!

Text Classification은 감성 분류, 카테고리 분류 / Text Generation은 텍스트 요약, 챗봇 등 실무에서 가장 많이 쓰이는 자연어처리 기술이자 난이도가 높은 모델들입니다. 실무에 바로 적용할 수 있는 모델과 모델 구현시 고려해야 할 팁에 대해 다뤄봅니다.

03. 논문 작성 또는 현업에 직접 적용할 수 있도록 커리어 로드맵 작성!

영어와 한국어 데이터 전처리, 통계 기반의 접근 방법, 워드 인베딩, 최신 딥러닝 모델까지 모두 학습하실 수 있습니다. 이를 종합하여 현업에서의 자연어처리 커리어를 준비하거나 업무에 어떻게 적용할지에 대한 인사이트를 얻어가실 수 있습니다. 최종적으로 자신이 목표로하는 로드맵을 시작할 수 있게 됩니다.


본 강의에서
무엇을 얻어갈 수 있나요?

현업 레벨의 프로젝트 실습 & 경험 기반의 피드백과 노하우를 100% 전수하는 강의

  • 라이브러리부터 딥러닝 모델까지 최신 기술 구현

    텍스트 분류 모델 & 텍스트 생성 모델

    실무에 바로 적용할 수 있는 모델을 다룰 예정이며, GPT와 같은 generation model을 통해 실제 텍스트를 요약하는 모델과 챗봇을 구현해 볼 예정입니다. 텍스트 데이터에서 특정 엔티티를 추출하고 싶었거나, 정리되지 않은 텍스트 데이터를 유형별, 감성별로 분류하고, 대답할 수 있는 챗봇을 구현할 수 있게 됩니다.

    GPT 강의
  • 대규모 언어 모델 사용 주의점과 모델 경량화

    GPT-2에 비해 100배 이상 거대한

    실제 대기업 연구소에서 겪었던 GPT-3와 같은 대규모 언어 모델을 사용할 시 주의할 점과 비용 문제로 인한 모델의 경량화에 대한 이야기를 나눌 예정입니다. 그리고 딥러닝 논문을 작성하고 계신 분들께는 실제 교수이자, 현업자로서의 조언을 통해 논문 완성에 다다를 수 있도록 도와드리고 있고, 실제 강의를 통해 다수의 비전공자 학생들이 딥러닝 텍스트 분석 논문을 완성하였습니다.

    자연어 강의
  • 현업에 활용 가능한 프로토타입 모델 제작

    NLP 전문가의 1:1 피드백

    자연어처리 관련 기법 통해 현업에 적용할 수 있는 프로토 타입 모델을 강사님과 함께 제작하여 현업에서의 자연어처리 커리어, 최종적으로 자신이 목표로 하는 로드맵을 시작할 수 있습니다. 또한, 다양한 현직자들과의 네트워킹을 통해 업무에 어떻게 적용할지에 대한 인사이트를 얻어갈 수 있습니다.

    GPT 강의

네카라쿠배 현직 엔지니어의 자연어 처리 최신 기술,
현업의 이야기를 가감없이 담은 유일한 강의입니다.

 
 
 
 

본 강의가 특별한 이유는
무엇인가요?

1

초심자도 쉽게 이해할 수 있도록 핵심 논문들을 이미지로 학습

딥러닝 공부를 위해 논문을 공부하는 것은 필수이지만, 짧게 요약된 설명들과 문헌마다 다른 이미지 사용은 오히려 딥러닝 학습 초심자를 혼란스럽게 합니다. 이 강의는 초심자 눈높이에서 저자가 직접 제작한 수많은 교육용 이미지를 사용하여 자연어처리 논문을 쉽게 풀이하고 있습니다. 핵심 논문들을 직관적으로, 쉽게 이해하실 수 있습니다.

2

'위키독스' BEST Seller 저자의 직강

파이썬, 자바, 머신러닝, 알고리즘 트레이딩 등 수많은 IT 베스트 도서를 탄생시킨 ‘위키독스’에서 2,500명 이상의 추천을 받은 Best Seller! ‘딥 러닝을 이용한 자연어 처리’ 공동 저자가 직접 자연어처리 밑바닥 개념부터 복잡한 최신 모델까지 강의합니다. 이론을 넘어 현업에서 얻을 수 있는 실무를 위한 기술 노하우를 배우실 수 있습니다.

3

Hot Topic! Transformer 기반의 BERT, GPT-3 완전 정복

자연어처리의 필수 개념만을 정리하여 강의가 끝난 후에도 지속적으로 자연어 처리 개발, 비즈니스에 활용하실 수 있게 됩니다. 자연어처리를 위한 기본적인 전처리 방법부터 최근 자연어처리를 주름잡는 최신 모델인 Transformer 기반의 BERT와 GPT를 활용해 보세요. 이 강의에서 배우는 모델들은 텍스트 분류, 개체명 인식, 챗봇, 토픽 추출, 번역기 등 다양한 자연어처리 도메인에서도 활용할 수 있습니다.

FAQ

강의에 대해
궁금한 점이 있으신가요?

1. 온라인 라이브로만 진행하나요?

해당 과정은 오프라인으로만 진행됩니다.
운영진, 강사님과도 디스코드 채널을 통해 언제든 소통하실 수 있습니다.

2. 수강 시, 준비 사항은 어떤 것이 있을까요?

실습을 위해 개인 PC가 꼭 필요합니다. OS는 Windows OS, Mac OS 모두 가능합니다.
또한, 본 강의는 파이썬 문법 및 머신러닝 이론, Tensorflow, Pytorch 기초 등의 이해가 필요합니다.

3. 어떤 환경에서 실습이 이루어지나요?

강의와 실습은 모두 Pytorch 기반으로 진행될 예정입니다.

수강대상

이런 분들은 꼭 들으셔야 해요!


BERT, GPT-3 등 현업에 사용되는 자연어처리의 최신 기술을 배우고 싶은 분


고객의 일상 언어 질의에 대답할 수 있는 챗봇 기능과 실제 구현을 원하는 분


GPT에 대해 들어는 봤는데 현실적으로 어떻게 기업에 적용하는지 알고 싶은 분

강사소개

우리 강사님을 소개할게요!

자연어 강의

안상준

이력사항
  • (현) IT 대기업 엔지니어
  • (현) 인공지능 분야 겸임 교수 및 강사(연세대, 경희대, 인천대 등)
  • (현) 위키독스 ‘딥러닝을 이용한 자연어 처리’ 공동 저자
  • (전) 삼성 리서치 AI 연구원

1. 자기소개 부탁드립니다.

안녕하세요. 위키독스에 '딥 러닝을 이용한 자연어 처리'라는 책을 집필한 저자 안상준입니다. 삼성에 있던 시절에는 주로 데이터 분석 및 자연어 처리를 주로 했었고, 현재는 AI 분야 겸임 교수로 활동하며 각종 연구를 진행하고 있습니다. 제가 딥 러닝 자연어 처리를 공부할 때는, 참고할만한 한국어 자료나 책은 거의 없다시피 했습니다. 제가 겪은 수많은 시행착오를 다른 분들은 겪지 않기를 바라는 마음에 자연어 처리 자료를 온라인에 꾸준히 공유해왔는데 벌써 횟수로 5년째네요. 자연어 처리 입문을 원하는 초심자분들을 대상으로 공부하면서 겪었던 시행착오나 실무에서 얻은 노하우를 공유해드리고자 강의하게 되었습니다.

2. 강의에서는 주로 어떤 내용을 다룰 예정이시고, 어떤 형태로 진행되나요?

딥러닝 프레임워크인 PyTorch와 트랜스포머 계열 모델들을 다룰 때 사용하는 Transformers 라이브러리를 사용하여 자연어 처리의 주요 기술들을 배울 예정입니다. 강의 구성은 이론 설명과 해당 이론을 적용해보는 실습으로 구성되어져 있습니다. PyTorch 기초, 자연어 처리 개요, 단어 임베딩, 텍스트 분류, 챗봇 만들기까지 각 파트는 수강생이 초심자라는 가정 하에 밑바닥 기초와 실습 코드 설명을 1:1 비율로 제공합니다.

3. 본 강의에서 배운 내용을 수강생 분들이 어떻게 활용할 수 있을까요?

현업에 있는 분이라면 위 과정들을 잘 소화시켜서 Action들을 하면서 지표들을 바꾸게 되실 거에요. Junior Data Analyst라면 Intern으로 입사하여 Data를 기반으로 주요 key-lever들을 찾거나 North Star를 세우는 등의 역할을 하시게 될 거예요.

4. 다른 강의와 어떤 차별점이 있나요?

AI 분야는 비전, 추천, 강화학습 등 범위가 너무 다양해서 딥러닝 강의를 하나 들었다고 자연어 처리를 할 수 있는 것이 아닙니다. 자연어 처리를 위해서는 결국 자연어 처리만을 위한 공부가 필요합니다. 본 강의는 자연어 처리라는 분야만을 파고들고, 이론적 지식에 대한 이해를 바탕으로 결과가 바로 보이는 실습에 초점을 둡니다. 이 강의의 궁극적인 목표는 수강생들의 실무 적용입니다.

5. 마지막으로 수강생들에게 하고 싶으신 말이 있다면?

2010년 후반에 들어 딥러닝(Deep Learning) 자연어 처리 기술이 다양한 분야에서 가시적인 성과들을 이뤄내고 있습니다. 2022년에는 Chat GPT(GPT 3.5)가 공개되어 5일만에 사용자가 100만명을 넘어서며, 차세대 검색 엔진이라는 이야기도 나오고 있지요. 현재 자연어 처리 기술의 발전은 이 순간 가장 빠르게 발전하고 있고, 입문하여 비즈니스에서 빠른 성과를 얻기에도 지금이 가장 적합한 때입니다. 이번 강의를 통해 막연했던 자연어 처리에 대한 지식과 자신감을 얻어가기를 바랍니다.

커리큘럼 (8)

  • 1주차. 자연어처리를 위한 Preprocessing (전처리)

    강의목표

    • 영어와 한국어에서의 자연어처리 시의 차이를 이해하고, 딥러닝 자연어 처리를 위한 각종 전처리 방법에 대해서 실습을 통해서 이해합니다.

    이론

    • 각종 자연어처리 방법(Tokenization, Cleaning, Normalization, tf.keras의 Tokenizer 등)
    • 영어와 한국어의 자연어처리 차이

    실습

    • 파이썬 함수들을 이용하여 자연어처리를 위한 전처리 함수 구현
    • 단어를 수치화하는 정수 인코딩과 패딩에 대한 이론 및 실습
    • 한국어 텍스트 전처리 실습 : 맞춤법 교정, 띄어쓰기 교정, 문장 토큰화, 형태소 분석
  • 2주차. Pytorch를 이용한 Neural Network(신경망) 구현

    강의목표

    • 딥러닝을 깊이 이해하기에 앞서 선형 회귀, 로지스틱 회귀, 소프트맥스 회귀의 이론에 대해서 이해하고, PyTorch를 이용하여 구현하는 방법에 대해서 소개합니다.

    이론

    • 선형 회귀와 경사 하강법(Gradient Descent), 비용 함수(Cost function)의 개념에 대한 이해
    • 이진 분류를 위한 로지스틱 회귀(Logsitic Regression)
    • 다중 클래스 분류를 위한 소프트맥스 회귀(Softmax Regression)
    • 소프트맥스 회귀로부터 딥러닝으로 개념 확장

    실습

    • PyTorch의 자동 미분 기능을 사용한 선형 회귀 구현
    • PyTorch를 통해서 선형 회귀, 로지스틱 회귀, 소프트맥스 회귀 쉽게 구현
    • 소프트맥스 회귀로 실제 머신러닝 문제 풀이
  • 3주차. Word Embedding (워드 임베딩)

    강의목표

    • 2010년대 딥 러닝 자연어 처리를 이끌었던 자연어 처리의 비밀, 워드 임베딩(Word Embedding)에 대해서 소개하고, 랜덤 초기화 임베딩과 사전 훈련된 임베딩의 차이를 이해합니다.

    이론

    • 워드 임베딩과 원-핫 인코딩의 차이 이해
    • Word2vec VS FastText VS Glove 비교
    • 랜덤 초기화 임베딩과 사전 훈련된 임베딩의 사용 사례 비교

    실습

    • 한국어에서 통하는 한국어 자모 단위(초성 + 중성 + 종성) FastText 실습
    • 랜덤 초기화 임베딩과 Word2Vec을 이용한 감성 분류 성능 비교
    • 워드 임베딩을 텐서플로 임베딩 프로젝터(Embedding Projector)로 시각화
  • 4주차. 텍스트를 위한 딥러닝 모델 : 순환 신경망과 1차원 합성곱 신경망

    강의목표

    • 시퀀셜 데이터를 다루는 신경망인 RNN(Recurrent Neural Network)과 공간적인 정보를 다루는 합성곱 신경망 CNN(Convolutional Neural Network)을 통해 텍스트를 처리하는 방법에 대해서 이해합니다.

    이론

    • RNN의 many-to-one, many-to-many, Language Model 구조 이해
    • RNN의 한계를 보완한 LSTM, GRU 소개
    • 1D CNN을 이용한 텍스트 처리 소개

    실습

    • Numpy를 이용한 RNN 동작 구현
    • Pytorch RNN, LSTM의 다양한 구현 방법 실습
    • 이진 분류, 다중 클래스 분류 실습 (LSTM, Conv1D) : 네이버 영화 감성 분류
    • 양방향 LSTM을 이용한 개체명 인식 실습
  • 5주차. 기계 번역과 챗봇을 위한 구현 방법 : Sequence to Sequence

    강의목표

    • 딥러닝 기반 챗봇의 또 다른 구현 방법이자 Google 번역기의 핵심 모델 Sequence to Sequence(Encoder-Decoder)에 대해서 이해하고 번역기와 챗봇을 만듭니다.

    이론

    • 입력과 출력의 길이가 다른 many-to-many 문제를 위한 Sequence to Sequence 모델 소개
    • RNN의 Teacher Forcing 학습과 테스트 방법 이해
    • 서브워드 토크나이저 소개 : 센텐스피스(SentencePiece)

    실습

    • 서브워드 토크나이저 센텐스피스 실습
    • Sequence to Sequence 모델을 사용한 기계 번역기와 챗봇
    • 실제 번역기 서비스 구현을 위한 Tip (OpenNMT, 서브워드 토크나이저)
  • 6주차. Transformer (트랜스포머)

    강의목표

    • 자연어처리의 최신 모델들 (BERT, GPT-3, Chat GPT 등..) 내부에서 사용하고 있는 Transformer의 아키텍처에 대해서 이해합니다. 이를 통해 중급, 고급 이상의 딥러닝 자연어처리의 레벨로 진입할 수 있습니다.

    이론

    • Attention Mechanism과 Transformer 아키텍처
    • 사전 훈련된 언어 모델의 발전사 (ELMo, BERT, GPT, BART, T-5, GPT-3, Chat GPT)

    실습

    • 밑바닥부터 구현하는 Transformer 챗봇
    • 허깅페이스의 Transformers 라이브러리 사용 방법
  • 7주차. BERT를 이용한 고급 딥러닝 문제 풀이

    강의목표

    • Transformer 기반의 딥러닝 모델인 BERT, GPT에 대한 동작 파이프라인에 대해서 이해하고 BERT와 GPT가 가진 각각의 장점과 단점, 각 상황에서 모델을 선택하는 노하우에 대해서 설명합니다.

    이론

    • BERT의 구조 (Positional Embedding, Segment Embedding, Self-Attention)
    • BERT의 강점과 단점
    • GPT와 BERT와의 차이점 명확히 알기

    실습

    • 한국어 BERT를 이용한 네이버 영화 리뷰 분류 (이진 분류/다중 클래스 분류)
    • 한국어 BERT를 이용한 혐오 유형 다중 레이블 분류 (다중 레이블 분류)
    • 한국어 BERT를 이용한 개체명 인식 풀기
    • 한국어 BERT를 이용한 기계 독해 풀기
    • 한국어 BERT를 이용한 검색 모델 풀기 (Retrieval Task)
    • 한국어 BERT를 이용한 텍스트 추출 요약 (BERTSum)
  • 8주차. 대형 GPT와 향후 AI 산업에서의 주안점

    강의목표

    • GPT, GPT-2, GPT-3, 그리고 Chat GPT. 앞으로 인공지능 분야를 이끌어나갈 GPT의 구조와 특징을 알면, 어떻게 해야 GPT를 더 잘 활용할 수 있는지에 대해서 이해합니다.

    이론

    • GPT 아키텍처
    • 딥 러닝 자연어 처리의 발전 방향 : Large language models (LLMs)
    • 대형 GPT를 활용하는 모델 튜닝 방법
    • 피 튜닝(P-tuning) 그리고 인컨텍스트 러닝(in-context learning)/퓨샷 러닝(Few shot Learning)

    실습

    • 한국어 GPT를 이용한 네이버 영화 리뷰 분류
    • 한국어 GPT를 이용한 일상대화 챗봇 구현
    • 한국어 GPT를 이용한 텍스트 요약
    • 각자의 개인 프로젝트 질문 & 조언 시간 

커리어 성장으로 가는 길, 러닝스푼즈와 함께 하세요!

지금 보고 계시는 강의의 관련 태그로 다른 강의도 찾아보세요.

오프라인

BERT와 GPT를 활용한 자연어처리 파이프라인 : 텍스트 분류부터 AI GPT 챗봇까지

매일 선착순 20명 한정! 할인가 확인하고 커리어 성장하세요!