강의탐색

NLP, 자연어처리, LLM, 대규모언어모델, 튜닝, 할루시네이션, 강의, GPT4, GPT, 파인튜닝, fine-tuning

데이터사이언스
기초 학습 권장

IT 기업에서 활용하는 자연어처리 실전 : GPT4, LLM, RAG, LangChain

자연어 처리의 모든 것을 담은 강의! NLP의 핵심 내용부터 챗봇 구현에 필요한 모든 개념 제공. RAG, LangChain 부터 실전 튜닝 방법까지 배워 보세요!

7기

강의 일정: 24.04.28 ~ 24.06.16 (총 6회) 매주 일요일 10:00 ~ 13:00 (총 18시간)
(휴강 : 5월 5일 어린이날, 5월 12일)

오프라인

강남 | 3층 Spoons Lab A 지도확인

IT 기업에서 활용하는 진짜 LLM, GPT!

실전 코드를 통해 학습하는 LLM 선택 노하우, 튜닝 기법까지 전부 공개합니다.

강의소개

위키독스 베스트셀러의 실무 경험 노하우가 담긴 LLM의 이론 & 실습 강의!

01. 고성능 챗봇 개발부터 멀티모달 API 활용까지

이제는 자연어 처리 기술이 보편화되어 배울 수 있는 경로와 자료가 많아졌습니다. 생성형 AI 시대에 가장 필요한 능력은 "AI를 어떻게 활용하는지"입니다. 실무 환경에서 활용하는 API 실전 방법을 배우고 남들과 다른 LLM 인공지능을 구현해 보세요.

02. 허깅페이스를 이용한 우리 기업에 딱 맞는 AI 사용 방법

사람마다 진행하는 프로젝트와 데이터의 환경이 다릅니다. 이 강의에서는 다양한 상황에서 LLM 선택 노하우를 전수하고 튜닝하는 방법까지 제공합니다. 개개인의 프로젝트에 대한 조언 및 가이드를 현업 관점에서 피드백을 해드립니다.

03. LLM 튜닝, 영어뿐만 아니라 한국어까지!

영어와 한국어는 형태소가 다르므로 LLM을 튜닝하는 방법도 다릅니다. 가장 많이 고민하고 계시는 한국어 튜닝 방법을 공개합니다. 실제 대기업에서 많이 사용되는 오픈소스 LLM인 Polyglot과 Llama2를 활용할 예정입니다.

온라인 강의 무료 제공 혜택!

자연어 처리 기본까지 확실하게 학습하세요!

강사님의 자연어 처리 텐서플로우 버전을 무료로 제공합니다.

[안내사항]
1. 온라인 강의는 현장 강의 개강 후 [내 강의장]에서 확인할 수 있습니다.
2. 현장 강의 환불 시 수강 권한이 소멸됩니다.
3. 수강 기한은 개강일로부터 30일입니다.

본 강의에서
무엇을 얻어갈 수 있나요?

현업 레벨의 프로젝트 실습 & 경험 기반의 노하우를 100% 전수하는 강의

엔지니어 수준의 NLP 이해 능력

허깅페이스를 이용한 프로젝트 해결

NLP와 LLM과 친해지기 위해 허깅페이스의 트랜스포머 라이브러리를 활용할 예정입니다. 또한 본인의 프로젝트에 맞는 라이브러리 사용 방법과 해결 방안도 제시해 드릴 예정입니다.
멀티모달 LLM의 활용 방법

DALLE 3, Whisper, OpenAI TTS API

GPT는 기존 자연어 처리를 넘어 음성 인식, 이미지 생성 분야의 멀티모달로 확장하고 있습니다. 기술이 발전됨에 따라 "어떻게" 활용하는지가 중요해진 지금, 실무에서 활용하고 있는 방법과 사례를 공유합니다.
AI를 원하는 방향으로 구현

NLP 전문가의 1:1 피드백

본인이 갖고 있는 데이터에 따라 튜닝, 프롬프트 하는 방법이 다릅니다. LLM의 핵심 개념을 먼저 익히고 본인 데이터를 활용할 수 있는 가이드라인과 현업 관점의 피드백을 드리겠습니다.

네카라쿠배 현직 엔지니어의 자연어 처리 최신 기술,
현업의 이야기를 가감 없이 담은 유일한 강의입니다.

본 강의가 특별한 이유는
무엇인가요?

현업 엔지니어의 AI 활용법 가이드라인 제시

AI에 대한 기술이 점점 보편화되고 있는 요즘, "어떻게" AI를 활용하는지에 따라 차별화된 인재로 거듭날 수 있습니다. 본 과정에서는 현업에서 실제로 활용하고 있는 사례를 제공할 예정이며, 본인 프로젝트에 맞는 가이드라인을 제시합니다.

3,000명 추천! '위키독스' 베스트셀러의 저자 직강

3,000명 이상의 추천을 받은 '위키독스' 베스트셀러를 현장에서 만나보실 수 있습니다. 위키독스에 있는 원론적인 내용뿐만 아니라 실전 코드를 제공해 실무 응용 능력을 향상할 수 있습니다. 위키독스에서 제공하지 않는 내용도 추가로 학습해 보세요.

DALLE3, Whisper의 실전 활용 방법

다양한 도메인에서 GPT 멀티모달 기술을 활용하는 방법을 알려드립니다. 현업 엔지니어가 최신 기술을 실전에서 왜, 어떻게 활용하고 있는지 공유합니다. 본 강의를 통해 AI 시대에 뒤처지지 않는 인재로 거듭나 보세요.

FAQ

강의에 대해
궁금한 점이 있으신가요?

1. 수강 시, 준비 사항은 어떤 것이 있을까요?

실습을 위해 개인 PC가 꼭 필요합니다. OS는 Windows OS, Mac OS 모두 가능합니다.
또한, 본 강의는 파이썬 문법 및 머신러닝 이론, Tensorflow, Pytorch 기초 등의 이해가 필요합니다.

2. 어떤 환경에서 실습이 이루어지나요?

강의와 실습은 모두 Pytorch 기반으로 진행될 예정입니다.

수강대상

이런 분들은 꼭 들으셔야 해요!

자연어 처리 분야에 입문해 생성형AI 시대에 경쟁력을 확보하고 싶은 분

실무 환경에서 LLM이 언제, 어떻게, 왜 사용되는지 알고 직접 프로젝트를 진행해 보고 싶은 분

프롬프트 엔지니어링을 통해 본인이 구현한 챗봇의 환각 현상을 해결하고 싶은 분

강사소개

우리 강사님을 소개할게요!

안상준

이력사항

(현) IT 대기업 엔지니어
(현) 인공지능 분야 겸임 교수 및 강사(연세대, 경희대, 인천대 등)
(현) 위키독스 ‘딥러닝을 이용한 자연어 처리’ 공동 저자
(전) 삼성 리서치 AI 연구원

1. 자기소개 부탁드립니다.

안녕하세요. 위키독스에 '딥 러닝을 이용한 자연어 처리'라는 책을 집필한 저자 안상준입니다.
삼성에 있던 시절에는 주로 데이터 분석 및 자연어 처리를 주로 했었고, 현재는 AI 분야 겸임 교수로 활동하며 각종 연구를 진행하고 있습니다. 제가 딥 러닝 자연어 처리를 공부할 때는, 참고할 만한 한국어 자료나 책은 거의 없다시피 했습니다. 제가 겪은 수많은 시행착오를 다른 분들은 겪지 않기를 바라는 마음에 자연어 처리 자료를 온라인에 꾸준히 공유해 왔는데 벌써 햇수로 5년째네요.

자연어 처리 입문을 원하는 초심자분들을 대상으로 공부하면서 겪었던 시행착오나 실무에서 얻은 노하우를 공유해 드리고자 강의하게 되었습니다.

2. 강의에서는 주로 어떤 내용을 다룰 예정이시고, 어떤 형태로 진행되나요?

딥러닝 프레임워크인 PyTorch와 트랜스포머 계열 모델들을 다룰 때 사용하는 Transformers 라이브러리를 사용하여 자연어 처리의 주요 기술들을 배울 예정입니다.
강의 구성은 이론 설명과 해당 이론을 적용해 보는 실습으로 구성돼 있습니다. PyTorch 기초, 자연어 처리 개요, 단어 임베딩, 텍스트 분류, 챗봇 만들기까지 각 파트는 수강생이 초심자라는 가정하에 밑바닥 기초와 실습 코드 설명을 1:1 비율로 제공합니다.

3. 본 강의에서 배운 내용을 수강생 분들이 어떻게 활용할 수 있을까요?

현업에 있는 분이라면 위 과정들을 잘 소화해 Action들을 하면서 지표들을 바꾸게 되실 거예요.
Junior Data Analyst라면 Intern으로 입사하여 Data를 기반으로 주요 key-lever들을 찾거나 North Star를 세우는 등의 역할을 하시게 될 거예요.

4. 다른 강의와 어떤 차별점이 있나요?

AI 분야는 비전, 추천, 강화학습 등 범위가 너무 다양해서 딥러닝 강의를 하나 들었다고 자연어 처리를 할 수 있는 것이 아닙니다.

자연어 처리를 위해서는 결국 자연어 처리만을 위한 공부가 필요합니다. 본 강의는 자연어 처리라는 분야만을 파고들고, 이론적 지식에 대한 이해를 바탕으로 결과가 바로 보이는 실습에 초점을 둡니다. 이 강의의 궁극적인 목표는 수강생들의 실무 적용입니다.

5. 마지막으로 수강생들에게 하고 싶으신 말이 있다면?

2010년 후반에 들어 딥러닝(Deep Learning) 자연어 처리 기술이 다양한 분야에서 가시적인 성과들을 이뤄내고 있습니다.

2022년에는 Chat GPT(GPT 3.5)가 공개되어 5일 만에 사용자가 100만 명을 넘어서며, 차세대 검색 엔진이라는 이야기도 나오고 있지요. 현재 자연어 처리 기술의 발전은 이 순간 가장 빠르게 발전하고 있고, 입문하여 비즈니스에서 빠른 성과를 얻기에도 지금이 가장 적합한 때입니다.

이번 강의를 통해 막연했던 자연어 처리에 대한 지식과 자신감을 얻어가기를 바랍니다.

커리큘럼 (6)

1주차. 자연어 처리 기본(1) - 딥 러닝을 위한 텍스트 전처리, 함수 구현
강의 목표

영어와 한국어에서의 텍스트 마이닝과 자연어처리를 할 때의 차이를 이해하고
자연어 처리를 위해서 필요한 기본적인 지식과 전처리 함수들을 공부합니다.

이론

각종 자연어처리 방법(Tokenization, Cleaning, Normalization, GPT-4의 Tokenizer 등)

Tokenizer, Vectorization, Vocabulary, Language Model 용어에 대한 이해

실습

파이썬 함수들을 이용하여 자연어처리를 위한 전처리 함수 구현

단어를 수치화하는 Integer Encoding과 Padding에 대한 이론 및 실습

한국어 텍스트 전처리 실습 : 맞춤법 교정, 띄어쓰기 교정, 문장 토큰화, 형태소 분석

GPT Tokenizer를 이용한 텍스트의 수치화
2주차. 자연어 처리 기본(2) - 딥 러닝의 원리와 LLM의 핵심 기술 RAG(Retrieval-Augmented Generation)
강의 목표

딥 러닝이 데이터를 학습하는 원리인 경사 하강법(Gradient Descent)을 통해 딥 러닝의 학습 방법을 이해하고
자연어 처리 모델 구현을 위한 핵심 개념인 임베딩(Embedding)과 소프트맥스 회귀에 대해서 소개합니다.

이론

경사 하강법(Gradient Descent) - 딥 러닝이 데이터를 학습하는 방법

단어 임베딩과 문서 임베딩 - GPT가 텍스트를 이해하는 방법

소프트맥스 회귀(Softmax Regression) - 딥 러닝 모델을 이용한 텍스트 분류와 생성

RAG(Retrieval-Augmented Generation) - LLM을 이용한 챗봇을 구현하는 방법

RNN과 CNN - GPT 이전의 기본 신경망 개요

실습

Word Embedding 학습하기: Embedding Layer, Word2Vec, 자모 단위 FastText

OpenAI Embedding API를 이용한 시맨틱 서치 구현(Semantic Search) 구현

Sentence BERT를 이용한 딥 러닝 챗봇 구현

RAG(Retrieval-Augmented Generation)를 이용한 챗봇 구현 (Embedding + ChatGPT)
3주차. 자연어 처리 기본(3) - 허깅페이스, Transformer, PLM, BERT, GPT에 대한 이해
강의 목표

자연어처리의 최신 모델들 (BERT, GPT-3, ChatGPT 등) 내부에서 사용하고 있는 기술들에 대해서 입문자들도 이해할 수 있도록 상세히 설명합니다.
이를 통해 딥러닝 입문자는 최신 논문을 이해할 수 있는 중고급 이상의 딥러닝 자연어처리 이해도로 진입할 수 있습니다.

이론

Attention Mechanism과 Transformer 아키텍처

사전 훈련된 언어 모델의 발전사 (ELMo, BERT, GPT, BART, T5, GPT-3, Chat GPT)

허깅페이스를 이용한 딥 러닝 언어 모델 사용 방법 가이드

실습

PLM과 LLM 사용을 위한 허깅페이스의 Transformers 라이브러리 사용 방법

허깅페이스를 이용한 내 문제에 딱 맞는 AI 사용 방법

현업 코드 제공

1D CNN + Pretrained Embedding을 이용한 가벼운 모델로 고성능의 텍스트 분류기 얻기

챗봇 개발 시 Entity 추출을 위한 Bi-LSTM을 이용한 개체명 인식
4주차. 자연어 처리 실전(1) -OpenAI API(위스퍼 / 달리 / TTS), LangChain, ChatGPT 파인튜닝을 통한 실전 챗봇 구현
강의 목표

개발 입문자도 자신만의 데이터로 고성능 챗봇을 만들 수 있는 Retrieval-Augmented Generation (RAG)와
OpenAI의 초거대 언어 모델인 GPT-3와 ChatGPT를 쉽게 파인 튜닝하는 방법을 소개합니다.

이론

Langchain과 벡터 DB 개념(Pinecone, Chroma) 이해하기

RAG(Retrieval-Augmented Generation) 심화 실습

ChatGPT API를 이용한 학습 데이터 증량 기법 / 업무 자동화 챗봇

웹 UI 개발에 사용되는 Streamlit, Gradio

GPT-3, ChatGPT 파인 튜닝을 위한 가이드

실습

생성 AI를 이용한 서비스 구현

Langchain + 벡터 DB + LLM을 이용한 나만의 데이터를 이용한 고성능 챗봇 개발
(수강생분들이 데이터 직접 지참하면 바로 만들 수 있습니다.)

OpenAI의 ChatGPT, GPT-4 직접 파인 튜닝을 통한 한국어 LLM 애플리케이션 개발

챗봇에게 눈, 귀, 입을 부여해 주는 인공지능 사용 방법

이미지를 그려주는 인공지능: DALL·E 3 API

음성을 인식하는 인공지능: Whisper API

텍스트를 음성으로 바꿔주는 인공지능: OpenAI TTS API
5주차. 자연어 처리 실전(2) - 현업에서의 PLM 튜닝 코드를 이용한 NLP 모든 태스크 해결하기
강의 목표

Transformer 기반의 딥러닝 모델인 BERT, GPT에 대한 동작 파이프라인에 대해서 이해하고 BERT와 GPT가 가진 각각의 장단점, 각 프로젝트 상황에서 모델을 선택하는 노하우, 그리고 실제 현업에 사용되고 있는 필수 유형 코드를 실습합니다.

이론

BERT와 GPT 상세 이해하기 (Positional Embedding, Segment Embedding, Self-Attention)

디코더 모델 GPT / 인코더 모델 BERT, 현업 적용 시 차이점 명확히 알기

다양한 프로젝트 상황에 따른 BERT와 GPT 실전 사용 방법 가이드

실습

한국어 BERT 활용 방법

네이버 영화 리뷰 분류 - 이진 분류, 다중 클래스 분류

혐오 유형 다중 레이블 분류

개체명 인식 풀기 - ChatGPT 성능 뛰어넘기

기계 독해 풀기 - 질의응답 챗봇 구현 요소

검색 모델 풀기 - Retrieval Task

텍스트 요약 - BertSum

한국어 GPT 활용 방법

챗봇 개발 프로젝트

문장 생성

한국어 뉴스 감성 분류

BERT 실습 변형: KoElectra, RoBERTa와 KoBigBird의 실전 가이드
6주차. 자연어 처리 실전(3) - 생성 AI와 LLM 실전 튜닝: Llama2, Polyglot, KoAlpaca, BART, T5
강의 목표

현업에서 LLM 다음으로 가장 강력한 성능을 자랑하는 언어 모델인 한국어 버전의 BART, T5를 파인 튜닝합니다.
실제 대기업에서 가장 많이 사용되는 오픈소스 LLM인 Polyglot과 Llama2를 직접 튜닝합니다.

이론

인코더 디코더 구조의 언어 모델: BART와 T5

디코더 기반의 7B 이상의 Large language models (LLMs)과 실전 사용 시 Tips

LLM을 이용한 프롬프트 엔지니어링 가이드

인컨텍스트 러닝(in-context learning) 퓨샷 러닝(Few shot Learning)

LLM의 튜닝 방법: 로라 튜닝(Lora-tuning)과 큐로라(QLora) 튜닝

실습

T5를 이용한 대기업 컨설팅에 사용하였던 실제 문제 풀이 코드 공개

한국어 BART, T5를 이용한 뉴스 요약 모델 구현하기

대표 한국어 LLM Polyglot, KoAlpaca 데이터 세트로 Lora 튜닝해 보기

한국어에도 쓸 수 있는 다국어 LLM LLama2 나만의 데이터로 파인 튜닝하기

개개인의 프로젝트에 대한 조언 및 가이드 - 현업 관점에서의 피드백