할루시네이션을 해결하는 RAG 100% 활용 : LangChain 기반 RAG 튜닝

시중의 교재에서 공개하지 않았던 LangChain과 RAG 활용법을 공개합니다. 현업에서 사용하는 형태의 Raw 데이터로 LangChain을 통해 코드 연결까지 진행하는 LLM 강의!

1기

강의 일정: 24.05.19 ~ 24.06.09 (총 4회) 매주 일요일 14:00 ~ 17:00 (총 12시간)

오프라인

강남 | 4층 Spoons Lab D 지도확인

말 안 듣는 나의 AI 금쪽이
어떻게 전국 1등으로 만들까?

대기업 NLP 엔지니어가 RAG와 LangChain으로 교정해 드립니다!

강의소개

LLM 개발의 기술 RAG,
현직 엔지니어가 핵심을 짚어드리겠습니다.

01. 시중의 교재가 다루지 않는 현업 레벨의 코드로 AI를 학습합니다.

시중의 LangChain, LLM 교재에서 다루는 Streamlit 챗봇과 PDF 요약 같은 기초 자료는 현업에 적용하기에 괴리가 있습니다. 이 강의에서는 '텍스트 분할 전략', '벡터 DB 활용 방법', '오픈소스 임베딩', '오픈소스 LLM 활용', '앙상블 Retriver'와 같은 실제 현업 레벨의 코드를 다루고 여러분이 현업에 바로 적용할 수 있도록 돕습니다.

02. LLM 개발에 필요한 3가지 핵심 개념을 다룹니다.

1. 다국어 모델의 토크나이저와 한국어 토큰이 추가되어 튜닝된 모델의 토크나이저의 토큰 효율성 차이
2. SFT/DPO 방법론으로 학습된 모델, 단순 Pre-trained 모델, RAG라는 태스크 자체만을 위해 튜닝 된 모델의 차이
3. 모델이 사용할 수 있는 토큰(max_position_embeddings)과 모델의 최대 생성할 수 있는 길이(max_length)의 차이와 관계성을 다루며 LLM 핵심 개념을 탄탄하게 수립할 수 있도록 돕습니다.

03. 기업에서 활용하는 Raw 데이터로 학습하고 현업 응용력을 높입니다.

여러분이 강의를 수강하며 실무적인 인사이트를 도출할 수 있도록 가능한 한 원래 형태에 가깝게 '덜 가공'한 데이터를 활용합니다. 이 데이터로 LLM 분야에서 인사이트를 도출하는 방법을 습득할 수 있도록 유도합니다. 데이터 전처리, LLM 선정, Embedding 선정, LangChain을 이용한 코드 연결을 체험하면서 진짜 실무 능력을 배양할 수 있습니다.

본 강의에서
무엇을 얻어갈 수 있나요?

초보 개발자 여러분도 빠르게
AI 서비스를 만들 수 있습니다!

현업 AI 연구원 수준의 LLM 활용 능력

텍스트 분할 전략, 앙상블 Retriever

뜬구름 잡을 수 있는 LLM 강의들, 어디서부터 어떻게 공부해야 핵심 개념을 정확하게 파악할 수 있는지 주요 기업의 AI 연구원의 노하우를 현장에서 습득하세요!
보안 유출을 막는 오픈소스 적용 방법

임베딩, LLM 선택과 적용 노하우

인터넷이 되지 않는 환경과 보안 유출을 막기 위해 어떤 임베딩과 LLM 모델을 선택하고 어떻게 활용해야 하는지 가이드를 통해 업무에 적용해 보세요!
나만의 서비스를 바로 만들고 활용하는 방법

VectorDB(Faiss), Reranking, Memory

초보자도 쉽게 AI 서비스 개발을 가능하게 해야 한다는 LangChain의 철학을 담아 여러분의 서비스를 만들고 현업에서 활용할 수 있도록 코드 연결을 체험하세요!

AI 서비스 개발, 어디서부터
시작해야 할지 모르겠다면
단 12시간으로 완벽히 구현해 보세요!

본 강의가 특별한 이유는
무엇인가요?

현업의 Raw 데이터를 활용한
LLM 문제 해결

실무와의 간극을 절대적으로 줄이기 위해 현업에서 활용할 만한 데이터와 바로 활용할 수 있는 코드를 전부 제공합니다.

LangChain을 이용해
실제 RAG 애플리케이션 구현

RAG 서비스 개발 파이프라인으로 어떻게 튜닝해야 성능이 고도화되는지, 할루시네이션을 줄이는 방법까지 제공합니다.

GPT-4V, TTS, Whisper, Dalle 등 최신 AI 기술 활용

RAG 시스템을 고도화하는 아키텍처부터 과거의 대화를 기억하는 Memory 활용 방법 등 모두 최신 AI 플랫폼으로 실습합니다.

수강 대상

이런 분들은 꼭 들으셔야 해요!

LangChain, LLM, ChatGPT가
막연히 어렵게만 느껴지는 분

RAG를 활용해 본인의 AI 서비스의 할루시네이션을 줄이고 싶은 분

이미지 생성, 음성 인식과 같은 최신 인공지능 기술로 나만의 서비스를 바로 만들고 싶은 분

강사소개

우리 강사님을 소개할게요!

안상준

이력사항

(현) IT 대기업 엔지니어
(현) 인공지능 분야 겸임 교수 및 강사(연세대, 경희대, 인천대 등)
(현) 위키독스 ‘딥러닝을 이용한 자연어 처리’ 공동 저자
(전) 삼성 리서치 AI 연구원

1. 자기소개 부탁드립니다.

안녕하세요. 위키독스에 '딥 러닝을 이용한 자연어 처리'라는 책을 집필한 저자 안상준입니다.
삼성에 있던 시절에는 주로 데이터 분석 및 자연어 처리를 주로 했었고, 현재는 AI 분야 겸임 교수로 활동하며 각종 연구를 진행하고 있습니다. 제가 딥 러닝 자연어 처리를 공부할 때는, 참고할 만한 한국어 자료나 책은 거의 없다시피 했습니다. 제가 겪은 수많은 시행착오를 다른 분들은 겪지 않기를 바라는 마음에 자연어 처리 자료를 온라인에 꾸준히 공유해 왔는데 벌써 햇수로 5년째네요.

자연어 처리 입문을 원하는 초심자분들을 대상으로 공부하면서 겪었던 시행착오나 실무에서 얻은 노하우를 공유해 드리고자 강의하게 되었습니다.

2. 강의에서는 주로 어떤 내용을 다룰 예정이고, 어떤 형태로 진행되나요?

이 강의는 다른 AI 강의처럼 AI 엔지니어가 되기 위해 수학을 다루거나, 트랜스포머 등의 원리를 PPT로 몇 시간씩 알려주는 강의가 아닙니다. 이 강의는 AI 엔지니어가 되기 위함이 아닌 현업에서 데이터 분석가와 초보 개발자가 LangChain을 사용하여 빠르게 AI 서비스를 만드는 방법을 알려주는 강의입니다. 이 강의는 AI 시대에서 개발자와 엔지니어라면 앞으로 필요하게 될 LLM에 대한 핵심 개념들을 직관적으로 정리하고 초보자도 쉽게 AI 서비스 개발을 가능하게 해야 한다는 LangChain의 철학을 살려서 가장 최적화된 코드로 현업 환경과 같이 빠르게 AI 서비스를 개발하는 방법을 배웁니다.

3. 다른 강의와 어떤 차별점이 있나요?

시중에 나온 LangChain 교재를 보면 PDF 요약하기, Streamlit으로 간단한 챗봇 만들기, 번역기 만들기 등과 같은 LangChain이 없어도 될만한 예제들을 다루고 있습니다. 실제 현업에서는 이 정도 레벨의 코드라면 굳이 LangChain을 쓰지 않는 경우가 많아서 마케팅에 주객전도가 된 느낌을 강하게 받는데요, VectorDB, Retriever, Embedding, Token, LoRA Tuning이라는 기본 개념조차 다루지 않는 LangChain 교재/강의에 반대하며 AI 초심자에게 실전 레벨까지 알려주는 강의입니다.

4. 마지막으로 수강생들에게 하고 싶으신 말이 있다면?

2010년 후반에 들어 딥 러닝(Deep Learning) 자연어 처리 기술이 다양한 분야에서 구체적인 성과들을 이뤄내고 있습니다. 2022년에는 Chat GPT(GPT 3.5)가 공개되어 5일 만에 사용자가 100만 명을 넘어서며, 차세대 검색 엔진이라는 이야기도 나오고 있지요. 현재 자연어 처리 기술의 발전은 이 순간 가장 빠르게 발전하고 있고, 입문하여 비즈니스에서 빠른 성과를 얻기에도 지금이 가장 적합한 때입니다. 이번 강의를 통해 막연했던 자연어 처리에 대한 지식과 자신감을 얻어가기를 바랍니다.

커리큘럼 (4)

1주차. 대규모 언어 모델(LLM)과 나만의 ChatGPT 만들기
강의 목표

LLM과 프롬프트 엔지니어링에 대한 기초 지식을 습득하고, ChatGPT API 사용법과 실제 ChatGPT를 파인 튜닝(Fine-tuning)하는 방법에 대해서 배웁니다.

이론

1. LLM과 ChatGPT

LM(Language Model)의 정의는?

오픈소스 sLLM Vs. 소규모 PLM(BEAR, BART, T5) Vs. ChatGPT 차이가 뭘까?

2. 허깅페이스를 이용한 오픈소스 LLM 사용하기

오픈소스 LLM의 설정 파일(config.json) 해석하는 방법

오픈소스 LLM의 사용 방법

3. 프롬프트 엔지니어링, 그리고 파인 튜닝

실전 문제 해결을 위한 프롬프트 템플릿 작성 방법

RAG(Retrieval-Augmented Generation)를 위한 프롬프트 작성 방법

ChatGPT API, ChatGPT 파인 튜닝 API

실습

허깅페이스를 이용한 오픈소스 번역기, 요약기, 감성 분석기 로드 후 실습

파이썬으로 ChatGPT를 호출하는 방법 : ChatGPT API 사용 방법

나만의 데이터로 ChatGPT 파인 튜닝 실습

RAG를 위한 프롬프트 템플릿 실습
2주차. LLM을 위한 텍스트 전처리와 Vector 검색
강의 목표

LLM을 다루기 위한 기초 용어인 토크나이저, 입력 최대 길이, 생성 최대 길이 등의 개념을 이해합니다. 임베딩을 위해 LangChain을 이용해 문서를 분할하는 방법을 알아봅시다. 벡터 DB와 LangChain을 이용하여 딥 러닝을 이용한 검색기를 만드는 방법을 학습합니다.

이론

1. 토크나이저

LLM이 토큰(단어)을 분리하는 방식 : BPE 알고리즘

언어(영어 vs 한글)에 따른 생성 속도/과금 구조의 차이와 해결 방법

2. 임베딩 : 텍스트를 수치화하는 방법

검색 시스템을 위한 OpenAI API 임베딩

오픈소스 임베딩 : bge-m3 / e5-multilingual

BM25(키워드 기반 검색)과의 차이

3. VectorDB

Chroma, Fasis

BM25(키워드 기반 검색)와 결합한 앙상블 검색기

실습

OpenAI API 임베딩 사용 방법

sentence-transformer 패키지를 이용한 오픈소스 임베딩 사용 방법

LangChain을 이용한 문서 분할 (TextSplitter / Semantic Chunker)

LangChain을 이용한 RAG 용 임베딩 검색기
3주차. 실전! LangChain을 이용한 서비스 개발 (RAG 편)
강의 목표

LangChain을 이용하여 실제 RAG 애플리케이션을 만들어봅시다. 또한 파인 튜닝과 RAG 그 자체만을 단순히 비교하는 것이 아니라 RAG 그 자체만을 위한 파인 튜닝 방법을 가이드합니다.

이론

1. 파인 튜닝과 RAG 차이

도메인 데이터 파인 튜닝과 RAG의 장단점

RAG 그 자체만을 위한 파인 튜닝

2. RAG만을 위한 파인 튜닝 가이드

할루시네이션을 줄이기 위한 데이터 구축 방법

LoRA 튜닝

네거티브 샘플, 질의 데이터, 프롬프트 템플릿 구성

3. LangChain을 이용한 RAG 서비스 개발 파이프라인

ChatGPT와 OpenAI Embedding API 조합

오픈소스 LLM과 오픈소스 임베딩 조합

실습

RAG 데이터 구축 방법

LangChain과 ChatGPT를 이용한 RAG 서비스 개발

LangChain과 오픈소스 LLM을 이용한 RAG 서비스 개발
4주차. 실전! LangChain을 이용한 서비스 개발 (RAG 심화 / OpenAI API 편)
강의 목표

앞서 배운 RAG 시스템을 고도화하는 아키텍처를 소개하고, 과거의 대화를 기억하는 Memory 능력을 추가하는 방법을 학습합니다. GPT 4V API, TTS, Whisper, Dalle API, Assistnat API를 이용하여 나만의 AI 서비스를 업그레이드할 수 있습니다.

이론

1. PDF 파일 파싱 가이드

PDFMiner, PDFPlumber, Camelot 소개

RAG를 위해 PDF 파일 추출 시 주의할 점

2. RAG를 업그레이드하는 기술

CRAG(Corrective Retrieval Augmented Generation) 논문 리뷰

할루시네이션을 줄이기 위한 T5 모델

과거 대화 내용을 반영하여 답변하는 RAG

3. OpenAI API 소개

이미지를 인식하는 GPT4V

음성과 텍스트를 자유롭게 오가는 음성 인식 API : Whisper, TTS

이미지를 그리는 Dalle

나만의 챗봇을 구현하는 Assistant API

실습

1. RAG 심화

할루시네이션을 줄이는 CRAG의 한글판 T5 모델 소개

LangChain을 이용한 과거 대화 반영하는 RAG 구현

2. 고난이도 AI 서비스 개발

GPT4V, TTS, Whisper, Dalle, Assistant API 실습

선택지에 따라서 스토리가 자동 진행되는 AI 개발
(Dalle, ChatGPT API, Memory 기능 사용)