01. 시중의 교재가 다루지 않는 현업 레벨의 코드로 AI를 학습합니다.
시중의 LangChain, LLM 교재에서 다루는 Streamlit 챗봇과 PDF 요약 같은 기초 자료는 현업에 적용하기에 괴리가 있습니다. 이 강의에서는 '텍스트 분할 전략', '벡터 DB 활용 방법', '오픈소스 임베딩', '오픈소스 LLM 활용', '앙상블 Retriver'와 같은 실제 현업 레벨의 코드를 다루고 여러분이 현업에 바로 적용할 수 있도록 돕습니다.
02. LLM 개발에 필요한 3가지 핵심 개념을 다룹니다.
1. 다국어 모델의 토크나이저와 한국어 토큰이 추가되어 튜닝된 모델의 토크나이저의 토큰 효율성 차이
2. SFT/DPO 방법론으로 학습된 모델, 단순 Pre-trained 모델, RAG라는 태스크 자체만을 위해 튜닝 된 모델의 차이
3. 모델이 사용할 수 있는 토큰(max_position_embeddings)과 모델의 최대 생성할 수 있는 길이(max_length)의 차이와 관계성을 다루며 LLM 핵심 개념을 탄탄하게 수립할 수 있도록 돕습니다.
03. 기업에서 활용하는 Raw 데이터로 학습하고 현업 응용력을 높입니다.
여러분이 강의를 수강하며 실무적인 인사이트를 도출할 수 있도록 가능한 한 원래 형태에 가깝게 '덜 가공'한 데이터를 활용합니다. 이 데이터로 LLM 분야에서 인사이트를 도출하는 방법을 습득할 수 있도록 유도합니다. 데이터 전처리, LLM 선정, Embedding 선정, LangChain을 이용한 코드 연결을 체험하면서 진짜 실무 능력을 배양할 수 있습니다.