
01. LLM 학습을 위한 Instruction Dataset 생성, Fine-tuning, 방법론
LLM(Large Language Model)은 수천억 개의 파라미터를 포함하는 언어 모델인 만큼 기존의 모든 파라미터를 Fine-tuning하는 방식으로 학습시켰을 때 계산 및 저장 비용과 관련한 문제가 생길 수 있습니다. 이러한 LLM을 특정 도메인에 맞게 튜닝하고 최적화하기 위해 분산학습과 LoRA, QLoRA 등의 PEFT(Parameter Efficient Fine-Tuning)를 배워봅니다. Chat GPT로 Instruction Dataset을 직접 생성해보고 파인튜닝하는 실습까지 함께 진행해봅니다.
02. 감정인식, 하위의도 생성 등 현업에서 활용 가능한 NLP Task 실습 프로젝트
NLP와 관련한 연구, 프로젝트를 진행하는 분들이 공통으로 고민하는 포인트는 ‘특정 태스크를 어떻게 해결할 것인가’, ‘어디서부터 어떻게 태스크와 관련된 논문을 찾고 적용할 것인가’ 일 것입니다. 이러한 고민을 해결해 드리기 위해 해당 강의에서는 원하는 NLP Task의 논문을 검색하고 읽는 방법을 배우고, 감정인식 및 의도 생성을 해결하기 위한 시나리오를 계획하고, 보편적으로 사용되는 MELD 데이터셋과 마이크로소프트 검색엔진 오픈 데이터셋을 활용해 모델을 구현해보고 평가해보는 실습을 진행합니다. 더 나아가 강사님과 더 나은 모델 구현 및 평가 방법을 함께 고민해 보는 시간을 가져봅니다.
03. Open LLM 모델을 활용한
다양한 NLP Task 해결 방법 및 실습 진행
LLM은 대규모 데이터에서 뛰어난 성능을 보이지만, 계산 리소스 및 프라이버시와 같은 문제들이 발생할 수 있습니다. 이러한 LLM의 장단점을 파악해보고 최근 많은 기업들이 사용하고 있는 sLLM(Small Language Model)에 대해서도 알아봅니다. 또한 Open LLM으로 하위의도 생성 실습을 진행함으로써 NLP 애플리케이션과 LLM이 어떻게 결합할 수 있는지를 전반적으로 알아가실 수 있습니다.