01. YOLO, Transformer 기반 모델을 활용한
자동차 객체 탐지 (Object Detection)
자율주행 자동차를 위한 신호등, 자동차, 사람 등의 탐지와 번호판 인식, 핸드폰 자동 보정을 위한 환경 인식에 사용되는 객체 탐지를 배워봅니다. 객체 탐지에 많이 쓰이며 사용이 편리한 YOLOv5를 이용해 실시간으로 자동차 객체 탐지 실습을 진행합니다. 또한 최근 컴퓨터비전의 SOTA 모델들이 Transformer에 기반한 DETR (DEtection TRansformer) 모델로부터 발전되고 있습니다. 이에 따라 CNN만을 활용한 객체 탐지가 아닌 DETR 모델로 객체 탐지를 실습합니다.
02. 얼굴 인식을 위한 샴 네트워크와 OCR 기술 학습
얼굴 인식, 동물 또는 식물 분류, 이미지 검색 등에 활용되는 Siamese Neural Network를 통해 Few-Shot Learning과 Matrix Learning의 응용 방법을 배우고 실습해 봅니다. 또한, 인쇄된 문서를 디지털 이미지 파일로 변환하는 기술인 OCR (Optical Character Recognition) 기술을 통해 이미지에서 텍스트를 추출하는 실습을 진행합니다. 이러한 OCR 기술을 배워 자동차 번호 인식, 시각 장애인을 위한 시스템, 이미지 글씨 번역, 문서 자동화 등에 활용할 수 있습니다.
03. 이미지와 텍스트를 결합한 멀티모달 모델 구현
최근 이미지, 텍스트, 센서 데이터가 결합된 멀티모달 기술이 IT 기업들에게 주목받고 있습니다. 이러한 트렌드에 맞춰 이미지와 텍스트 데이터를 활용해 멀티모달 모델을 구현해 봅니다. ResNet, GAN, DCGAN, DALL-E mini 등의 모델을 활용해 이미지 기반의 텍스트를 생성하는 Image Caption과 텍스트를 입력받아 이미지를 생성하는 Image Generation을 배웁니다.