course thumbnail
오프라인
  • 데이터사이언스
  • 중급

Practical Spark : 사용법, 데이터 파이프라인 구축&서비스까지

(2기 모집 마감!) 현업 데이터 엔지니어의 Spark 실무! 기초 사용법부터 데이터 파이프라인 구축, 그리고 서비스 운영까지! 현장 강의에서만 듣는 실전 해설과 노하우도 한가득!

해당 기수는 조기마감됐어요!
강의 일정
22.01.08 ~ 22.02.19 (총 6회) 매주 토요일 14:00 ~ 17:00, 총 18시간

(2022년 01월 29일 설날 연휴)

강의장
강남대로 94길 15, S2빌딩 4층(지도확인)
강의 방식
spark 강의

이제는 대세를 넘어선 기본, Spark 제대로 배우려면?

“유니콘 기업 엔지니어에게 배우는 실무 노하우”

데이터 파이프라인 구축을 위한 Spark 실무 노하우부터 다양한 컴포넌트 활용법까지!

01

글로벌 기업의 Spark 활용 실전 케이스 스터디를 살펴볼 수 있습니다.

02

데이터 파이프라인 구축에 대한 전반적인 흐름을 이해할 수 있습니다.

03

파이프라인 구축 진행시 발생할 수 있는 다양한 오류와 대체어 대해 배울 수 있습니다.

본 강의를 수강하기 전, 안내사항

  • * 해당 과정은 정원 초과 시 조기 마감될 수 있습니다.
  • * 오프라인으로만 진행됩니다.

우리 과정의 특징

  • "데이터 파이프라인 구축"에 초점을 맞춘 spark 실전 기초

    본 강의에서는 단순히 문서나 책에 나오는 Spark 의 문법이나 사용법이 아니라 Spark 를 사용해 데이터를 추출 / 가공 / 적재하는 ‘데이터 파이프라인' 구성 방법을 배웁니다. 따라서 짧은 기간 동안, 다양한 파일 포맷과 저장소 등 데이터 인프라의 핵심 요소들에 대해 쉽게 배울 수 있습니다. 또한 강의 최종장에서는 미니 프로젝트를 통해 ‘데이터 파이프라인' 을 위한 Spark 프로젝트를 구축해보며 기존까지 학습한 내용을 전체적인 그림에서 돌아볼 수 있습니다. 예를 들어 MySQL 에서 데이터를 추출해 통계 데이터를 생성하거나 사용자에게 실시간 서비스를 제공하기 위해 Spark 로 가공해 DynamoDB 등에 데이터를 적재할 수 있습니다.

  • AWS를 활용한 spark 실전 케이스 스터디

    매주 마다 포함된 실전 해설 시간에서는 AWS 및 데이터 파이프라인 구축 경험을 바탕으로 한 이야기를 나누어보고, 국내 및 해외 테크기업의 사례들을 ‘현장' 에서 듣고 질문하며 배울 수 있습니다. 이를 통해 수강생 분들은 단순히 이론적인 내용 뿐만 아니라 케이스를 바탕으로 ‘데이터 파이프라인’ 에 대한 한층 더 넓은 시각을 가질 수 있습니다.

  • 수많은 기업의 러브콜을 받는 데이터 엔지니어의 오프라인 직강

    유명 대기업 S기업 데이터 엔지니어, 클라우드 인프라 엔지니어를 거쳐 현재 유니콘 기업에서 데이터 엔지니어로 활동 중이신 데이터 엔지니어가 직접 강의장에서 강의를 진행합니다. 특히 온라인 강의로만 존재했던 spark 사용법 안내 강의가 아닌, 현장에서 직접 데이터 파이프라인 구축 및 spark 실무에 대한 논의가 가능한 오프라인 강의로만 진행됩니다.

강의 구성
spark 강의
강의 자료

우리는 이런 내용을 배워요!

본 이미지는 모두 1회차 강의자료의 일부입니다. 실 자료는 개강 당일 공유됩니다.

practical spark

practical spark

practical spark

practical spark

수강효과

수강하고 이렇게 성장해요!

01

"데이터 파이프라인"의 다양한 요소에 대한 이론적 설명과 실습

데이터가 흐르는 파이프라인은 Spark 뿐만 아니라 다양한 컴포넌트와 기술로 구성이 되어 있습니다. 본 강의에서는 Parquet, Avro 등 빅데이터 시스템에서 많이 활용되는 파일 포맷부터 시작해 메타스토어를 거쳐, 데이터를 로딩하고 가공해 다시 내려놓는 MySQL, Redis, Kafka 등 배치 및 실시간 저장소에 대해 알아보고 실습함으로써 종합적인 데이터 파이프라인과 Spark 학습을 목표로 합니다.

02

AWS 환경에서의 데이터 파이프라인 구축 및 운영중인 현업의 엔지니어의 실전 노하우 제공

다년간 AWS 환경에서 데이터 인프라를 사용해본 경험을 바탕으로, 파이프라인을 구축하기 위해 필요한 Presto, Druid 와 같은 오픈소스부터 AWS 의 데이터 특화 서비스 관련 내용을 풍부하게 해설합니다. 또한 각종 컴포넌트를 실제 사용해보면서 겪은 트러블 슈팅 내용을 듣고, 실습 시간에 적용해보며 실무에서 문제가 되는 상황을 피해갈 수 있습니다.

03

실제 현업에 적용 가능한 미니 프로젝트

Notebook 또는 로컬 환경에서의 단순한 Spark 함수나 데이터 가공 실습을 넘어, 현업에서 사용하는 데이터 포맷과 저장소를 사용해 배치 및 실시간 데이터 파이프라인을 미니 프로젝트로 만들어보며 6주 동안의 이론과 실습 내용을 종합적으로 점검하며 돌아볼 수 있습니다.

수강대상

이런 분들이라면, 이번 강의를 그냥 지나치지 마세요!


데이터가 흐르는 파이프라인에서의 핵심 컴포넌트로써의 Spark 를 배우고 싶은 분


AWS 클라우드 위에서 Spark 를 사용해 데이터 파이프라인을 구축하는 방법을 알고 싶은 엔지니어


데이터 시스템과 파이프라인에 대한 이해를 더 넓히고 싶은 머신러닝 엔지니어


데이터 엔지니어 개발자로서 커리어를 쌓고 싶은 분

강의에 대해 궁금한 점이 있으신가요?

Q. 온라인 라이브로만 진행하나요?

해당 과정은 오프라인과 온라인 라이브가 동시 진행됩니다.
온라인 라이브 강의는 zoom을 활용해 진행될 예정입니다.
과정 진행 시간 동안 담당 매니저가 카카오톡 오픈채팅방을 운영할 예정이며, 강사님과도 카카오톡 오픈채팅방을 통해 언제든 소통하실 수 있습니다.

Q. 수강 시, 준비 사항은 어떤 것이 있을까요?

실습을 위해 개인 PC가 꼭 필요합니다.
* Terminal 에서 필요한 도구 (Python 3+, JDK 8+, Spark) 를 설치할 수 있어야 합니다.
* Github 에서 코드를 Pull 해 실행할 수 있어야 합니다.
* AWS 계정이 있어야 하며, 로컬 환경에 AWS CLI (v1) 이 설치 되어 있어야 합니다.
* 수강 전 DynamoDB, S3 와 같은 AWS 서비스를 사용하거나 알아 보는 것을 권장합니다.

Q. 실제 프로젝트도 같이 진행되나요??

6주라는 짧은 시간동안 시계열에 대한 학습을 진행하다 보니, 프로젝트를 함께 하는 시간은 다소 부족하실 수 있습니다.
다만 강사님께서 제공해주시는 실습 자료와 지속적인 커뮤니케이션을 통해 충분히 만족스러운 결과를 가져가실 수 있을 것입니다.

강사소개

우리 강사님을 소개할게요!

신약 개발 AI 전문가와 함께 합니다!

practical spark
박 훈
이력사항
프로젝트
  • AWS 데이터 파이프라인 구축 및 운영
  • Machine Learning 플랫폼 구축 및 운영
  • 데이터 서비스 개발 및 서빙 및 컴퓨팅을 위한 Kubernetes 클러스터 구축 및 운영
  • ApacheCon Miami, 데이터야놀자, DevOps Korea, AWSKRUG 등 오픈 커뮤니티 및 SK 등 기업 강연 다수 진행
Q. 간단하게 자기소개 부탁드립니다.
안녕하세요. 현재 여행 플랫폼 스타트업에서 데이터 엔지니어로 근무하고 있습니다. 대기업이었던 첫 회사부터, 데이터 인프라 팀에서 일하게 되어서 데이터 세상으로 처음 오신 분들이 겪는 어려움에 대해 잘 이해하고 있어 제가 겪었던 경험을 통해 데이터 파이프라인과 Spark 학습의 시행착오를 줄여드릴 수 있으리라 생각합니다.

과거 데이터 파이프라인을 위한 로깅 플랫폼부터 개발하는 것 부터 시작해서, 데이터의 수집과 가공을 담당 업무로서 모두 경험해보았고, 전 세계의 사용자가 이용하는 오픈소스 Spark Visualization (Apache Zeppelin) 도구도 개발해 보았습니다. 현재는 데이터를 활용해 서비스의 적재 적소에 내보내는 업무를 수행하며 데이터 파이프라인과 머신러닝 플랫폼을 구축 및 운영하고 있습니다.

이렇게 데이터가 활용되는 전 사이클을 겪어 보았기에 실무에서 Spark 가 어떤 패턴으로 활용될때 비용대비 가치가 뛰어난지, 어느 상황에서 문제가 생기며 그것을 피해갈 수 있는지 잘 알고 있습니다.

AWS 환경에서 데이터 엔지니어링을 해온 수년간의 경험을 바탕으로 주니어 데이터 엔지니어 또는 데이터 엔지니어로 전직을 원하시는 분들을 위해 6주 동안 하나씩 차근차근 시작할 수 있는, 그럼에도 핵심 요소는 모두 포함한 '오프라인' 강의를 만들게 되었습니다.
Q. 강의에서는 주로 어떤 내용을 다룰 예정이시고, 어떤 형태로 진행되나요?
강의 전반부에서는 머신러닝 인프라에서 많이 활용하는 Notebook 환경을 활용해 Spark 의 개념과 기본적인 사용법에 대해 배웁니다. Spark 의 내부 구조를 이해할 수 있게되고 실무에서 발생할 수 있는 문제점을 해결할 수 있는 능력을 기르게 됩니다.

강의 중반부에서는 빅데이터 인프라에서 다양하게 활용되는 메타스토어, 파일 포맷별 특징에 대해 알아보고 Redis, MySQL 과 같은 저장소에서 데이터를 추출하고 가공해 적재하는 방법을 실습합니다. 이 과정에서 수강생들은 데이터를 이용해 ‘서비스' 를 제공하는 개념을 익힐 수 있습니다.

강의 후반부에서는 실시간 처리를 위한 Spark 사용 패턴에 대해 알아보고, 미니 프로젝트를 통해 전체적인 관점에서 데이터 파이프라인이 어떤 컴포넌트로 구성되는지 실습해 볼 수 있습니다.
Q. 본 강의에서 배운 내용을 수강생 분들이 어떻게 활용할 수 있을까요?

- 데이터 파이프라인에 대한 전반적인 이론과 Spark 실무를 학습하려는 수강생
- AWS 환경에서 Spark 를 활용해 데이터 파이프라인을 구축하길 원하는 재직자
- 데이터 엔지니어로 이직 또는 면접 준비를 위해 실무 사례와 노하우를 얻길 원하는 구직자

'회사에 데이터는 이미 존재하는데 이걸 어떻게 가공해야 하지? 그리고 어디에 저장해서 어떻게 서비스에 내보내야 하지?' 하는 질문이 있으시다면, 이 강의를 통해 그 해답을 얻으실 수 있습니다.

Q. 주로 어떤 분야에 있는 분들이 수강 대상에 적합할까요?

Spark 에 대해서는 알고 있으나 어떻게 활용해야 하는지 파악이 어려운 주니어 데이터 엔지니어 또는 사내에 데이터 파이프라인 구축을 원하는 백엔드 엔지니어 모두에게 도움이 될 수 있는 강의입니다.

Q. 다른 강의와 어떤 차별점이 있나요?

현존하는 온라인의 Spark 강의는 대부분 Spark 가 무엇인지, API 를 어떻게 쓰는지에 대한 설명이 대부분입니다. 그러나 현업에서 Spark 는 ‘데이터 파이프라인' 의 핵심으로서 어디에서 데이터를 추출하고, 그것을 어떻게 가공한 뒤 다른 저장소에 넣을지가 가장 중요합니다.

이 과정에서 저장소와 대상 서비스 (추천, 통계 등) 으로 인해 데이터 파이프라인이 달라질 수 있습니다. 이 강의에서는 데이터 파이프라인의 핵심 요소로서 다양한 저장소 (MySQL, Redis 등) 에서 데이터를 추출하고 가공한 뒤 적재하는 패턴과 저장소마다의 특징은 물론 Spark 를 이용한 분산처리시 문제가 되는 케이스와 트러블 슈팅과 같은 노하우를 배울 수 있습니다.

Q. 마지막으로 수강생들에게 하고 싶으신 말이 있나요?

책이나 문서에 나와있는 ‘Spark 사용법’ 에 대해 배우기 보다는 "데이터 파이프라인"으로서의 Spark 를 학습하신다면, 실무에서 많은 도움이 되리라 생각합니다. 무엇보다도, 녹화 형태로 대규모 인원에게 진행되는 온라인에서 듣기 힘든 꿀팁과 노하우를 본 오프라인 강의에서는 많이 얻어가실 수 있을 겁니다. :)

특히, 매 주마다 국내 및 해외 테크 기업의 데이터파이프라인 활용 사례를 현업의 뷰에서 해설해주는 시간을 놓치지 마세요! “어떤 문제를 풀기 위해, 왜 이런 구조를 만들었는지" 들려주는 시간을 통해 큰 그림에서 데이터 파이프라인에 대한 전반적인 이해와 Spark 활용 능력을 기르실 수 있습니다.

커리어 성장으로 가는 길, 러닝스푼즈와 함께 하세요!

지금 보고 계시는 강의의 관련 태그로 다른 강의도 찾아보세요.

오프라인

Practical Spark : 사용법, 데이터 파이프라인 구축&서비스까지

매일 선착순 20명 한정! 할인가 확인하고 커리어 성장하세요!