첫 번째 강의에서는 파이썬이 어떤 것인지 알아볼 것입니다. 사전에 파이썬 설치가이드를 전달드릴 예정이며, 준비된 프로그램(쥬피터노트북)을 어떻게 실행하는지 먼저 살펴볼 것입니다. 이후에는 컴퓨터와 소통할 수 있게 파이썬이라는 언어가 어떻게 작동하는지 직접 코드를 하나하나 입력하며 적응을 해볼 것입니다.
이후에는 파이썬 문법중 필수적으로 꼭 필요한 부분만 추려서 살펴볼 것입니다. 1주차에 배우는 내용만 아셔도 파이썬 사용하는데 무리가 전혀 없을 것입니다.
이론
– 파이썬 설치(사전 안내)
– 파이썬 기본 문법(숫자, 리스트, for 반복문, if 조건문, 문자열 포맷팅 등)
실습
– 파이썬 코드 3줄로 구구단 출력하기
– up&down 게임 만들기 (임의의 숫자 맞추는 게임)
두 번째 강의에서는 웹 크롤링에 대해 알아볼 것입니다. WEB이 어떻게 구성되어있는지, 웹페이지(HTML)는 어떻게 작성되는지 자세하게 알지 못하여도 웹크롤링을 할 수 있습니다. 본 과정에서는 크롤링을 진행할 때 도움이 될만한 핵심 부분만 선택하여 알아볼 것입니다.
이어서 웹페이지에 접속 후 HTML 정보를 다운 받는 방법, 그리고 HTML에서 내가 원하는 데이터를 찾아 저장하는 방법을 알아볼 것입니다. 활용법에 대해 알아볼 것입니다.
이론
– WEB / HTML 살펴보기
– URL 구조 이해하기 & URL 주소 만들어보기
– 크롤링 기법 Selenium, BeautifulSoup
– BeautifulSoup 으로 HTML 내용 가져오기
– Tip) 크롬 브라우저에서 내가 찾고자 하는 html 태그 위치 쉽게 찾는 방법
실습
– 강의 커리큘럼 페이지에서 주차별 강의 내용 정리하기
2 회차에서 배웠던 크롤링을 이용해 실제 웹페이지에서 정보를 수집하고, 엑셀 파일에 저장해 볼 것입니다. 멜론 노래 순위를 수집해보고, Yes24에서 베스트셀러 정보들을 수집해 볼 것입니다. 하나의 웹페이지에 접속한 뒤 친숙한 노래/책 정보들을 수집해보면서 크롤링에 익숙해지는 것이 이번 회차의 목적입니다.
크롤링에 익숙해진 이후에는 미니프로젝트 진행을 통해 여러 페이지를 크롤링 해보며, 실제 업무에 활용 가능하도록 연습해 볼 것입니다.
이론
– 크롤링한 데이터 엑셀 파일로 저장하기
– 수집한 데이터 깔끔하게 정리하기
– 크롤링 종류 및 장단점 살펴보기
실습
– 멜론 노래 순위 수집하기
– Yes24 베스트셀러 정보 수집하기
파이썬을 통해서 대량의 데이터를 살펴보고, 다양한 관점에서 비교하거나 원하는 데이터들만 추출하는 등의 작업을 진행할 수 있습니다. 엑셀과 같은 표 형태의 데이터를 쉽게 다룰 수 있는 Pandas 라이브러리를 활용하는 것인데, 엑셀보다 속도도 빠르고 안정적으로 작업할 수 있다는 장점이 있습니다.
4회차에서는 판다스를 어떻게 사용하는지 알아볼 것입니다. 엑셀 데이터를 읽는 법부터 데이터를 선택하거나, 피벗테이블을 만들거나, 여러 데이터를 병합하는 등의 다양한 작업을 해볼 것입니다.
판다스가 어떤 것인지 살펴본 다음, 공공데이터인 지하철 승하차 이용객수 자료를 받아 데이터를 살펴볼 것입니다.
수만건에 달하는 데이터를 다뤄보면서, 판다스에 대해서 익숙해질 수 있도록 실습을 해볼 것입니다.
“어느 지하철 역에서 가장 많은 사람들이 타고, 내릴까?”
“지하철 이용객은 평일이 많을까? 주말 혹은 평일 중에는 언제가 많을까?”
“지하철 가장 많이 타는 날은, 다들 어디서 내릴까?”
다양한 가설 혹은 확인하고 싶은 내용들을 설정한 뒤, 데이터를 통해 실제 정답을 찾아볼 것입니다.
이론
– 판다스 구조, 개념 이해하기
– 여러 조건을 만족하는 데이터 선택하기
– 여러 개의 테이블 병합하기
– 데이터 집계, 정렬하기
– 데이터 분석 결과 엑셀로 저장하기
실습
– 지하철 승하차 이용객 수 데이터 살펴보기
– Tip) 엑셀 파일 잘 불러오는 방법 (시트 지정해서 불러오기, 여러 줄의 제목을 가지고 있을 경우 등)
“요즘 새롭게 생기고 있는 상점들은 어떤 종류가 있을까?”
5회차에서는 앞서 학습한 판다스를 활용하여 상점 업력 데이터(공공데이터)를 가지고 실제 데이터를 살펴보고, 분석을 해보겠습니다. 지역별로, 업종 유형별로 업력에 따른 매장수를 비교해볼 것입니다. 어떠한 업종이 고인물(?)이 많은지, 최근 새롭게 생성된 업종군은 어떠한 것들이 있는지 살펴 볼 것입니다. 또한 카페나, 치킨집과 같은 업종을 선택하여 지역별로 어떻게 분포가 되고 있는지 살펴볼 것입니다.
“퇴직 후 카페를 한다면… 어느 지역이 좋을까? 인구 대비 카페가 적은 지역?”
이후에는 지역별 인구 데이터를 불러와서, 상점데이터와 병합하고, 인구대비 카페수를 비교해 볼 것입니다.
이론
– 판다스 컬럼 생성하기, 데이터 병합하기
실습
– 상점 업력 데이터 분석하기
: “가장 오래된 업종은 무엇일까?”, “요즘 새롭게 뜨고 있는 업종은 무엇일까?”, “업종별 업력의 편차를 비교해보자”
– 인구 데이터 분석하기
: 시군구별 데이터 정리하기, 상점 업력 데이터와 병합하기
– 지역별 인구 만명당 카페 수 비교하기
: “퇴직 후 카페 괜찮을까?”, “카페 창업을 한다면 어느 지역에 하는 것이 좋을까?”
6회차에서는 판다스로 정리한 데이터들을 어떻게 시각화할 수 있는지에 대해 살펴볼 것입니다.
회사 내에 이미 가지고 있는 데이터나 웹크롤링을 통해, 데이터 수집이 끝난 자료들을 불러와서 시각화 가능하게 정리한 후, 표현하고자 하는 내용을 그래프를 이용해서 확인하실 수 있습니다.
seaborn 라이브러리를 이용하여 pandas 데이터를 시각화 하겠습니다.
또한 업무에서 보다 편리하게 데이터를 다루실 수 있도록, 데이터를 자동으로 병합/저장해주는 RPA 기술도 함께 가르쳐드리겠습니다.
이론
– seaborn 라이브러리 사용법
– 로보틱 처리 자동화 안내
– Tip) 데이터 자동레포트 만들기
– Tip) 한글/부호 글자 깨지지 않게 표시하는 방법
실습
– 데이터 종류에 따른 그래프 사용하기
ex) “값의 분포를 확인하고 싶어”, “두 변수 값의 분포와 관계를 알고싶어”, “항목 별로 값의 분포를 비교하고 싶어”, “두 가지 지표에 대한 값들을 한 눈에 비교하고 싶어”
– 건강 검진 데이터 살펴보기 및 시각화
– Pandas를 이용한 RPA(Robotic Process Automation)
마지막 7회차에서는 데이터 수집부터 분석까지 전체 과정으로 미니프로젝트를 진행할 것입니다.
많은 분들이 이용하고 있는 네이버쇼핑몰의 데이터를 직접 가져온 뒤에 네이버 쇼핑몰에 등록된 쇼핑몰과 상품을 기준으로 판매가를 직접 비교 분석해봅니다.
실습
– 네이버 쇼핑몰 크롤링하기
– 크롤링한 데이터 저장하기
– 쇼핑몰과 상품별로 정렬하여 판매 비교분석
: “동일한 제품, 쇼핑몰마다 가격 편차가 있을까?”, “조건 별로 살펴보기 귀찮은데..어느 쇼핑몰에서 사면 합리적일까?”