코스 이미지

[스터디] 실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트 with Python

본 스터디는 마감되었습니다. 다음 기수 스터디 참여를 희망하시는 분들은 대기 신청을 해주세요. 스터디 오픈 시 쿠폰과 함께 가장 먼저 연락드리겠습니다.




데이터 엔지니어링을 시작하려는 모두에게


자신있게 추천하는 첫 스텝 :


실리콘밸리에서 날아온


데이터 엔지니어링 스타터 키트 with Python




데이터 팀의 핵심 인력, 데이터 엔지니어!


데이터 엔지니어는 조직에서 어떤 역할을 하고, 어떤 역량을 가진 사람일까요?


만약 내가 데이터 엔지니어가 되려면, 어디부터 시작해야 하는걸까요?


이런 막연한 질문에 대해 기술적 해답을 찾아가는 6주 온라인 스터디입니다.







🗓 SCHEDULE 일정



  • 스터디 시작: 2020-07-18(토)

  • 스터디 종료: 2020-08-29(토) 총 6주

  • 슬랙을 활용한 상시 피드백, 코드리뷰, 토요일 오전 10시(KST)마다 열리는 리더와의 집중 멘토링 세션이 준비되어 있습니다.





  • ZOOM


    웹캠 기반 실시간 Q&A




  • Slack


    실시간 채팅 및 Q&A




  • GitHub


    미션 제출 및 코드리뷰




  • School


    프로그래머스 스쿨






회사의 성장과 함께


자연스럽게 필요해지는 데이터 팀


많은 기업이 서비스를 운영하며 쌓인 데이터를 유용하게 활용하고 싶어 합니다.


특히, 핵심 인력의 지식이나 경험을 통해서 쉽게 답을 내리기 어려우면


이제 ‘데이터 기반의 의사결정'이 필요하다는 사실을 절감하게 되죠.


데이터 엔지니어가 없는


데이터 팀의 문제


데이터 기반의 의사결정을 하기 위해서 데이터 관련 전문가가 필요한데요.


이때 기업 내부에 데이터 관련 전문가가 없다면, 우선 분석가 채용에 힘을 쓰게 됩니다.


지금까지 적재해둔 데이터가 있으니 분석가를 채용해 분석만 하면 인사이트가 나올 것이라 생각하기 때문이죠.


그러나 분석가들이 정말 비즈니스에 도움이 되는 가설을 세우고, 유의미한 결과를 도출하기 위해선


그들이 접근하기 용이하고 신뢰할 수 있는 데이터가 필요합니다.


분석가들이 엔지니어링을 배우면, 신뢰할 수 있는 데이터가 나올까요?


혹은 내부 개발자 중 SQL을 잘하는 사람이 나선다면, 이 문제가 해결될까요?


신뢰할 수 있는 데이터는


누구의 손에서 나올까요


데이터 엔지니어가 없다면, 성공적인 분석을 위한 ‘신뢰할 수 있는 데이터’ 도 존재하지 않습니다.



  • 팀원들이 원하는 데이터를 간단한 SQL 문으로 뽑을 수 있도록 데이터를 구조화하고,

  • 복잡하게 얽혀있는 데이터도 직관적으로 이해할 수 있도록 만드는 것


피부에 바로 느껴지지 않지만 결국 조직에서 큰 주춧돌과 같은 역할을 하는 사람이, 바로 데이터 엔지니어입니다.



이 스터디에서는,


데이터 팀이 필요한 모든 조직에서 ‘엔지니어'가 해야 할 명확할 역할을 제시합니다.


또한, 역할을 잘 수행하기 위한 기본 지식과 기술을 경험이 많은 리더로부터 집중 코칭을 받습니다.








🤵 LEADER 스터디 리더




스터디 리더 한기용(맥스)


리더 맥스(한기용)


  • 데이터 관련 컨설팅 (SK Telecom, ChartMetric, TeamBlind, SkipScooter, Airvet 등)

  • Udemy(유데미) / Senior Director of Data and Principal Data Architect

  • Yahoo!(야후) / Director of Engineering




AI가 크게 발전하면서 AI의 근간이 되는 데이터의 중요성이 점점 대두되고 있습니다. 하지만 데이터를 어떻게 수집하고 정제해야 하는지에 대한 설명이나 그 중요성에 대한 인식은 한참 떨어집니다. 데이터 조직의 시작은 데이터 인프라를 만드는 것에서 시작합니다. 이 강좌에서는 데이터 엔지니어가 하는 일을 배우는 것으로 데이터 인프라를 만든다는 것이 무엇인지 설명합니다.




리더 맥스는 삼성전자, 야후(Yahoo!), 유데미(Udemy) 등 큰 규모의 팀을 여러 차례 거치며 개발자에서 데이터 엔지니어의 길을 걷게 되었습니다. 검색 엔진을 만들며 데이터에 대한 고민을 자연스럽게 하게 되었고, 엔지니어가 된 그 히스토리 자체가 여러분에게 유익한 강의 자료가 될 것입니다.


맥스와 함께 기술에 대한 이해와 더불어 데이터 엔지니어의 역할, 그리고 데이터 팀이라는 조직에 대한 이해까지 폭넓게 갖추는 시간이 되시길 바랍니다.








🤷 TARGET 참여대상자



공통 필수 준비 사항


이 과정은 Python, SQL에 대한 기본 지식이 반드시 필요합니다.


파이썬의 경우 문법 때문에 헤매지 않으셔야 하고, SQL은 join문 활용에 문제가 없어야 합니다.






  • 데이터 엔지니어링에 대한 관심이 생긴 개발자


    데이터 엔지니어링은 프로그래밍 역량이 기본적으로 필요한 분야입니다. 따라서 실무 개발자의 커리어 확장에 있어 고려해보기 좋은 방향 중 하나죠.

    데이터 역량에 대한 중요성은 세상 곳곳에서 대두되고 있지만, 어떤 시작이 적절할지 고민이라면 이 과정을 첫 시작으로 추천합니다.





  • 사내 데이터 인프라 필요성을 느끼는 개발자


    데이터는 쌓이고 회사에서 이를 활용할 방안에 대한 니즈는 많아지는데, 데이터 관련 전문가가 사내에 없다면 왠지 자연스럽게 개발자들에게 요구사항이 떨어지곤 합니다.

    이런 상황 속에서 혼자 구글링으로는 답이 안 나겠구나, 싶은 분들에게 추천합니다.









⚙️ 6주간 이렇게 배워요




  • 🔎


    1주차는, 실습보다는 데이터 조직에 대한 이해와 설명이 주가 됩니다.

    이를 통해 데이터 엔지니어는 어떤 역할을 하는지 알아보고 질의응답을 통해 그간 데이터 엔지니어링에 대해 막연하게 생각하던 것들을 정리해봅니다.



  • 🧑🏻‍💻


    2주차 ~ 5주차까지 매주 실습을 통해 데이터 엔지니어가 되기 위한 기본 지식을 쌓습니다.

    이 과정에서 GitHub을 활용하고 코드 리뷰도 진행하며 체득할 수 있게 도와드립니다.



  • 📊


    6주 차에는, 간단한 대시보드를 만들어보며 데이터를 시각화해봅니다.

    데이터 엔지니어가 할 수 있는 전 과정을 경험하면서 데이터 엔티니어의 역할에 대해 다시 한번 정리해봅니다.




6주간 매주 토요일 오전 10시에 리더와의 집중 코칭 세션이 있습니다!


이 시간에는 주 차별로 다룰 내용, 미션 소개, 라이브 코딩, 자유 Q&A를 진행합니다.


모든 세션은 녹화되어 제공되지만, 가급적 라이브로 참여해 커뮤니케이션하는 것을 권장합니다.








📈 커리큘럼



매주 데이터 엔지니어링과 관련해 어떤 내용을 배울지, 그 내용을 통해 나의 어떤 질문과 고민을 해소할 수 있는지 확인해보세요.


회사 제출용 과정 소개서가 필요하다면? 전체 커리큘럼 다운받기




🗓 1주차


데이터 팀이란 무엇이고, 어떻게 구성되며, 어떤 역할을 하는가

회사에서 데이터 조직이 하는 일이 무엇인지 여러 각도에서 살펴보고, 어떤 구성원들이 존재하는지 알아봅니다. 데이터 조직에서 데이터 엔지니어가 하는 역할과 필요한 스킬 셋에 대해 자세히 알아보고 실제 테크 기업 데이터 엔지니어의 하루를 살펴봅니다.


1주차에는 이런 고민을 해소합니다.


  • 🔎 스타트업은 언제부터 데이터에 신경써야 할까요?

  • 🔎 데이터 애널리스트와 사이언티스트의 역할 차이는 무엇인가요?

  • 🔎 데이터 엔지니어가 하는 일은 백엔드 데이터베이스 관리자가 하는 일과 어떻게 다른가요?


다룰 내용


  • ✅ 데이터 팀의 구성과 역할에 대한 이해

  • ✅ 데이터 팀에서 데이터 엔지니어의 역할은


주요 키워드 : 데이터 팀의 역할, 데이터 팀의 구성원(데이터 엔지니어, 데이터 애널리스트, 데이터 사이언티스트)과 역할


[1주차 세션] 2020-07-18(토) 오전 10시~




🗓 2주차


데이터 웨어하우스(Data Warehouse)

AWS Redshift 기반 데이터 웨어하우스 제작해 보고 SQL 클라이언트 툴을 통한 Redshift 사용 실습을 진행해봅니다.


2주차에는 이런 고민을 해소합니다.


  • 🔎 데이터가 얼마 없는 상황에서도 데이터 웨어하우스가 필요할까요?

  • 🔎 데이터 웨어하우스로 사용할 수 있는 데이터베이스로는 무엇이 있나요?

  • 🔎 Redshift, BigQuery, Snowflake과 같은 데이터 웨어하우스들의 각 차이점은 무엇인가요?


다룰 내용


  • ✅ 데이터 엔지니어의 일주일 in 실리콘밸리

  • ✅ 실습환경 소개 (AWS & Docker)

  • ✅ 데이터 웨어하우스 만들기

  • 🧑🏻‍💻 [과제] Python을 활용한 Redshift access


주요 키워드 : ETL (Extract, Transform, Load)/데이터 잡/데이터 파이프라인, 데이터 잡 스케줄러, Airflow, 데이터 웨어하우스 (Redshift, Snowflake, BigQuery)


[2주차 세션] 2020-07-25(토) 오전 10시~




🗓 3주차


데이터 엔지니어링을 위한 SQL

데이터 엔지니어에게 가장 중요한 스킬 셋은 바로 SQL! 통상적으로 개발자가 쓰는 SQL과 비교해 데이터 엔지니어링에서 쓰는 SQL은 무엇이 다른지 알아봅니다. 예제 데이터를 토대로 복잡한 SQL을 사용하는 방법을 학습해봅니다.


3주차에는 이런 고민을 해소합니다.


  • 🔎 데이터 엔지니어로 일하려면 SQL을 어느 정도 수준까지 알아야 하나요?

  • 🔎 데이터 애널리스트나 사이언티스트들이 사용하는 SQL도 복잡한 수준인가요?

  • 🔎 SQL로 할 수 있는 업무의 범위가 얼마나 넓은가요? 결국 코딩을 해야만 가능한 것들이 대부분 아닌가요?


다룰 내용


  • ✅ SQL 소개

  • ✅ 고급 SQL

  • 🧑🏻‍💻 [과제] 조금 더 복잡도가 높은 실제 현업 데이터를 토대로 앞서 실습했던 metrics들을 계산해보기


주요 키워드 : 기초 SQL과 데이터 엔지니어링을 위한 고급 SQL, JOIN, LEFT JOIN, OUTER JOIN, SQL Aggregate functions, UNION, EXCEPT, SQL UDF, Cohort, Redshift


[3주차 세션] 2020-08-01(토) 오전 10시~



🗓 4주차


ETL(Extract, Transform and Load) 작성하기

파이썬으로 간단한 ETL을 작성해 보고, Airflow가 어떻게 도움이 되는지 알아봅니다. 앞서 작성한 간단한 ETL을 Airflow로 변환해 봅니다.


4주차에는 이런 고민을 해소합니다.


  • 🔎 ETL이 구체적으로 무엇인가요?

  • 🔎 Airflow와 같은 프레임워크를 사용하면 뭐가 편해지나요?

  • 🔎 Airflow 대신, FiveTran이나 StitchData와 같은 SaaS를 사용하는 것에 차이가 있나요?


다룰 내용


  • ✅ ETL 개념 및 ETL 작성

  • ✅ Airflow 소개


주요 키워드 : ETL, 데이터 파이프라인, 데이터 잡, 스케줄러, Python, SQL, Airflow, Redshift, Airflow DAG/Task/Operator


[4주차 세션] 2020-08-08(토) 오전 10시~



🗓 5주차


Airflow 심화학습

좀 더 복잡한 데이터를 다뤄보며 Airflow의 여러 기능에 대해 배워봅니다. 써머리 테이블을 직접 만들어 보면서 raw data가 어떻게 이해하기 쉬운 형태로 추상화되는지 확인해봅니다.


5주차에는 이런 고민을 해소합니다.


  • 🔎 Airflow로는 스트리밍 데이터를 처리할 수 있나요?

  • 🔎 DAG가 하나 끝나면 다른 DAG를 트리거하는게 가능한가요?

  • 🔎 SQL만 사용해서 DAG를 만들 수도 있나요?


다룰 내용


  • ✅ Airflow 기반 ETL 작성 (1)

  • ✅ Airflow 기반 ETL 작성(2) : Summary table 만들기


주요 키워드 : Airflow 파라미터 설명, Airflow의 태스크/DAG 실행순서 정의, Airflow troubleshooting


[5주차 세션] 2020-08-15(토) 오전 10시~



🗓 6주차


대시 보드 만들기 및 과정 총 정리

5주차에 만든 써머리 테이블을 Tableau Online을 활용해 시각화해봅니다. 데이터 엔지니어로써 경험할 수 있는 전체 사이클을 경험하면서 데이터 엔지니어 역할에 대해 한 번 더 정리를 해봅니다.


6주차에는 이런 고민을 해소합니다.


  • 🔎 보통 metrics를 대시보드로 시각화할때는 어떻게 하나요?

  • 🔎 BI 혹은 대시보드 툴은 여러 가지가 존재하는데 어떤 툴을 추천하나요?

  • 🔎 데이터 엔지니어링에 대해 기본적인 것을 배웠는데, 다음엔 어떤걸 더 배워야할까요?


다룰 내용


  • ✅ 대시보드 만들기

  • ✅ 과정 정리


주요 키워드 : Visualization, BI (Business Intelligence) Tool, BI Tool 비교, Tableau


[6주차 세션] 2020-08-22(토) 오전 10시~



*세션이 뭐에요?: 스터디의 원활한 진행과, 여러분에게 더 많은 내용을 알려드리기 위해 일주일에 한 시간 정도는 모두 Zoom 이라는 소프트웨어를 활용해 동시에 접속하여 문제 풀이 설명도 듣고 질문 답변도 진행하는 화상 미팅 시간입니다. 유사한 형태로 웨비나(Webinar)를 생각하면 됩니다. 참여하지 못하는 분들을 위해 녹화본이 제공됩니다.





😘 현직 전문가가 이 스터디를 추천해요!


리더가 아닌 다른 현직 전문가도 이 스터디 내용과 진행 방식을 신뢰하고 있어요.






  • 데이터엔지니어 진성주




    Spark나 Hadoop 같은 ‘기술'을 넘어, 데이터 조직을 구성하는 것은 데이터 기반 의사결정 문화를 조성하며 데이터 기반의 제품을 만드는 중요한 과정이기도 합니다. 리더 한기용님은 다양한 산업에서 데이터 팀을 만들고 성장시킨 경험이 있어, 다양한 상황에 놓인 스터디원들의 니즈를 빠르게 포착하고 멘토링 해주실 수 있으리라 생각합니다. 리더의 경험을 다각도로 활용하셔서, 데이터 엔지니어링을 활용해 어떻게 성공적인 데이터 팀을 꾸리고 결과를 만들어낼 수 있을지 인사이트를 얻어가시길 바랍니다.


    진성주 ― 현 Udemy 데이터 엔지니어







  • 데이터엔지니어/애널리스트 이현주




    데이터 관련 분야에 관심이 있는 분이라면, 데이터 엔지니어링에 대한 전반적인 구조와 흐름을 이해하는 것은 상당한 강점이 됩니다. 분석만큼이나 중요한 것이 자동화를 포함한 엔지니어링의 영역이기 때문에, 앞으로 데이터 관련 커리어를 발전시키고 싶은 분이라면 꼭 이 과정에 참여하시는 것을 추천합니다. 리더 한기용님은 실리콘밸리의 여러 회사가 데이터 관련 문제들을 어떻게 해결하고 있는지, 데이터 조직을 어떻게 구성하는 것이 좋은지에 대한 풍부한 경험과 지식이 있기에 여러분에게 많은 도움이 될 것입니다.


    이현주 ― 현 Affirm 데이터 엔지니어/애널리스트










💳 스터디 참여비


6주, 데이터 엔지니어링 스타터 키트


2020-07-18(토) ~ 2020-08-29(토)

스터디 리더 맥스


6주간 이어지는 풍부한 코드리뷰와 미션을 놓치지 마세요.


온라인 카드결제(할부), 무통장 입금 모두 가능합니다.






💵


마감되었습니다.



정가 500,000원


질문 & 답변