내일배움캠프/TIL

[TIL]250210_Tableau입문 / 데이터 마트, 데이터 레이크, 데이터 웨어하우스

dydatablog 2025. 2. 10. 21:47

머신러닝 프로젝트가 끝나고 Tableau에 들어가는 타이밍에 마침 취업 공고들도 올라오기 시작했다.

시각화 수업에 들어가기 전에 GA4에 대한 지식이 조금이라도 있으면 좋을 것 같아서 주말에 눈여겨봤던 GA4 자격증을 땄다. 취득하기 어려운 자격증은 아니지만 GA4로 쓸만한 성과가 없다보니 뭐라도 있어야겠다 싶어서 후다닥 준비해서 합격!

 

일간 목표

  • ✅ 코드카타 2문 풀고 모르는 개념 정리
  • 🔺 태블로 강의 3,4주차 -> 대시보드 실습은 내일 이어서
  • ✅ 태블로 라이브세션 복습
  • [ ] SQLD 공부

 

SQL 코드카타 모르는 개념 정리

  • LAG() 함수 :  현재 행의 이전 행 값을 가져온다.
  • LEAD() 함수 : 현재 행의 다음 행 값을 가져온다.

SELECT절에서 주로 사용되며, 서브쿼리나 CTE(Common Table Expression) 내에서 사용할 수 있다.

🔺WHERE 절이나 ORDER BY 절에서 사용할 수는 없음!

https://dydatablog.tistory.com/102

 

[SQL]LAG(), LEAD()함수 _현재 행의 이전 행의 값 참조하기

LAG() 함수 :  현재 행의 이전 행 값을 가져온다.LEAD() 함수 : 현재 행의 다음 행 값을 가져온다.LAG() 함수기본 구문LAG(column_name, offset, default_value) OVER (PARTITION BY ... ORDER BY ...) column_name: 참조할 열.off

dydatablog.tistory.com


태플로 라이브세션 복습

 

사용자 행동 로그 데이터

  • 세션(Session) : 사용자가 웹사이트를 방문해서 이탈할 때까지 활동

⭐️GA4에서의 세션 수 : 고유 세션 ID 수를 추정하여 사이트나 앱에서 발생하는 세션 수. 같은 유저가 같은 페이지에 오전9시/ 오후2시에 접속해도 세션수는 1로 측정됨(두번째 세션이 기록)

https://blog.martinee.io/post/using-session-metrics-in-ga4

 

GA4에선 세션 지표 이해하고 사용하셔야 합니다.

Google Analytics를 사용해 보셨다면 ‘세션’이라는 용어에 익숙하실 것입니다. Universal Analytics(GA3)에서는 세션 단위로 데이터를 수집하여 지표를 측정했지만, GA4에서는 데이터 수집 방식이 달라져

blog.martinee.io

 

  • 체류시간이 길다고 무조건 좋은 것이 아니다 : 페이지가 어려워서 원하는 페이지를 못찾아서

-> 체류시간과 이탈률을 함께 보는 경우가 많다

 

[시각화 실습]

도넛 차트 (Donut Chart) – 유입 채널별 트래픽 분석

 

히트맵 (Heatmap) – 시간대별 사용자 방문 패턴

LOD 유형

FIXED 특정 차원에 대해 집계를 고정
INCLUDE 현재 뷰의 차원 + 추가 차원을 포함하여 집계
EXCLUDE 특정 차원을 제거한 상태에서 집계

LOD (Level of Detail) – 사용자당 평균 세션 수 분석

 

위의 예시의 경우

FIXED : 유입 채널(Channel Grouping)별 평균 매출을 계산하고 뷰에서 다른 차원을 추가해도 값이 변하지 않도록 고정된다.

{FIXED [Channel Grouping]: AVG([totals.transactionRevenue])}

INCLUDE : channelGrouping을 기준으로 평균 매출을 계산하되, 뷰에서 추가된 deviceCategory까지 반영(INCLUDE)되어서 평균값이 계산된다.

{ INCLUDE [Channel Grouping]: AVG([totals.transactionRevenue])}

EXCLUDE : 기기 유형별 총 매출을 계산하되, 유입채널(Channel Grouping)을 제외(EXCLUDE)하고 계산된다.

{EXCLUDE [Channel Grouping]:AVG([totals.transactionRevenue])}

 


VOD 강의

✔️ 데이터 마트(Data Mart), 데이터 레이크(Data Lake), 데이터 웨어하우스(Data WareHouse)

출처 : https://www.snowflake.com/en/blog/beyond-modern-data-architecture/

1. 데이터 웨어하우스(Data Warehouse)

  • 여러 데이터 소스로들로부터, ETL 과정을 거쳐 하나의 통합된 데이터 창고를 구축한다.
  • 많은 양의 데이터를 오랫동안 보관하는 것에 최적화되어 있다.
  • 데이터 웨어하우스에는 업무적으로 중요한 데이터가 저장되고, 전사적인 관점에서 통합하여 관리된다.
  • 예시: Amazon Redshift : 대규모 데이터 분석을 위해 설계된 데이터 웨어하우스로, 다양한 출처에서 데이터를 수집하여 정리하고 분석할 수 있다.

2. 데이터 마트(Data  Mart)

  • 따라서 데이터 웨어하우스의 데이터를 이용하여 분석 및 개발이 필요할 경우, 필요한 데이터를 추출하여 데이터 마트를 따로 구축한다.
  • 전사적인 데이터를 보관하는 데이터 웨어하우스와 달리, 특정 목적에 따라 추출하여 사용한다고 생각하면 되겠다.
  • 예시: 판매 데이터 마트
    • 특정 부서(예: 마케팅 또는 영업)에서 사용할 수 있도록 판매 관련 데이터만을 모아놓은 데이터 마트입니다. 예를 들어, 특정 지역의 판매 실적, 고객 세분화 정보 등을 포함할 수 있습니다.

3. 데이터 레이크(Data Lake)

  • 가공하지 않은 모든 데이터를 원래의 형태로 적재하는 데이터 저장소.
    • Ad-hoc 분석과 머신러닝에 대한 분석 수요가 증가하면서, 가공되지 않은 형태의 데이터는 더 효율적으로 다양한 관점의 분석이 가능하다는 장점이 부각되었다.
  • 예시: Amazon S3 : 구조화된 데이터와 비구조화된 데이터를 모두 저장할 수 있는 플랫폼으로, 사용자는 다양한 형식의 데이터를 대량으로 저장하고 나중에 필요할 때 이를 분석할 수 있다. 예를 들어, 로그 파일, 이미지, 비디오 데이터 등을 모두 저장할 수 있다.

파이썬으로 코드짜서 그래프 그릴때는 엄청 오래걸렸는데....!! 이렇게 간단히 그릴 수 있는거였다니....!!!!!(배신감)