[TIL]250210_Tableau입문 / 데이터 마트, 데이터 레이크, 데이터 웨어하우스

내일배움캠프/TIL

[TIL]250210_Tableau입문 / 데이터 마트, 데이터 레이크, 데이터 웨어하우스

dydatablog 2025. 2. 10. 21:47

728x90

머신러닝 프로젝트가 끝나고 Tableau에 들어가는 타이밍에 마침 취업 공고들도 올라오기 시작했다.

시각화 수업에 들어가기 전에 GA4에 대한 지식이 조금이라도 있으면 좋을 것 같아서 주말에 눈여겨봤던 GA4 자격증을 땄다. 취득하기 어려운 자격증은 아니지만 GA4로 쓸만한 성과가 없다보니 뭐라도 있어야겠다 싶어서 후다닥 준비해서 합격!

일간 목표

✅ 코드카타 2문 풀고 모르는 개념 정리
🔺 태블로 강의 3,4주차 -> 대시보드 실습은 내일 이어서
✅ 태블로 라이브세션 복습
[ ] SQLD 공부

SQL 코드카타 모르는 개념 정리

LAG() 함수 : 현재 행의 이전 행 값을 가져온다.
LEAD() 함수 : 현재 행의 다음 행 값을 가져온다.

SELECT절에서 주로 사용되며, 서브쿼리나 CTE(Common Table Expression) 내에서 사용할 수 있다.

🔺WHERE 절이나 ORDER BY 절에서 사용할 수는 없음!

https://dydatablog.tistory.com/102

[SQL]LAG(), LEAD()함수 _현재 행의 이전 행의 값 참조하기

LAG() 함수 : 현재 행의 이전 행 값을 가져온다.LEAD() 함수 : 현재 행의 다음 행 값을 가져온다.LAG() 함수기본 구문LAG(column_name, offset, default_value) OVER (PARTITION BY ... ORDER BY ...) column_name: 참조할 열.off

dydatablog.tistory.com

태플로 라이브세션 복습

사용자 행동 로그 데이터

세션(Session) : 사용자가 웹사이트를 방문해서 이탈할 때까지 활동

⭐️GA4에서의 세션 수 : 고유 세션 ID 수를 추정하여 사이트나 앱에서 발생하는 세션 수. 같은 유저가 같은 페이지에 오전9시/ 오후2시에 접속해도 세션수는 1로 측정됨(두번째 세션이 기록)

https://blog.martinee.io/post/using-session-metrics-in-ga4

GA4에선 세션 지표 이해하고 사용하셔야 합니다.

Google Analytics를 사용해 보셨다면 ‘세션’이라는 용어에 익숙하실 것입니다. Universal Analytics(GA3)에서는 세션 단위로 데이터를 수집하여 지표를 측정했지만, GA4에서는 데이터 수집 방식이 달라져

blog.martinee.io

체류시간이 길다고 무조건 좋은 것이 아니다 : 페이지가 어려워서 원하는 페이지를 못찾아서

-> 체류시간과 이탈률을 함께 보는 경우가 많다

[시각화 실습]

LOD 유형

FIXED	특정 차원에 대해 집계를 고정
INCLUDE	현재 뷰의 차원 + 추가 차원을 포함하여 집계
EXCLUDE	특정 차원을 제거한 상태에서 집계

위의 예시의 경우

FIXED : 유입 채널(Channel Grouping)별 평균 매출을 계산하고 뷰에서 다른 차원을 추가해도 값이 변하지 않도록 고정된다.

{FIXED [Channel Grouping]: AVG([totals.transactionRevenue])}

INCLUDE : channelGrouping을 기준으로 평균 매출을 계산하되, 뷰에서 추가된 deviceCategory까지 반영(INCLUDE)되어서 평균값이 계산된다.

{ INCLUDE [Channel Grouping]: AVG([totals.transactionRevenue])}

EXCLUDE : 기기 유형별 총 매출을 계산하되, 유입채널(Channel Grouping)을 제외(EXCLUDE)하고 계산된다.

{EXCLUDE [Channel Grouping]:AVG([totals.transactionRevenue])}

VOD 강의

✔️ 데이터 마트(Data Mart), 데이터 레이크(Data Lake), 데이터 웨어하우스(Data WareHouse)

출처 : https://www.snowflake.com/en/blog/beyond-modern-data-architecture/

1. 데이터 웨어하우스(Data Warehouse)

여러 데이터 소스로들로부터, ETL 과정을 거쳐 하나의 통합된 데이터 창고를 구축한다.
많은 양의 데이터를 오랫동안 보관하는 것에 최적화되어 있다.
데이터 웨어하우스에는 업무적으로 중요한 데이터가 저장되고, 전사적인 관점에서 통합하여 관리된다.
예시: Amazon Redshift : 대규모 데이터 분석을 위해 설계된 데이터 웨어하우스로, 다양한 출처에서 데이터를 수집하여 정리하고 분석할 수 있다.

2. 데이터 마트(Data Mart)

따라서 데이터 웨어하우스의 데이터를 이용하여 분석 및 개발이 필요할 경우, 필요한 데이터를 추출하여 데이터 마트를 따로 구축한다.
전사적인 데이터를 보관하는 데이터 웨어하우스와 달리, 특정 목적에 따라 추출하여 사용한다고 생각하면 되겠다.
예시: 판매 데이터 마트
- 특정 부서(예: 마케팅 또는 영업)에서 사용할 수 있도록 판매 관련 데이터만을 모아놓은 데이터 마트입니다. 예를 들어, 특정 지역의 판매 실적, 고객 세분화 정보 등을 포함할 수 있습니다.

3. 데이터 레이크(Data Lake)

가공하지 않은 모든 데이터를 원래의 형태로 적재하는 데이터 저장소.
- Ad-hoc 분석과 머신러닝에 대한 분석 수요가 증가하면서, 가공되지 않은 형태의 데이터는 더 효율적으로 다양한 관점의 분석이 가능하다는 장점이 부각되었다.
예시: Amazon S3 : 구조화된 데이터와 비구조화된 데이터를 모두 저장할 수 있는 플랫폼으로, 사용자는 다양한 형식의 데이터를 대량으로 저장하고 나중에 필요할 때 이를 분석할 수 있다. 예를 들어, 로그 파일, 이미지, 비디오 데이터 등을 모두 저장할 수 있다.

파이썬으로 코드짜서 그래프 그릴때는 엄청 오래걸렸는데....!! 이렇게 간단히 그릴 수 있는거였다니....!!!!!(배신감)

728x90

'내일배움캠프 > TIL' 카테고리의 다른 글

[TIL]250304_최종프로젝트 도메인 결정 (0)	2025.03.05
250228_코드카타, QCC 5회차 (수정 중) (0)	2025.02.28
[TIL]250124_머신러닝 발제 (1)	2025.01.24
[TIL]250123_추천 받은 통계학 개념서, 파이썬_format(),strip() (1)	2025.01.23
[TIL]250122_머신러닝 개인과제3-4번,아티클스터디 (1)	2025.01.22

현재글[TIL]250210_Tableau입문 / 데이터 마트, 데이터 레이크, 데이터 웨어하우스

그냥 하는거지

해봐야지 어쩌겠어라는 마음으로 살아가는 사람의 필기노트와 일기 그 어딘가..

250x250

그냥 하는거지