ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [태블로 강의] CH6. 분포 파악을 위한 시각화 🌌
    데이터 분석 | IT/Tableau 2025. 1. 15. 21:24
    💡 Scatter Plot / Box & Whisker Plot / Histogram

     

     

    1. Scatter Plot (산점도)

    • 특징
      • 두 변수 간의 관계(상관관계)를 시각적으로 표현
      • 각 데이터 점의 위치를 통해 변수 간 연관성이나 패턴, 특이점 확인 가능
    • 사용 예시
      • 매출(Sales)과 이윤율(Profit Ratio) 관계 분석
      • 공부 시간시험 점수 간의 상관관계 파악
      • 광고비광고 캠페인 성과 간의 상관도 확인
    더보기

    위 Scatter Plot 차트 설명 : 

    1. 차트 유형
      • 가로축(X축)에 Sales(매출액), 세로축(Y축)에 Profit Ratio(이윤율)을 배치한 산점도(Scatter Plot)임.
    2. 목적
      • 제품별로 매출과 이윤율 간의 상관관계 및 분포를 확인하기 위함.
      • 가령 매출이 높은데 이윤율이 낮은 경우가 있는지, 이윤율은 높은데 매출 규모가 작은 경우가 있는지 등을 파악할 수 있음.
    3. 참고선(Reference Lines)
      • 차트에 보이는 빨간색 수직선은 평균 Sales, 빨간색 수평선은 평균 Profit Ratio를 나타냄.
      • 이 두 선이 교차하여 4개의 사분면을 형성함으로써, 각 제품이 평균 대비 어느 위치에 있는지 한눈에 확인 가능.
    4. 해석 (사분면 분석)
      • 좌상단(평균보다 매출 낮음, 이윤율 높음): 상대적으로 매출은 낮으나 이윤율이 높아, 단가나 마진 관리가 잘 되고 있는 제품일 가능성.
      • 우상단(평균보다 매출 높음, 이윤율 높음): 매출 규모도 크고 이윤율도 높은 ‘핵심 제품’에 해당할 가능성.
      • 좌하단(평균보다 매출 낮음, 이윤율 낮음): 매출도 낮고 이윤율도 낮아, 재검토가 필요한 제품군일 가능성.
      • 우하단(평균보다 매출 높음, 이윤율 낮음): 매출은 높은데 마진이 좋지 않아, 가격 정책이나 원가 구조를 점검할 필요가 있음.
    5. 활용 방안
      • 고마진·고매출 제품(우상단)을 우선순위로 관리하거나 프로모션 전략을 세울 수 있음.
      • 매출은 높으나 마진이 낮은 제품(우하단)은 원가 절감 혹은 가격 정책 개선 등을 고려할 수 있음.
      • 매출이 낮으나 마진이 높은 제품(좌상단)은 시장 확대나 판매 촉진 전략이 필요할 수 있음.
      • 매출과 마진 모두 낮은 제품(좌하단)은 재고 및 생산 전략 재고(再考)가 필요할 수 있음.

    이처럼 매출과 이윤율의 분포를 시각화해 각 제품의 포지션과 관리 우선순위를 직관적으로 파악할 수 있도록 도와주는 차트

     

    2. Box & Whisker Plot (박스 플롯)

    • 특징
      • 최소값, 제1사분위수(Q1), 중앙값(Median), 제3사분위수(Q3), 최대값 등을 시각화
      • 데이터의 분산 정도와 이상치(Outlier) 여부를 쉽게 파악할 수 있음
    • 사용 예시
      • 월별 매출 혹은 판매량의 분포, 변동성, 이상치 분석
      • 시험 점수 분포에서 중앙값, 사분위수별 비교
      • 제품군(카테고리)별 판매량의 분산 정도 파악

     

    더보기

    위 Box & Whisker Plot 차트 설명 : 

     

    1. 차트 유형 및 목적
      • 가로축(X축)에 Sub-Category, 세로축(Y축)에 Sales를 놓아 카테고리별 매출 분포를 한눈에 볼 수 있도록 만든 Box & Whisker Plot(박스 플롯).
      • 각 카테고리(예: Access, Appliances 등)별로 매출이 어느 범위에 집중되어 있는지, 어떤 값들이 특이치(Outlier)에 해당하는지 쉽게 파악하기 위함.
    2. 박스(상자)와 수염(Whisker)의 의미
      • 박스(상자): 데이터의 중간 50% 구간을 나타냄.
      • 수염(Whisker): 박스 범위에서 벗어나지만 통계적으로 ‘극단값(Outlier)’은 아닌 데이터까지를 포함하는 구간. 일반적으로 Q1 이하 혹은 Q3 이상 영역에 대한 확장(1.5×IQR) 기준을 적용함.
      • 중앙선(Median): 박스 중앙에 있는 굵은 선은 데이터의 중앙값(50번째 백분위수)을 의미함.
    3. 점(Scatter Dots)의 의미
      • 각 원(circle)은 특정 기간(예: 월별)별 실제 매출 값을 표시함.
      • 박스와 수염 범위 밖에 있는 점들은 통계적 기준으로 볼 때 이상치(Outlier)에 해당할 가능성이 높음.
    4. 해석 방법
      • 박스가 길수록: 매출 분포의 편차(폭)가 크다는 의미. 즉, 월별 매출이 들쑥날쑥하거나 변동성이 큼.
      • 박스가 짧을수록: 매출 분포의 편차가 작다는 의미. 월별 매출이 비교적 일정하게 유지됨.
      • Outlier가 많으면: 특정 기간에 특히 매출이 높거나 낮았던 경우가 자주 발생했음을 의미.
    5. 활용 방안
      • 카테고리별 매출 분포를 비교함으로써, 어떤 카테고리에서 편차가 크거나, 극단적으로 높은/낮은 매출이 발생하는지 확인 가능.
      • 판매 전략 수립 시, 편차가 큰 카테고리에 대한 재고 관리나 프로모션 등을 어떻게 진행할지 의사결정에 도움을 줄 수 있음.
      • Outlier 상황을 추가로 조사해 특정 이벤트, 계절성 요인, 프로모션 효과 등을 파악할 수 있음.

    이처럼 Box & Whisker Plot을 통해 카테고리별 매출의 전반적인 분포와 변동성, 이상치를 빠르게 확인할 수 있으며, 이를 바탕으로 보다 정교한 판매 전략이나 재고 관리 방안을 마련할 수 있다.

     

    3. Histogram (히스토그램)

    • 특징
      • 연속형 변수를 구간(bin)으로 나누어, 각 구간에 해당하는 데이터의 빈도수를 막대로 표현
      • 전체 분포 형태(치우침, 봉우리 수 등)를 한눈에 파악 가능
    • 사용 예시
      • 주문 수량(Quantity)이나 거래 횟수의 분포 형태 확인
      • 점수(Grade) 분포, 예를 들어 시험 점수가 특정 구간에 몰리는지 확인
      • 고객 나이 분포 파악 및 구매 패턴 분석

     

    더보기

    Histogram 차트 설명 : 

     

    1. 차트 유형 및 목적
      • 가로축(X축)에 ‘Quantity(구간차원)’, 세로축(Y축)에 ‘Count(Quantity)’를 나타내는 히스토그램.
      • ‘구간(bin)’별로 Quantity가 발생한 횟수를 세어, Quantity의 분포 형태를 파악하기 위함.
    2. 히스토그램 해석
      • 높은 막대가 있는 구간일수록 해당 Quantity를 가진 주문(또는 거래)이 자주 발생했다는 의미.
      • 분포 흐름을 보면, 주로 1~4 정도의 작은 Quantity가 가장 많고, 이후 구간으로 갈수록 발생 빈도가 점차 감소하는 형태.
    3. 분포 분석
      • 대부분의 주문 Quantity가 낮은 구간에 몰려 있다면, 단품 위주의 판매가 주로 이뤄지는 상황일 가능성이 높음.
      • 10 이상 같은 큰 Quantity 구간에서 발생 건수가 매우 적다면, 대량 구매가 드물게 일어난다는 점을 시사.
    4. 활용 방안
      • 재고나 물류 계획: 주문량이 작고 자주 일어나는 품목을 중심으로 재고/물류 전략을 세울 수 있음.
      • 프로모션 전략: 대량 구매가 적다면, 대량 구매를 장려하는 할인이나 프로모션 기획 등을 고려해볼 수 있음.
      • 이상치나 예외 확인: 매우 높은 Quantity 구간에 해당하는 주문이 특정 기간에 집중된다면, 이벤트나 특수 상황인지 확인할 필요가 있음.

    이처럼 히스토그램은 Quantity(구간차원)의 분포를 빠르게 파악하여, 주문 패턴이나 구매 행태의 특징을 한눈에 확인하고 대응 전략을 마련하는 데 도움이 된다.

     

    [ 후기 ]

     

    분포 파악을 위한 시각화 기법인 산점도, 박스플롯, 히스토그램을 학습했다.


    강의 자체에서는 '차트를 만드는 법' 위주로 설명해주고,
    '만든 차트를 어떻게 해석해야 하는지'는 구체적으로 다루지 않았다.

     

    그래서 GPT에게 물어봤더니,
    세 가지 차트에 대해 어떤 의미를 담고 있고 어떻게 활용할 수 있는지 알려줘서
    단순히 ‘차트를 그리는 방법’을 따라 하는 데서 그치지 않고,
    차트에 담긴 의미까지 파악할 수 있었다.

     

    앞으로도 GPT와 함께 공부하면서,
    배운 차트를 실제 데이터 분석이나 의사결정에 어떻게 적용할 수 있을지
    더 깊이 고민해봐야겠다. 

     

Designed by Tistory.