AI & Data를 활용하는 기술경영자

Tableau시작 본문

Data_Visualization

Tableau시작

Data_Lover 2022. 10. 31. 21:24
728x90

태블로 설치와 데이터 연결

파일 데이터 연결하기

데이터가 자주 업데이트 되지 않고 일회성 Ad-hoc분석을 하는 경우 주로 파일 데이터를 활용한다.

종류로는 Excel, Text(csv, txt), JSON, PDF, Spatial(shp file), Statistical(SAS, SPSS, R), 저장된 데이터 원본, Hyper, TDE

서버 데이터 연결하기

데이터의 업데이트와 스키마 변경이 빈번하게 일어나서 실시간 대시보드를 만들 경우, 보안이 중요한 데이터(권한이 있어야만 접근이 가능한 데이터)일 때, 주로 연결합니다.

종류로는 Tableau Server, MySQL, Google BigQuery, Google Spreadsheet, Salesfore, Amazon Redshift, Cloudera Hadoop

 

 

저장된 데이터 원본

Tableau Desktop Professional 버전에서만 바로 접근할 수 있다.

위치:문서 > 내 Tableau 리포지토리 > 데이터 원본 > 버전명(2021.03) > ko_KR-APAC>

 

 

태블로 용어 알아두기

데이터 원본 창

데이터 관계

 

 

데이터 관계는 데이터 분석을 위해 여러 테이블에서 데이터를 결합하는 방법이다.

 

조인 유형을 선택할 필요가 없고 분석 중에 사용되는 필드를 기반으로 적절한 조인을 자동을 만들 수 있다.

 

조인과 달리 단일 테이블로 병합되지 않고 각 테이블을 유지하기 때문에 집계 값이 중복되지 않는다.

 

 

 

 

 

데이터 원본 새로 고침

 

라이브 연결: 데이터베이스에 쿼리 보내고 결과에 따라 뷰를 업데이트 한다.

 

추출: 성능을 향상시키기 위해서 데이터를 로컬로 저장한다.

 

 

데이터 원본 새로 고침

 

 

 

이름 바꾸기 : 필드 이름 바꾸기 가능

 

값 복사: 선택한 값을 클립보드에 복사

 

숨기기: 전체 열(컬럼)을 숨기기

 

별칭: 차원 안에 있는 각 멤버들에 새로운 이름을 부여함

 

계산된 필드 만들기: 선택한 필드로 새 필드르 만들 수 있다.

 

그룹 만들기: 서로 다른 차원 멤버들을 그룹지어준다.(퀵 데이터 정리)

 

분할: 태블로가 알아서 적절하게 분할해서 여러 개 열로 나누어짐

 

사용자 지정 분할: 분할과 똑같지만 내가 직접 분할 기준 설정 가능

 

피벗: 가로로 길게 늘어진 열을 세로로 (한 원본에 피벗 한 번 가능)

 

설명: 필드에 대한 추가적인 정보

 

 

 

 

테블로 형태

 

툴바 단추

 

 

기초 차트 실습

Scatter

 

Step 1

  • 열 선반: Sales
  • 행 선반: Profit

Step_2

  • 마크 원/ 색상 Segment
  • 세부 정보 Customer Name

 

 

 

 

Line Chart

 

Step 1

  • 열 선반: Order Date
  • 행 선반: Sales

Step_2

  • 마크 라인/ 색상 Category
  • 텍스트 Category
  • 텍스트 Sales

 

 

 

 

Bar Chart

 

Step 1

  • 열 선반: Profit
  • 행 선반: Sub-Category

Step_2

  • 마크 막대 색상: Sub-category

 

 

 

 

 

 

 

Map

 

Step 1

  • Region 더블클릭

Step_2

  • 마크 맵
  • 섹상 Profit
  • 레이블 Region & Profit

 

 

 

 

 

 

태블로의 핵심 개념

차원과 측정값

 

차원 : 나눠서 볼 기준(지역별, 연도별, 성별)으로 숫자를 자르는 기준으로 주로 쓰입니다.(범주형 데이터)

측정값: 값(매출, 수익,배송비)로 숫자(수치형 데이터)를 의미합니다.

차원과 측정값이 함께할 때 인사이트가 생긴다.

측정값은 그 자체만으로 인사이트가 없기에 차원으로 쪼개져야만 의미를 갖게 된다. [측정값은 집계되고 차원이 없으면 쪼개지지 않고 일단 하나의 덩어리가 된다.]

ex:) 전체 매출 합계보다는 지역별 매출 비교가 인사이트가 있다.

 

태블로는 기본적으로 측정값을 집계하고 차원으로 데이터를 세부적으로 쪼갠디.

 

헤당 위치에 차원을 추가하면 뷰의 세부 수준(쪼개지는 정도)가 영향을 받는다.

 

연속형과 불연속형

 

그림에서 보는 것처럼, 불연속형이 파란색이며 개별적으로 구분되는 데이터이고, 연속형은 초록색이며 연속적 순서가 있는 쭉 이어진 데이터이다.

 

불연속형(ex 불연속형 필터[카테고리])은 머리글이고 유일한 값을 갖으므로 정렬이 가능하고, 연속형(ex: 연속형 필터[매출 합계])은 축이고, 연속된 순서가 있기에 정렬이 불가능하다.

색상 마크에 올려놨을때의 차이

태블로의 집계 방식

(Row-level 계산 vs Aggregate-level 계산)

 

종류 Row Level Aggregate Level
특징 데이터셋의 행 단위로 계산(세부적으로) 현재 뷰의 세부 수준에 따라 계산
계단식 Profit / Sales SUM(Profit) / SUM(Sales)
1단계 각 레코드가 ratio를 반환 모든 Profit의 합계를 구하고,
모든 Sales의 합계를 구한다.
2단계   전체 Profit이 전체 Sales로 나뉜다.
뷰에 드래그 했을 때 집계된다
기본값이 SUM이기 때문에 각각의 ratio가 합계로 집계된다.
집계되지 않는다.
이미 계산식에 집계가 있기 때문에 (집계)표시가 보인다.
쿼리 SELECT SUM(Profit/ Sales)
            FROM Orders
SELECT SUM(SUM[Profit]/ SUM[Sales])
            FROM Orders
결과 정확하지 않음 정확함

 

728x90