Join Tools
Join Tool
데이터를 서로 연결하거나 비교할 때 쓰는 도구들이다.
- Join Tool: 두 데이터 소스를 공통 필드(예: ID) 기준으로 합쳐준다. (Join by Specific Fields)
- Inner Join(J) / Left Join)(L) / Right Join (R) 개념이 전부 포함돼 있다. SQL의 INNER JOIN, LEFT JOIN, RIGHT JOIN 개념을 모두 하나의 툴 안에서 처리할 수 있다는 게 장점이다.
- Join by Specific Fields
가장 일반적인 조인 방식으로, 사용자가 지정한 특정 필드(예: 고객ID, 제품코드 등)를 기준으로 데이터를 조인한다. - Join by Record Position
필드값이 아니라, 행의 순서(레코드 포지션)를 기준으로 조인한다.
두 데이터셋의 행 수와 정렬 순서가 정확히 같을 때만 의미가 있다. 조인 전에 정렬(Sort Tool) 해두면 Join by Record Position이 정확히 작동함. - 조인을 하면 J L R 모두 해줌
- Join Tool은 데이터 누락 확인이나 차이 비교할 때도 유용하게 활용할 수 있음.
- 필요하다면 Join Tool 다음에 Union Tool을 사용해서 J, L, R 결과를 다시 합치는 것도 가능.
Union Tool
여러 데이터셋을 세로 방향으로 합치는 도구다.
열(column) 구조가 같은 데이터를 위아래로 이어붙여 준다.
- Column Name 기준 정렬
기본적으로 같은 이름의 컬럼끼리 자동 정렬된다.
필드 순서가 달라도 이름이 같으면 자동으로 맞춰진다. - Manual Configuration
필요할 경우 수동으로 필드를 매칭할 수 있다.
예: A 컬럼과 B 컬럼을 수동으로 위치 맞추기 - 필드 누락 허용
한쪽에만 있는 컬럼은 null로 채워지고, 조인이 되지 않아서 데이터 손실 없이 합칠 수 있음.
여러 개의 파일을 합치거나, 다른 소스에서 가져온 데이터를 한 테이블로 만들고 싶을 때 가장 많이 쓰인다.
예: 지점별 매출 데이터, 월별 로그파일, 설문 응답 파일 등
Append Tool
한쪽 데이터셋의 모든 행을 다른 데이터셋의 각 행에 붙이는 도구다.
조인처럼 보일 수 있지만, 조인 조건 없이 모든 조합을 만드는 것이 특징이다.
- Cartesian Product (데카르트 곱)
예를 들어 왼쪽에 3개의 행, 오른쪽에 2개의 행이 있다면 → 3 x 2 = 6개의 조합이 만들어진다. - 조인 기준 없음
필드 기준으로 매칭하는 게 아니라, 그냥 모든 행을 붙인다.
그래서 일반적인 Join Tool과는 다르게 모든 조합을 만들어내는 방식이다. - 활용 예시
- 각 상품에 대해 모든 마케팅 전략을 붙이고 싶을 때
- 특정 기준값(설정값, 파라미터 등)을 전체 데이터에 공통으로 적용하고 싶을 때
- 테스트 케이스와 조합을 생성하고 싶을 때
많은 양의 조합이 만들어질 수 있으니, 데이터 수가 클 경우 주의해서 써야 한다.
필요하면 이후에 Filter Tool이나 Sample Tool로 일부만 걸러서 사용하는 게 좋다.
Find Replace Tool
한쪽 데이터를 기준으로 다른 쪽 값을 찾아서 바꿔주는 도구다.
Excel의 VLOOKUP과 매우 유사하다.
- 기준 필드를 설정하고, 거기에 해당하는 값을 참조 테이블에서 찾아 다른 필드로 대체하거나 추가할 수 있다.
- 텍스트 값을 매핑하거나, 코드 → 이름 변환 등에 자주 쓰인다.
Transform Tool
데이터를 변형하거나 요약/집계할 때 사용하는 도구들이다.
Transpose Tool
데이터의 구조를 바꿔서 열을 행으로 전환해주는 도구다.
wide → long 형태로 바꾸는 기능이며, 피벗 해제(unpivot) 라고도 부른다.
- Key Field: 고정할 필드 (행마다 반복되게 유지됨)
- Data Field: 전개할 대상 열들 → 이 열들이 전부 하나의 행으로 펼쳐짐
- 활용 예시
- "이름, 국어, 영어, 수학" → "이름, 과목, 점수" 형태로 바꾸고 싶을 때
- 컬럼이 너무 많아서 하나의 범주로 정리하고 싶을 때
Cross Tab Tool
Transpose의 반대 기능으로, 행을 열로 바꾸는 피벗 도구다.
long → wide 구조로 바꾸며, Excel 피벗 테이블과 유사한 기능이다.
- Group Data By: 어떤 필드를 기준으로 그룹핑할지 설정
- New Column Headers: 어떤 필드가 새로운 열 제목이 될지 지정
- Values for New Columns: 각 셀에 들어갈 값을 어떤 필드에서 가져올지 선택
- Method: 여러 값이 있을 경우 어떻게 집계할지 설정 (합계, 평균, 첫 값 등)
- 활용 예시
- 과목별 점수를 열로 정리하고 싶을 때
- 판매 데이터를 월별, 제품별로 나눠서 보고 싶을 때
Summarize Tool
그룹핑(Group By), 집계(Aggregation), 문자열 결합 등 요약 작업을 해주는 도구다.
데이터를 그룹별로 묶고, 그 안에서 평균, 합계, 개수, 최소/최대값 등을 계산할 수 있다.
- Group By: 그룹핑할 기준 필드 지정
- Sum, Count, Average 등 다양한 통계 연산 선택 가능
- String Concatenate: 문자열을 그룹별로 연결
- First, Last: 정렬 후 첫 번째/마지막 값 추출 가능
- 활용 예시
- 고객별 총 구매금액 계산
- 카테고리별 상품 수 세기
- 시간별 평균 응답시간 요약
Parse Tools
텍스트나 복잡한 데이터를 나누고 쪼개서 정리하는 데 사용하는 도구들이다.
Text to Columns Tool
문자열을 구분자(delimiter)를 기준으로 나누어 여러 열(Column)로 분리해주는 도구다.
CSV, 로그, 콤마/슬래시/하이픈 등 특정 구분자가 있는 데이터에 자주 사용된다.
- Split to Columns: 한 열을 여러 열로 나눔
예: "A,B,C" → A / B / C - Split to Rows: 한 열의 데이터를 여러 행으로 나눔
예: "A,B,C" → A (1행) / B (2행) / C (3행) - Delimiter 지정 가능: 쉼표, 탭, 공백, 사용자 정의 기호 등 자유롭게 설정
- 필드 개수 지정: 몇 개의 컬럼/행으로 나눌지 설정 가능
- 활용 예시
- "서울/부산/대구" → 지역별 필드로 분리
- "홍길동,1990-01-01,남자" → 이름/생일/성별로 분리
구조화되지 않은 텍스트 데이터를 열 형태로 바꾸고 싶을 때 필수 도구다.
DateTime Tool
문자열로 되어 있는 날짜/시간 데이터를 날짜 형식으로 바꾸거나 다시 문자열로 변환하는 도구다.
날짜 계산, 필터링, 정렬 등을 하려면 반드시 날짜 타입으로 변환해야 정확히 처리된다.
- String → Date/Time 변환
예: "2024-03-10" → 실제 Date 타입으로 변환
포맷 지정 필수: yyyy-MM-dd, MM/dd/yyyy, HH:mm:ss 등 - Date/Time → String 변환
날짜 데이터를 다시 텍스트로 바꿔서 보고서나 출력 파일에 활용 - 날짜 형식 맞춰주는 기능
형식이 안 맞으면 변환 실패하므로, 사전에 포맷 확인 필요 - 활용 예시
- 문자열로 입력된 날짜를 분석용 DateTime으로 바꾸기
- 로그의 시간 데이터를 정리해서 순서대로 정렬하기
- 날짜별로 그룹핑하고 집계할 때
날짜/시간 데이터는 항상 이 툴로 전처리해줘야 Summarize, Filter 같은 후속 작업이 정확해진다.
'공부기록 > Data Science' 카테고리의 다른 글
[Alteryx] 알터릭스 Select | Data cleansing | Filter | Formula | Sample | Unique Tool (0) | 2025.04.06 |
---|---|
[Alteryx] Input Tools 알터릭스 입력 툴 (0) | 2025.04.06 |
[Alteryx] 알터릭스란? 설치 방법 부터 데이터 종류까지 (0) | 2025.04.06 |
[TimeSeries] Stationarity 시계열 정상성, 왜 따지는걸까? (0) | 2024.03.23 |
[Causal Inference] 1. Introduction To Causality 인과추론이란 | 심슨의 역설 (0) | 2023.12.20 |