반응형
Select Tools
- 필드를 선택하거나 제외하고
- 필드의 데이터 타입 변경, 필드명 변경 등을 할 수 있는 기본 중의 기본 툴
Unknown 필드란?
- Unknown 필드는 데이터셋에 새로운 열(column) 이 생길 때 대비한 옵션이야.
- 예를 들어, 나중에 누군가가 원본 데이터에 새로운 열을 추가하더라도,
- Unknown 체크 ON: 새로운 열도 자동으로 포함됨
- Unknown 체크 OFF: 새로운 열이 있어도 워크플로우에 영향을 안 줌
- 체크 해제하면 내가 지정한 필드만 들어와서 예상치 못한 열이 들어오는 걸 방지할 수 있음
기능 | 설명 |
필드 선택/제외 | 불필요한 필드를 제거하여 워크플로우를 단순화 |
필드명 변경 (Rename) | 필드의 이름을 직접 수정 가능 |
데이터 타입 변경 | 각 필드의 타입을 String, Int, Bool 등으로 변경 가능 |
필드 순서 조정 | 드래그 앤 드롭으로 필드 순서를 재배치 가능 |
Data Cleansing Tool
Data Cleansing Tool은 Alteryx에서 자주 쓰이는 기본 툴 중 하나로, 텍스트나 숫자 데이터의 정리(cleaning) 작업을 처리할 수 있다.
기능 | 설명 |
Null 값 제거/대체 | Null 값을 공백이나 특정 값으로 채우거나 삭제 가능 |
화이트스페이스 제거 | 앞뒤 공백(trim), 모든 공백 제거 옵션 선택 가능 |
특수 문자 제거 | 숫자/문자만 남기고 특수 문자 삭제 가능 |
대소문자 변환 | 모두 대문자 또는 소문자로 통일 가능 |
필드 선택 | 어떤 필드에 적용할지 선택 가능 |
Sample Tool
데이터에서 일정 기준에 따라 일부만 추출하는 데 사용되는 툴이다.
주로 대용량 데이터의 샘플링, 테스트용 데이터 추출, 그룹별 대표값 추출 등에 쓰인다.
옵션 | 설명 |
First N Rows | 처음부터 N개 행만 추출 |
Last N Rows | 마지막 N개 행만 추출 |
Skip 1st N Rows | 앞의 N개 행을 건너뛰고 이후 행들만 추출 |
1 of Every N Rows | N개 중 1개씩 간격 두고 추출 (예: 5개 중 1개 → 5, 10, 15...) |
Random % of Rows | 전체 중 무작위로 일정 비율(%) 추출 |
Random N Rows | 무작위로 N개 행 추출 |
First N Rows (Grouped) | 지정한 그룹 필드마다 처음 N개 행 추출 |
+ Sample Tool 오른쪽 아래에 있는 "Group By" 필드를 사용하면, 👉 각 그룹에서 독립적으로 샘플링할 수 있다.
Group By 고객ID, First 2 Rows → 고객 id별로 각각 2개씩 추출됨!
Filter, Formula, Uniuqe
- Filter Tool: 조건에 맞는 행만 필터링해서 True/False로 나눔
- Formula Tool: 수식이나 조건문으로 필드를 계산하거나 새로 만듦
- 새로운 열에 만들수도있고, 기존 열에 만들 수도있음. multi row formula 도 가능
- Unique Tool: 중복된 행 제거하고 고유한 값만 남김. 필요하면 여러 칼럼을 기준으로 중복을 나눌 수 있음.
앵커 | 이름 |
U 앵커 (Unique) | 고유한 값만 출력됨 (중복 없이 첫 번째 값만) |
D 앵커 (Duplicate) | 중복된 값들이 여기로 출력됨 (두 번째부터 반복된 값들) |
반응형
'공부기록 > Data Science' 카테고리의 다른 글
[Alteryx] 알터릭스 Join, Transform, Parse Tools (0) | 2025.04.06 |
---|---|
[Alteryx] Input Tools 알터릭스 입력 툴 (0) | 2025.04.06 |
[Alteryx] 알터릭스란? 설치 방법 부터 데이터 종류까지 (0) | 2025.04.06 |
[TimeSeries] Stationarity 시계열 정상성, 왜 따지는걸까? (0) | 2024.03.23 |
[Causal Inference] 1. Introduction To Causality 인과추론이란 | 심슨의 역설 (0) | 2023.12.20 |