본문 바로가기

공부기록/Data Science

[Alteryx] 알터릭스 Select | Data cleansing | Filter | Formula | Sample | Unique Tool

반응형

 

Select Tools

  • 필드를 선택하거나 제외하고
  • 필드의 데이터 타입 변경, 필드명 변경 등을 할 수 있는 기본 중의 기본 툴

Unknown 필드란?

  • Unknown 필드는 데이터셋에 새로운 열(column) 이 생길 때 대비한 옵션이야.
  • 예를 들어, 나중에 누군가가 원본 데이터에 새로운 열을 추가하더라도,
    • Unknown 체크 ON: 새로운 열도 자동으로 포함됨
    • Unknown 체크 OFF: 새로운 열이 있어도 워크플로우에 영향을 안 줌 
  • 체크 해제하면 내가 지정한 필드만 들어와서 예상치 못한 열이 들어오는 걸 방지할 수 있음
기능 설명
필드 선택/제외 불필요한 필드를 제거하여 워크플로우를 단순화
필드명 변경 (Rename) 필드의 이름을 직접 수정 가능
데이터 타입 변경 각 필드의 타입을 String, Int, Bool 등으로 변경 가능
필드 순서 조정 드래그 앤 드롭으로 필드 순서를 재배치 가능

 

Data Cleansing Tool

Data Cleansing Tool은 Alteryx에서 자주 쓰이는 기본 툴 중 하나로, 텍스트나 숫자 데이터의 정리(cleaning) 작업을 처리할 수 있다.

기능 설명
Null 값 제거/대체 Null 값을 공백이나 특정 값으로 채우거나 삭제 가능
화이트스페이스 제거 앞뒤 공백(trim), 모든 공백 제거 옵션 선택 가능
특수 문자 제거 숫자/문자만 남기고 특수 문자 삭제 가능
대소문자 변환 모두 대문자 또는 소문자로 통일 가능
필드 선택 어떤 필드에 적용할지 선택 가능

Sample Tool

데이터에서 일정 기준에 따라 일부만 추출하는 데 사용되는 툴이다.

주로 대용량 데이터의 샘플링, 테스트용 데이터 추출, 그룹별 대표값 추출 등에 쓰인다.

옵션 설명
First N Rows 처음부터 N개 행만 추출
Last N Rows 마지막 N개 행만 추출
Skip 1st N Rows 앞의 N개 행을 건너뛰고 이후 행들만 추출
1 of Every N Rows N개 중 1개씩 간격 두고 추출 (예: 5개 중 1개 → 5, 10, 15...)
Random % of Rows 전체 중 무작위로 일정 비율(%) 추출
Random N Rows 무작위로 N개 행 추출
First N Rows (Grouped) 지정한 그룹 필드마다 처음 N개 행 추출

 

+ Sample Tool 오른쪽 아래에 있는 "Group By" 필드를 사용하면, 👉 각 그룹에서 독립적으로 샘플링할 수 있다.

Group By 고객ID, First 2 Rows → 고객 id별로 각각 2개씩 추출됨!

 

Filter, Formula, Uniuqe

  • Filter Tool: 조건에 맞는 행만 필터링해서 True/False로 나눔
  • Formula Tool: 수식이나 조건문으로 필드를 계산하거나 새로 만듦
    • 새로운 열에 만들수도있고, 기존 열에 만들 수도있음. multi row formula 도 가능
  • Unique Tool: 중복된 행 제거하고 고유한 값만 남김. 필요하면 여러 칼럼을 기준으로 중복을 나눌 수 있음.
앵커 이름
U 앵커 (Unique) 고유한 값만 출력됨 (중복 없이 첫 번째 값만)
D 앵커 (Duplicate) 중복된 값들이 여기로 출력됨 (두 번째부터 반복된 값들)

 

반응형