본문 바로가기

공부기록/Data Science

(13)

[Alteryx] 알터릭스 Join, Transform, Parse Tools Join ToolsJoin Tool데이터를 서로 연결하거나 비교할 때 쓰는 도구들이다.Join Tool: 두 데이터 소스를 공통 필드(예: ID) 기준으로 합쳐준다. (Join by Specific Fields)Inner Join(J) / Left Join)(L) / Right Join (R) 개념이 전부 포함돼 있다. SQL의 INNER JOIN, LEFT JOIN, RIGHT JOIN 개념을 모두 하나의 툴 안에서 처리할 수 있다는 게 장점이다.Join by Specific Fields가장 일반적인 조인 방식으로, 사용자가 지정한 특정 필드(예: 고객ID, 제품코드 등)를 기준으로 데이터를 조인한다.Join by Record Position필드값이 아니라, 행의 순서(레코드 포지션)를 기준으로 조인..

[Alteryx] 알터릭스 Select | Data cleansing | Filter | Formula | Sample | Unique Tool Select Tools필드를 선택하거나 제외하고필드의 데이터 타입 변경, 필드명 변경 등을 할 수 있는 기본 중의 기본 툴Unknown 필드란?Unknown 필드는 데이터셋에 새로운 열(column) 이 생길 때 대비한 옵션이야.예를 들어, 나중에 누군가가 원본 데이터에 새로운 열을 추가하더라도,Unknown 체크 ON: 새로운 열도 자동으로 포함됨Unknown 체크 OFF: 새로운 열이 있어도 워크플로우에 영향을 안 줌 체크 해제하면 내가 지정한 필드만 들어와서 예상치 못한 열이 들어오는 걸 방지할 수 있음기능설명필드 선택/제외불필요한 필드를 제거하여 워크플로우를 단순화필드명 변경 (Rename)필드의 이름을 직접 수정 가능데이터 타입 변경각 필드의 타입을 String, Int, Bool 등으로 변경 ..

[Alteryx] Input Tools 알터릭스 입력 툴 Input Data Tool - Excel가장 기본인 엑셀 데이터 열기 ! In/Out에서 Input Data를 드래그해서 가져오면~~~이렇게 생긴다 ! Upload File을 선택하면 어떤 시트에서 어떤 데이터를 불러올지 configuration 을 설정할 수 있다.Create Dataset을 누르면~~ 데이터 파일이 불러와진 것을 알 수 있다!여기에 있는 이 화살표를 앵커 (Anchor)라고 한다고함.툴에 종류에 따라 앵커가 왼쪽/오른쪽/양쪽에 있을 수 있음.하단 우측에서 Metadata View를 클릭하면 메타 데이터를 확인할 수 있음record limit : 데이터로 불러올 수 있는 행 수 제한file format : 파일 형식 (csv, excel ..)Search subdirectories :..

[Alteryx] 알터릭스란? 설치 방법 부터 데이터 종류까지 Alteryx란?End-to-end data analytics platform데이터를 처음 준비하고 cleansing하는 prep단계, 여러개의 데이터를 합치는 Blend단계, 변형하고 조작하여 분석을 하는 analyze단계까지 모두 수행 가능직관적인 인터페이스워크플로우를 만들면 재사용이 가능, 자동화 가능Alteryx 는 3가지 Certificate가 있음. Core가 가장 기본.미국에서 채용이나 프로젝트 참여에 여러모로 요구되는 자격증..이라고 함. 설치 방법https://www.alteryx.com/designer-trial/free-trial-alteryx Start Free TrialFind powerful insights with 300+ no-code, low code automation b..

[TimeSeries] Stationarity 시계열 정상성, 왜 따지는걸까? 시계열 분석을 하면 정상성 검정을 수행한다. 졸업한지 벌써 3년이 지나가는 지금,,, 정상성을 따지는 과정이 너무 익숙하고, 왜 수행했는지? 기억이 희미하다. 이 포스팅에서 시계열 데이터에 대해 알아보고, 시계열 데이터의 정상성에 대해 정리하고자 한다. What is a time series?time series is a set of observations taken sequentially in time.시간에 종속적으로 측정된 데이터들의 집합을 말한다. 흔히 말하는 시계열이라고 하면 주식! 을 떠올릴 수 있다.아래 그램에 보이는 일정한 시간에 (예를들면 종가) 관측된 비트코인의 가격이 대표적인 시계열 데이터의 예시이다. Types of time seriesRegular time series : co..

[Causal Inference] 1. Introduction To Causality 인과추론이란 | 심슨의 역설 인과추론이란 무엇인가 Correlation Does not Imply Casationhttps://tylervigen.com/spurious-correlationsSpurious correlationsSpurious correlationstylervigen.com위의 사이트는 가짜 인과관계(spurious-correlations)를 모아놓은 사이트입니다. Nicolas Cage의 영화 수와 익사한 사람의 수의 상관관계 등.. 다양하게 말이 안되는 예시들이 존재합니다. 이렇게 명확하게 가짜 상관관계임을 알기 쉬운 예시도 있지만, 현실에서의 문제는 직관적으로 판단하기 어려운 경우가 많습니다. 비슷한 유저에게 비슷한 상품을 추천해주는 협업필터링 알고리즘의 효과를 측정해 본다고 했을 때, 다음과 같은 질문을 ..

[kaggle] Kaggle API 사용하기 mac 1. 아나콘다에 Kaggle 패키지 설치 conda install -c conda-forge kaggle conda install kaggle 2. Kaggle 사용자 토큰 받기 Account에 가서 create API Toke을 클릭하면 kaggle.json파일이 다운로드 된다. 3. kaggle.json mkdir -p ~/.kaggle mv kaggle.json ~/.kaggle/kaggle.json .kaggle이라는 폴더를 생성해준 후 다운받은 json 파일을 이동시킨다. 4. 동작 확인 kaggle competitions list 캐글에서 현재 진행되고 있는 경진대회 목록을 보여준다. 5. 원하는 데이터 다운받기 먼저 다운받을 수 있는 데이터 리스트를 확인한다. kaggle datasets l..

단어 표현 - 어떻게 자연어를 컴퓨터에게 인식시킬 수 있을까 ? 출처 : 텐서플로와 머신러닝으로 시작하는 자연어 처리, https://wikidocs.net/31767 단어표현이란 단어 표현은 모든 자연어 처리 문제의 기본 바탕이 되는 개념이다. 기존에 컴퓨터는 텍스트를 유니코드 혹은 아스키 코드 방식으로 인식했다. 이 방법을 사용하면 텍스트를 이진화 된 값으로 인식한다. 이 경우 언어적인 특성이 전혀 없이 컴퓨터가 문자를 인식하기 위해 만들어진 값이므로 자연어 처리를 위해 만드는 모델에 적용하기에 부적합하다. 어떤 방식으로 텍스트를 표현해야 자연어 처리 모델에 적용할 수 있을까? 단어의 표현 방법은 크게 두 가지가 있다. 1. 국소 표현 (Local Representation)방법 이산 표현 (Discrete Representation) 각 단어에 숫자를 맵핑하여 ..

목록 더보기

티스토리툴바