공부기록 (49) 썸네일형 리스트형 [Alteryx] 알터릭스 Join, Transform, Parse Tools Join ToolsJoin Tool데이터를 서로 연결하거나 비교할 때 쓰는 도구들이다.Join Tool: 두 데이터 소스를 공통 필드(예: ID) 기준으로 합쳐준다. (Join by Specific Fields)Inner Join(J) / Left Join)(L) / Right Join (R) 개념이 전부 포함돼 있다. SQL의 INNER JOIN, LEFT JOIN, RIGHT JOIN 개념을 모두 하나의 툴 안에서 처리할 수 있다는 게 장점이다.Join by Specific Fields가장 일반적인 조인 방식으로, 사용자가 지정한 특정 필드(예: 고객ID, 제품코드 등)를 기준으로 데이터를 조인한다.Join by Record Position필드값이 아니라, 행의 순서(레코드 포지션)를 기준으로 조인.. [Alteryx] 알터릭스 Select | Data cleansing | Filter | Formula | Sample | Unique Tool Select Tools필드를 선택하거나 제외하고필드의 데이터 타입 변경, 필드명 변경 등을 할 수 있는 기본 중의 기본 툴Unknown 필드란?Unknown 필드는 데이터셋에 새로운 열(column) 이 생길 때 대비한 옵션이야.예를 들어, 나중에 누군가가 원본 데이터에 새로운 열을 추가하더라도,Unknown 체크 ON: 새로운 열도 자동으로 포함됨Unknown 체크 OFF: 새로운 열이 있어도 워크플로우에 영향을 안 줌 체크 해제하면 내가 지정한 필드만 들어와서 예상치 못한 열이 들어오는 걸 방지할 수 있음기능설명필드 선택/제외불필요한 필드를 제거하여 워크플로우를 단순화필드명 변경 (Rename)필드의 이름을 직접 수정 가능데이터 타입 변경각 필드의 타입을 String, Int, Bool 등으로 변경 .. [Alteryx] Input Tools 알터릭스 입력 툴 Input Data Tool - Excel가장 기본인 엑셀 데이터 열기 ! In/Out에서 Input Data를 드래그해서 가져오면~~~이렇게 생긴다 ! Upload File을 선택하면 어떤 시트에서 어떤 데이터를 불러올지 configuration 을 설정할 수 있다.Create Dataset을 누르면~~ 데이터 파일이 불러와진 것을 알 수 있다!여기에 있는 이 화살표를 앵커 (Anchor)라고 한다고함.툴에 종류에 따라 앵커가 왼쪽/오른쪽/양쪽에 있을 수 있음.하단 우측에서 Metadata View를 클릭하면 메타 데이터를 확인할 수 있음record limit : 데이터로 불러올 수 있는 행 수 제한file format : 파일 형식 (csv, excel ..)Search subdirectories :.. [Alteryx] 알터릭스란? 설치 방법 부터 데이터 종류까지 Alteryx란?End-to-end data analytics platform데이터를 처음 준비하고 cleansing하는 prep단계, 여러개의 데이터를 합치는 Blend단계, 변형하고 조작하여 분석을 하는 analyze단계까지 모두 수행 가능직관적인 인터페이스워크플로우를 만들면 재사용이 가능, 자동화 가능Alteryx 는 3가지 Certificate가 있음. Core가 가장 기본.미국에서 채용이나 프로젝트 참여에 여러모로 요구되는 자격증..이라고 함. 설치 방법https://www.alteryx.com/designer-trial/free-trial-alteryx Start Free TrialFind powerful insights with 300+ no-code, low code automation b.. [TimeSeries] Stationarity 시계열 정상성, 왜 따지는걸까? 시계열 분석을 하면 정상성 검정을 수행한다. 졸업한지 벌써 3년이 지나가는 지금,,, 정상성을 따지는 과정이 너무 익숙하고, 왜 수행했는지? 기억이 희미하다. 이 포스팅에서 시계열 데이터에 대해 알아보고, 시계열 데이터의 정상성에 대해 정리하고자 한다. What is a time series?time series is a set of observations taken sequentially in time.시간에 종속적으로 측정된 데이터들의 집합을 말한다. 흔히 말하는 시계열이라고 하면 주식! 을 떠올릴 수 있다.아래 그램에 보이는 일정한 시간에 (예를들면 종가) 관측된 비트코인의 가격이 대표적인 시계열 데이터의 예시이다. Types of time seriesRegular time series : co.. [Causal Inference] 1. Introduction To Causality 인과추론이란 | 심슨의 역설 인과추론이란 무엇인가 Correlation Does not Imply Casationhttps://tylervigen.com/spurious-correlationsSpurious correlationsSpurious correlationstylervigen.com위의 사이트는 가짜 인과관계(spurious-correlations)를 모아놓은 사이트입니다. Nicolas Cage의 영화 수와 익사한 사람의 수의 상관관계 등.. 다양하게 말이 안되는 예시들이 존재합니다. 이렇게 명확하게 가짜 상관관계임을 알기 쉬운 예시도 있지만, 현실에서의 문제는 직관적으로 판단하기 어려운 경우가 많습니다. 비슷한 유저에게 비슷한 상품을 추천해주는 협업필터링 알고리즘의 효과를 측정해 본다고 했을 때, 다음과 같은 질문을 .. [opensearch | elasticsearch] maximum shards open 문제 문제 RequestError(400, 'validation_exception', 'Validation Failed: 1: this action would add [2] total shards, but this cluster currently has [999]/[1000] maximum shards open;') 가끔 elasticsearch를 사용할 때 종종 발생했던 문제인데 opensearch를 사용할 때도 또 만나서 정리.. 원인 이 에러는 Elasticsearch /Opensearch 클러스터가 설정된 최대 샤드 개수를 초과하려고 할 때 발생한다. 각 인덱스는 여러개의 샤드로 분할되고, 클러스터 전체에서 허용되는 최대 샤드 수가 설정된다. 현재 1000개의 샤드가 설정되어있고, 999개의 샤드가 열.. [k8s] python sdk를 이용해 Pod 내에서 Kubernetes API 사용하기 방법1. config file 사용 config.load_incluster_config() v1 = client.CoreV1Api() pod내부가 아닌 경우엔 load_kube_config() 를 사용하지만 pod내부에서 config file을 로드할 때는 load_incluster_config() 를 사용한다. 방법 1을 사용해도 권한이 없어서 403 errors 가 발생할 수 있다. 이런 경우에 클러스터롤바인딩이 필요하다. 관련 내용은 kubernetes-client github에서 확인할 수 있다. 더보기 Shows how to load a Kubernetes config from within a cluster. This scriptmust be run within a pod. You can sta.. 이전 1 2 3 4 ··· 7 다음