공부기록 (49) 썸네일형 리스트형 [ELK] elastic stack 이란 / 개념 / 구성 요소 / 용도 ELK 란? ELK stack이란 Elasticsearch Logstash Kibana 세가지 오픈소스 프로젝트의 이니셜을 합쳐 만든 말이다. 등장 배경 루씬 기반 검색엔진인 elasticsearch는 단순 검색 엔진에 머무르는 대신 플랫폼으로 발전해 elk stack으로 발전했다. 기존의 검색엔진은 빅데이터 파이프라인을 구성하고, 유연성을 확보하기 위해서 오픈소스를 조합해야하는 불편함이 있었지만, elk stack은 일반적인 빅데이터 파이프라인을 구성하기 위한 데이터 수집, 가공, 저장 분석, 시각화에 필요한 모든 소프트웨어를 갖추고 있다. ELK 구성 요소 Beats, Logstash : 데이터를 수집하고 가공 Elasticsearch : 데이터 저장 및 분석 Kibana : 시각화 및 모니터링 El.. [kubernetes] 쿠버네티스 클러스터를 구성하는 도구 - Kubeadm, Kuberspray 쿠버네티스 클러스터를 구성하는 도구 Kubeadm 쿠버네티스에서 공식 제공하는 클러스터 생성 관리 도구 초기에는 고가용성을 갖춘 클러스터 구성이 어려워 테스트용으로 사용했지만 최근에는 점점 발전해 고가용성을 제공하는 클러스터 구성 가능 cf) 고가용성 High Availability: 서버와 네트워크, 프로그램 등의 정보 시스템이 상당히 오랜 기간 지속적으로 정상 운영이 가능한 성질 Kubeadm에서 제공하는 클러스터 고가용성 구조 Kubespray 상용 서비스에 적합한 보안성과 고가용성이 있는 쿠버네티스 클러스터를 배포하는 오픈 소스 프로젝트 서버 환경 설정 자동화 도구인 앤서블 기반으로 개발 설정에 따라 다양한 형식의 클러스터 구성 가능 -> 온프레미스 환경에서 유용 Kuberspray에서 제공하는 .. [kubernetes] 쿠버네티스 설치 - Kubespray 사용하기 Kubespray 사용 GCP를 사용하여 실습 환경을 구성하였다. VM인스턴스를 만든다. Compute Engine에 접속하여 VM인스턴스를 누른 후 [인스턴스 만들기]를 선택해 가상머신 인스턴스 5개를 만든다. 3개는 마스터로 사용하고, 2개는 워크노드로 사용하기 위함이다. 가용성을 위해 마스터노드를 보통 3개 정도 사용한다고한다. 1. SSH 키 생성과 배포 - 마스터 노드인 instance - 1 서버에서 다른 원격 접속(SSH)이 가능하도록 설정 인스턴스 목록에서 를 누르면 해당 서버에 SSH로 접속할 수 있다. RSA방식으로 암호화 키를 만들겠다는 옵션을 주면서 SSH키를 생성하는 명령어는 다음과 같다. ssh-keygen -t rsa ls -al .ssh/ .ssh 디렉터리 안에 id_rsa.. [python] 문자열 관련 함수 정리 파이썬에서 문자열을 다룰 때 사용할 수 있는 함수들을 정리해보려고 한다. 멤버십 연산자 먼저, 가장 기본이되는 멤버십 연산자 membership operator를 사용해 문자열을 검색 할 수 있다. 'na' in 'yena' # yena에 na가 포함 o 인지 ? 'na' not in 'yena' # yena에 na가 포함 x 인지? pattern이 text에 포함되어있는지 boolean 값으로 반환한다. find, index 계열 함수 str클래스에 소속된 find(), rfind(), index(), rindex()를 이용하여 문자열을 검색할 수 있다. find() text = 'yenana' pattern = 'na' start = 0 # 시작 인덱스 end = len(text) # 시퀀스의 길이 .. [Python] sys.setrecursionlimit() - 재귀 최대 깊이 설정 재귀 - sys.setrecursionlimit import sys sys.setrecursionlimit(10 ** 6) 재귀를 사용해서 문제를 풀 때 위 코드를 상단에 필수로 써주어야한다 !! 파이썬의 기본 재귀 깊이 제한은 1000회 이기 때문에 재귀 문제를 풀 때 런타임 에러가 발생할 수 있다. 특히, 코딩테스트 환경에서는 이런 에러 메시지를 볼 수 없으므로 코드의 상단에 sys.setrecursionlimit(10**6)을 작성해주면 재귀의 최대 깊이가 10**6으로 설정된다. 주의 : PyPy에서는 sys.setrecursionlimit()로 재귀의 깊이를 설정할 수 없다고 한다. [kaggle] Kaggle API 사용하기 mac 1. 아나콘다에 Kaggle 패키지 설치 conda install -c conda-forge kaggle conda install kaggle 2. Kaggle 사용자 토큰 받기 Account에 가서 create API Toke을 클릭하면 kaggle.json파일이 다운로드 된다. 3. kaggle.json mkdir -p ~/.kaggle mv kaggle.json ~/.kaggle/kaggle.json .kaggle이라는 폴더를 생성해준 후 다운받은 json 파일을 이동시킨다. 4. 동작 확인 kaggle competitions list 캐글에서 현재 진행되고 있는 경진대회 목록을 보여준다. 5. 원하는 데이터 다운받기 먼저 다운받을 수 있는 데이터 리스트를 확인한다. kaggle datasets l.. 단어 표현 - 어떻게 자연어를 컴퓨터에게 인식시킬 수 있을까 ? 출처 : 텐서플로와 머신러닝으로 시작하는 자연어 처리, https://wikidocs.net/31767 단어표현이란 단어 표현은 모든 자연어 처리 문제의 기본 바탕이 되는 개념이다. 기존에 컴퓨터는 텍스트를 유니코드 혹은 아스키 코드 방식으로 인식했다. 이 방법을 사용하면 텍스트를 이진화 된 값으로 인식한다. 이 경우 언어적인 특성이 전혀 없이 컴퓨터가 문자를 인식하기 위해 만들어진 값이므로 자연어 처리를 위해 만드는 모델에 적용하기에 부적합하다. 어떤 방식으로 텍스트를 표현해야 자연어 처리 모델에 적용할 수 있을까? 단어의 표현 방법은 크게 두 가지가 있다. 1. 국소 표현 (Local Representation)방법 이산 표현 (Discrete Representation) 각 단어에 숫자를 맵핑하여 .. 사이킷런을 이용한 한국어 특징 추출 및 토크나이징 (+ KoNLPy 형태소 분석기) 다음 내용은 위키북스의 책을 공부하며 정리한 내용입니다. 사이킷런을 이용한 특징 추출 자연어 처리에서 특징 추출이란 텍스트 데이터에서 단어나 문장들을 어떤 특징 값으로 바꿔주는 것을 의미한다. 기존에 문자로 구성돼 있던 데이터 모델에 적용할 수 있도록 특징을 뽑아 어떤 값으로 바꿔서 수치화한다. 텍스트 데이터를 수치화하는 방법 CountVectorizer : 각 텍스트에서 횟수를 기준으로 특징을 추출하는 방법 TfidfVectorizer : TF-IDF라는 값을 사용해 텍스트에서 특징을 추출 HashingVectorizer : CounterVectorizer와 사용방법은 동일하지만 텍스트를 처리할 때 해시 함수를 사용하기 때문에 실행 시간을 크게 줄일 수 있음. 텍스트의 크기가 클수록 HashingVec.. 이전 1 2 3 4 5 6 7 다음