본문 바로가기

공부기록/Data Science

(8)
[Causal Inference] 1. Introduction To Causality 인과추론이란 | 심슨의 역설 인과추론이란 무엇인가 Correlation Does not Imply Casationhttps://tylervigen.com/spurious-correlationsSpurious correlationsSpurious correlationstylervigen.com위의 사이트는 가짜 인과관계(spurious-correlations)를 모아놓은 사이트입니다. Nicolas Cage의 영화 수와 익사한 사람의 수의 상관관계 등.. 다양하게 말이 안되는 예시들이 존재합니다. 이렇게 명확하게 가짜 상관관계임을 알기 쉬운 예시도 있지만, 현실에서의 문제는 직관적으로 판단하기 어려운 경우가 많습니다. 비슷한 유저에게 비슷한 상품을 추천해주는 협업필터링 알고리즘의 효과를 측정해 본다고 했을 때, 다음과 같은 질문을 ..
[kaggle] Kaggle API 사용하기 mac 1. 아나콘다에 Kaggle 패키지 설치 conda install -c conda-forge kaggle conda install kaggle 2. Kaggle 사용자 토큰 받기 Account에 가서 create API Toke을 클릭하면 kaggle.json파일이 다운로드 된다. 3. kaggle.json mkdir -p ~/.kaggle mv kaggle.json ~/.kaggle/kaggle.json .kaggle이라는 폴더를 생성해준 후 다운받은 json 파일을 이동시킨다. 4. 동작 확인 kaggle competitions list 캐글에서 현재 진행되고 있는 경진대회 목록을 보여준다. 5. 원하는 데이터 다운받기 먼저 다운받을 수 있는 데이터 리스트를 확인한다. kaggle datasets l..
단어 표현 - 어떻게 자연어를 컴퓨터에게 인식시킬 수 있을까 ? 출처 : 텐서플로와 머신러닝으로 시작하는 자연어 처리, https://wikidocs.net/31767 단어표현이란 단어 표현은 모든 자연어 처리 문제의 기본 바탕이 되는 개념이다. 기존에 컴퓨터는 텍스트를 유니코드 혹은 아스키 코드 방식으로 인식했다. 이 방법을 사용하면 텍스트를 이진화 된 값으로 인식한다. 이 경우 언어적인 특성이 전혀 없이 컴퓨터가 문자를 인식하기 위해 만들어진 값이므로 자연어 처리를 위해 만드는 모델에 적용하기에 부적합하다. 어떤 방식으로 텍스트를 표현해야 자연어 처리 모델에 적용할 수 있을까? 단어의 표현 방법은 크게 두 가지가 있다. 1. 국소 표현 (Local Representation)방법 이산 표현 (Discrete Representation) 각 단어에 숫자를 맵핑하여 ..
사이킷런을 이용한 한국어 특징 추출 및 토크나이징 (+ KoNLPy 형태소 분석기) 다음 내용은 위키북스의 책을 공부하며 정리한 내용입니다. 사이킷런을 이용한 특징 추출 자연어 처리에서 특징 추출이란 텍스트 데이터에서 단어나 문장들을 어떤 특징 값으로 바꿔주는 것을 의미한다. 기존에 문자로 구성돼 있던 데이터 모델에 적용할 수 있도록 특징을 뽑아 어떤 값으로 바꿔서 수치화한다. 텍스트 데이터를 수치화하는 방법 CountVectorizer : 각 텍스트에서 횟수를 기준으로 특징을 추출하는 방법 TfidfVectorizer : TF-IDF라는 값을 사용해 텍스트에서 특징을 추출 HashingVectorizer : CounterVectorizer와 사용방법은 동일하지만 텍스트를 처리할 때 해시 함수를 사용하기 때문에 실행 시간을 크게 줄일 수 있음. 텍스트의 크기가 클수록 HashingVec..
[혼공단 4주차 미션] 교차검증 ( cross validation) 설명하기 1. 기본 미션 : 교차 검증을 그림으로 설명하기 훈련 세트와 별개로 검정용 자료를 만드는 이유 1. 모형 검증 (information leak방지) 구축된 모델의 성능을 객관적으로 평가할때 train데이터를 train data+validation data로 나누지 않는다면 모델을 검증할 때 test data를 사용해야한다. 따라서 test data가 아닌 train data를 사용하여 모델의 성능을 확인하고 최적의 파라미터를 찾아야하는데 이때 train data와 validation data를 완전히 분리시켜 모형 개발에 검정용 자료의 정보가 활용되지 않도록 하면 객관적인 성능 평가가 가능해진다. 2. 모수 튜닝 검정용 자료를 통해 (초)모수 hyperparameter의 최적값을 결정한다. 데이터가 충..
[EduTech] Adaptive Learning 적응형 학습 알고리즘 간단정리 - BKT,PFA,DKT 이 블로그글은 https://youtu.be/4ppenYfvHNE 영상을 참고하여 만들었습니다. adaptive learning 적응형 학습(adaptive learning)이란 학생의 데이터를 분석하여 최적의 개인맞춤 콘텐츠 기반의 학습 환경을 지원하는 교육 솔루션입니다. 일대일 맞춤교육을 제공하기 위해서 학생이 현재 어느 수준으로 이해했는지 알아야합니다. 때문에 적응형 학습 알고리즘에선 Knowledge tracing이 사용됩니다.Knowledge tracing이란 학습자의 퍼포먼스(ex.문제풀이) 를 바탕으로 학습자의 전체 지식 수준을 평가하는 Task를 말합니다. Bayesian Knowledge Tracing 가장 대표적으로 사용되는 알고리즘은 베이지안 놀리지 트레이싱,BKT입니다. BKT는 학..
[Python] 트위터 API TweepError 401 에러 해결 1.에러 메세지 TweepError: Twitter error response: status code = 401 2. 해결한 방법 1)Access permission을 으로 바꾸고 2)Consumer API keys와 Access token & access token secret 을 regenerate 3.원인 1.서버시간이 잘못되었을 경우 -> 서버시간을 세계표준 시간으로 변경하면 에러 해결 2.Keys 와 tokens을 올바르게 입력하지 않았을 경우 3.이 로 설정되지 않았을 경우 (내 경우) 4.Callback URL이 비워져있을 경우에도 이런 에러가 발생한다고함 해결과정 트위터 API승인을 받아 jupyter notebook으로 크롤링을 하려는 데 자꾸 TweepError: Twitter erro..
[Python]nltk Lookup error 해결 방법 - nltk downloader nltk.download('다운 받고싶은 것') 한번에 다운 받는 법은 import nltk nltk.download() nltk.download()를 치면 아래와 같은 화면이 뜬다. 다운로드 버튼을 클릭하면 해결

반응형