본문 바로가기

공부기록/Data Science

(13)

사이킷런을 이용한 한국어 특징 추출 및 토크나이징 (+ KoNLPy 형태소 분석기) 다음 내용은 위키북스의 책을 공부하며 정리한 내용입니다. 사이킷런을 이용한 특징 추출 자연어 처리에서 특징 추출이란 텍스트 데이터에서 단어나 문장들을 어떤 특징 값으로 바꿔주는 것을 의미한다. 기존에 문자로 구성돼 있던 데이터 모델에 적용할 수 있도록 특징을 뽑아 어떤 값으로 바꿔서 수치화한다. 텍스트 데이터를 수치화하는 방법 CountVectorizer : 각 텍스트에서 횟수를 기준으로 특징을 추출하는 방법 TfidfVectorizer : TF-IDF라는 값을 사용해 텍스트에서 특징을 추출 HashingVectorizer : CounterVectorizer와 사용방법은 동일하지만 텍스트를 처리할 때 해시 함수를 사용하기 때문에 실행 시간을 크게 줄일 수 있음. 텍스트의 크기가 클수록 HashingVec..

[혼공단 4주차 미션] 교차검증 ( cross validation) 설명하기 1. 기본 미션 : 교차 검증을 그림으로 설명하기 훈련 세트와 별개로 검정용 자료를 만드는 이유 1. 모형 검증 (information leak방지) 구축된 모델의 성능을 객관적으로 평가할때 train데이터를 train data+validation data로 나누지 않는다면 모델을 검증할 때 test data를 사용해야한다. 따라서 test data가 아닌 train data를 사용하여 모델의 성능을 확인하고 최적의 파라미터를 찾아야하는데 이때 train data와 validation data를 완전히 분리시켜 모형 개발에 검정용 자료의 정보가 활용되지 않도록 하면 객관적인 성능 평가가 가능해진다. 2. 모수 튜닝 검정용 자료를 통해 (초)모수 hyperparameter의 최적값을 결정한다. 데이터가 충..

[EduTech] Adaptive Learning 적응형 학습 알고리즘 간단정리 - BKT,PFA,DKT 이 블로그글은 https://youtu.be/4ppenYfvHNE 영상을 참고하여 만들었습니다. adaptive learning 적응형 학습(adaptive learning)이란 학생의 데이터를 분석하여 최적의 개인맞춤 콘텐츠 기반의 학습 환경을 지원하는 교육 솔루션입니다. 일대일 맞춤교육을 제공하기 위해서 학생이 현재 어느 수준으로 이해했는지 알아야합니다. 때문에 적응형 학습 알고리즘에선 Knowledge tracing이 사용됩니다.Knowledge tracing이란 학습자의 퍼포먼스(ex.문제풀이) 를 바탕으로 학습자의 전체 지식 수준을 평가하는 Task를 말합니다. Bayesian Knowledge Tracing 가장 대표적으로 사용되는 알고리즘은 베이지안 놀리지 트레이싱,BKT입니다. BKT는 학..

[Python] 트위터 API TweepError 401 에러 해결 1.에러 메세지 TweepError: Twitter error response: status code = 401 2. 해결한 방법 1)Access permission을 으로 바꾸고 2)Consumer API keys와 Access token & access token secret 을 regenerate 3.원인 1.서버시간이 잘못되었을 경우 -> 서버시간을 세계표준 시간으로 변경하면 에러 해결 2.Keys 와 tokens을 올바르게 입력하지 않았을 경우 3.이 로 설정되지 않았을 경우 (내 경우) 4.Callback URL이 비워져있을 경우에도 이런 에러가 발생한다고함 해결과정 트위터 API승인을 받아 jupyter notebook으로 크롤링을 하려는 데 자꾸 TweepError: Twitter erro..

[Python]nltk Lookup error 해결 방법 - nltk downloader nltk.download('다운 받고싶은 것') 한번에 다운 받는 법은 import nltk nltk.download() nltk.download()를 치면 아래와 같은 화면이 뜬다. 다운로드 버튼을 클릭하면 해결

이전 1 2 다음

티스토리툴바