본문 바로가기

공부기록

(43)
단어 표현 - 어떻게 자연어를 컴퓨터에게 인식시킬 수 있을까 ? 출처 : 텐서플로와 머신러닝으로 시작하는 자연어 처리, https://wikidocs.net/31767 단어표현이란 단어 표현은 모든 자연어 처리 문제의 기본 바탕이 되는 개념이다. 기존에 컴퓨터는 텍스트를 유니코드 혹은 아스키 코드 방식으로 인식했다. 이 방법을 사용하면 텍스트를 이진화 된 값으로 인식한다. 이 경우 언어적인 특성이 전혀 없이 컴퓨터가 문자를 인식하기 위해 만들어진 값이므로 자연어 처리를 위해 만드는 모델에 적용하기에 부적합하다. 어떤 방식으로 텍스트를 표현해야 자연어 처리 모델에 적용할 수 있을까? 단어의 표현 방법은 크게 두 가지가 있다. 1. 국소 표현 (Local Representation)방법 이산 표현 (Discrete Representation) 각 단어에 숫자를 맵핑하여 ..
사이킷런을 이용한 한국어 특징 추출 및 토크나이징 (+ KoNLPy 형태소 분석기) 다음 내용은 위키북스의 책을 공부하며 정리한 내용입니다. 사이킷런을 이용한 특징 추출 자연어 처리에서 특징 추출이란 텍스트 데이터에서 단어나 문장들을 어떤 특징 값으로 바꿔주는 것을 의미한다. 기존에 문자로 구성돼 있던 데이터 모델에 적용할 수 있도록 특징을 뽑아 어떤 값으로 바꿔서 수치화한다. 텍스트 데이터를 수치화하는 방법 CountVectorizer : 각 텍스트에서 횟수를 기준으로 특징을 추출하는 방법 TfidfVectorizer : TF-IDF라는 값을 사용해 텍스트에서 특징을 추출 HashingVectorizer : CounterVectorizer와 사용방법은 동일하지만 텍스트를 처리할 때 해시 함수를 사용하기 때문에 실행 시간을 크게 줄일 수 있음. 텍스트의 크기가 클수록 HashingVec..
[mac] Monterey 5000 포트 403에러 문제 잘 돌아가던 flask프로젝트 5000번 포트에 갑자기 403에러가 생김 5000번 포트를 ControlCe라는 넘이 쓰고있음 원인 알고보니 몽테레이로 업데이트 하고 난 뒤에 AirPlay모드가 자동으로 켜져있어서 그런거였다 ....... 해결 공유 > 시스템 환경설정 > AirPlay수신모드 끄기 참고 https://developer.apple.com/forums/thread/682332
AWS ec2 Ubuntu 18.04에서 apache2로 django 프로젝트 배포 1. 경로 확인하기 아래와 같은 경로를 가진 프로젝트가 있다고 생각하고 배포 과정을 정리하려고한다. - Folder Name : /home/ubuntu/Example - Project Name : ExampleProject - Project Path : /home/ubuntu/Example/ExampleProject - Application Name : ExampleApp - Application Path : /home/ubuntu/Example/ExampleProject/ExampleApp - 가상환경 폴더 경로 : /home/ubuntu/Example/venv_ex - wsgi.py 위치 : /home/ubuntu/Example/ExampleProject/wsgi.py 2. settings 파이썬 파..
Ubuntu git 설치 및 연결 - public, private 저장소 clone 먼저 설치되어있는 패키지들의 새로운 버전이 있는지 확인하고, 버전을 업그레이드 시켜준다. sudo apt-get update # 현재 사용 가능한 패키지와 버전 목록만 업데이트 sudo apt-get upgrade # 목록에 있는 패키지에 대해서 최신 버전으로 재설치 깃 설치 sudo apt-get install git 깃 설치 확인 git --version SSH KEY 생성 cd ~/.ssh ssh-keygen -t rsa -C github계정 메일(example@github.com) .ssh폴더로 이동해서 keygen 명령어를 입력하면 키페어가 생성되고, id_rsa.pub 파일이 생성된다. cat id_rsa.pub id_rsa.pub를 출력하면 내 git 메일 계정으로 끝나는 ssh key가 출..
[neo4j] variables 변수 이해하기 cypher 쿼리에서 () 소괄호 [콜론 앞에] 오는 것은 변수이다. sally 는 name 과 age라는 속성과 각각 'Sally'와 32라는 값을 갖는 노드를 만들때 해당 노드를 지칭하는 변수이다. sally와 john은 노드의 이름(id같은거x)이 아니라 변수이다. cypher 쿼리에서 변수는 해당 쿼리 부분에서만 일시적으로 존재한다. Person이라는 label로 sally, john이라는 노드를 추가하고, Book이라는 label에 'Graph Databases'를 추가했다. 이때 형광펜으로 칠한 부분 - sally, john, gdb은 모두 이 쿼리 내에서만 존재하는 변수이다. 따라서 변수를 사용해서 위의 쿼리가 원하는 노드/관계 생성이 잘 이루어진 결과를 볼 수 있다. 변수를 해당 쿼리 밖에..
[neo4j] Cypher Query 튜토리얼 What is Cypher? Cypher란 MY SQL데이터 베이스에서 사용되는 SQL처럼 Neo4j 데이터베이스 쿼리에 사용되는 그래프 쿼리 언어이다. return 을 꼭 써주어야함. return 을 써주지 않으면 다음과 같은 Syntax Error가 난다. 예제 Match (m:Movie) where m.released > 2000 RETURN m limit 5 결과 2000이후에 발매된 영화 중 결과를 5개로 제한하여 보여준다. 1. 2005년 이후 발매된 영화를 검색하라. - Match (m:Movie) where m.released > 2005 RETURN m 2. 2005년 이후에 발매된 영화 수를 검색하라. Nodes and Relationships Nodes와 Relationships은 그..
[수리통계학] 적률과 MGF (적률생성함수) - mgf 왜 쓸까? 적률, 모멘트은 수학에서 함수의 모양을 나타내는 척도를 의미합니다. 적률은 물리학에서도 쓰이고 통계학에서도 쓰인다고하는데요. 물리학에서 적률은 어떤 물리량과 거리의 곱을 나타낸다고합니다. 1차 적률은 질량이고, 2차적률은 질량중심이고 3차적률은 관성모멘트 이런식으로 쓰인다고합니다. 적률은 수학에서 적률이 먼저정의되고 후에 통계학,물리학에서 쓰이게 된 것이 아니라 물리학과 통계학에서 각각 적률에 상응하는 개념이 존재했고, 후에 수학에서 정의된 적률과 개념이 일치했다는 것 이 발견된 것 이라고 합니다. 수학에서 적률은 함수를 나타내는 척도를 의미하며, 뮤 엔으로 표현하고 n은 적률의 차수 입니다. 일반적으로 별다른 언급이 없으면 c = 0을 의미합니다. 통계에서 함수는 pdf ,pmf이므로 위의 수학에서의 ..

반응형