본문 바로가기

전체 글

(215)
기본 확률 통계 Random Variable(랜덤 변수) 와 Probability Distribution(확률 분포) Random Variable(랜덤 변수) - 어떤 변수 x 가 x라는 값을 가질 확률 Probability Distribution(확률 분포) - 입력: 확률 변수 x - 출력: x가 각 값에 해당 될 때에 대한 확률 값 - 확률 분포에는 두가지 종류가 있는데 이산적인 값을 갖는 확률 분포(Discreate Probability Distribution)와 연속적인 값을 갖는 확률 분포(Continuous Probability Distribution)가 있다. Discreate Probability Distribution 이산적인 값을 갖는 확률 분포 - 확률 값의 총 합은 1 예) 주사위의 경우 던지면 ..
Hidden Representations Hidden Representations - 인코더의 결과물 z를 공간에 펼쳤을 때, 비슷한 샘플들은 비슷한 곳에 위치함 - 이 결과물들이 뿌려진 공간을 hidden space라고 부름 - 인풋 샘플을 인코더(레이어)에 통과시키는 과정은 hidden space에 아웃풋을 매핑하는 과정이라고 볼 수 있음, 이때의 결과물들을 hidden vactor(feature vector)라고 부름 - hidden vector는 해석이 어렵지만, 비슷한 특징을 가진 샘플은 비슷한 hidden vector를 가진다. 김기현 님의 딥러닝 강의를 수강하며 정리한 내용입니다. 출처: fastcampus
AutoEncoder AutoEncoder - 인코더(encoder)와 디코더(decoder)를 통해 압축과 해제를 실행 - 인코더는 입력(x)의 정보를 최대한 보존하도록 손실 압축을 수행 - 디코더는 중간 결과물(z)의 정보를 입력(x)과 같아지도록 압축 해제(복원)을 수행 - 복원을 성동적으로 하기 위해 오토인코더는 특징(feature)을 추출하는 방법을 자동으로 학습 Encoder - 복원에 필요한 정보를 중심으로 손실 압축 수행 - 복원에 필요없는 정보는 버림 - 인코더에 통화시키는 것은 feature vector에 대한 embedding과정으로 볼 수 있음 중간 결과물(Bottleneck) - 입력(x)에 비해 작은 차원으로 구성 - 정보의 선택과 압축이 발생, 차원에 따라 압축의 정도 결정 - 중간 결과물(z)은 ..
One-hot Encoding One-Hot encoding : categorical value 를 나타내기 위한 표현 방법 - categorical value와 continuous value의 차이 categorical value continuous value - 단어, 클래스 등 - 범위가 정해져 있다. - 비슷한 값일지라도 상관없는 의미를 지닌다. - 키, 몸무게 등 - 연속적인 실수 값을 가진다. - 비슷한 값은 비슷한 의미를 지닌다. - One-Hot encoding은 크기가 의미를 갖는 integer 값 대신, 1개의 1과 n-1개의 0으로 이루어진 n차원의 벡터 - One-Hot Vector는 Sparse Vector라고도 부름 * sparse vector: 대부분의 차원이 0으로 이루어짐(희소 벡터) * dense ve..
feature Feature - 샘플을 잘 설명하는 특징 - 특징을 통해 특정 샘플을 수치화 할 수 있음 사람을 설명할 때 좋은 특징 좋은 특징 - 나이, 키, 몸무게, 소득 - 성별, 직업, 거주지, 전공, 취미 나쁜 특징 - 생명체(모두 살아있으므로 사람과 사람을 구분하기 어려움) - 주민등록번호(주민등록번호에는 성별과 나이, 출신 지역 등의 정보가 있으나 사람과 사람을 구분하기 위한 특징으로 활용하기엔 유의미한 정보가 부족함) 머신 러닝에서의 특징 MNIST Classification - 특정 위치에 곧은(휘어진) 선이 얼마나 있는가? - 특정 위치에 선이 얼마나 굵은가? - 특정 위치에 선이 얼마나 기울어져 있는가? - 샘플과 샘플의 차이를 설명할 수 있는가? 딥러닝에서의 특징 : 딥러닝 에서는 Hand-cra..
EDA: Exploratory Data Analysis EDA - 머신러닝 모델을 활용한 문제를 해결하기 위한 데이터를 이해하는 과정 - 데이터의 여러 패턴과 잠재적인 문제점등을 발견 EDA 의 필요성 - 설계된 모델에 특별한 문제가 없더라도 데이터마다 적합한 모델이 있음 - 모델과 데이터의 최적의 조합을 찾아 좋은 결과를 도출하기 위함 - 데이터에 대한 통찰이 있어야 최적의 모델선정과 튜닝을 통해 결과를 도출할 수 있음 EDA 진행 과정 - 특별히 정해진 틀은 없음 - 데이터에서 최대한 많은 정보를 추출 - 추출할 정보: 데이터에 대한 평균값, 중앙값, 최솟값, 최댓값, 범위, 분포, 이상치 등 EDA 흐름도 EDA 실습 - Naver sentiment movie corpus 1. 데이터 다운로드 - http://github.com/e9t/nsmc 2. 라..
PyScript #html에 텍스트 입력 후 출력 html에 텍스트 입력 후 출력 1. 기본 html 생성 2. 3. 에 텍스트를 출력할 태그 및 아이디 지정, 태그에 텍스트를 입력할 과 이벤트 발생을 위한 삽입 후, 아이디 지정, 에는 추후 작성할 파이스크립트 함수를 호출하기 위한 pys-onClick 인자 삽입 Click 4. 에 파이썬 코드를 삽입하기 위한 태그 삽입 후 함수 작성 - 파이썬 코드 # html ID "input_text"와 "output_text" 와 연결된 객체 생성 input_text = Element("input_text") output_text = Element("output_text") # html 에서 생성한 ID "add_text" 의 버튼이 눌렸을 때 호출될 함수 def function_add_text(*args): ..
Numpy 넘파이 객체의 속성 - ndim : 배열의 축(차원)의 수 - shape : 배열의 형태 - size : 배열 내 원소의 총 개수 - dtype : 배열 내 원소들의 자료형 import numpy as np a = np.array([[1,2,3], [1,5,9], [3,5,7]]) print(a.ndim, a.shape, a.size, a.dtype) # 각각 차원수, 배열 형태, 총 원소 개수, 배열 내 원소들의 자료형 넘파이 객체 생성 - numpy.zeros : 모든 배열의 원소가 0인 배열 생성 - numpy.ones : 모든 배열의 원소가 1인 배열 생성 - numpy.empty : 배열의 크기만 정해주고, 원소는 초기화 되지 않은 배열 생성 - numpy.arange : 배열의 원소들이 수열을..

반응형