Search

#005 #방통대 강의 5강

데이터 변환의 필요성

변수가 많으면 적합도는 향상한다?

정보가 많으면 많을 수록 정보의 정확도는 향상한다고 생각할 수 있지만 그렇게 쉽지가 않다.
차원의 저주 (curse of dimensionality)
변수가 증가할 수록 필요한 연산이 기하급수적으로 증가한다.
변수가 많아지면 중요도가 낮은 변수도 포함될 가능성이 높다.

연속형 변수의 범주형 변수 변환

연속형 변수를 근거로 집단 정의 및 구분
특정 조건을 충족시켰는지 여부 등을 판단

범주형 변수의 어려움

데이터 기반의 귀납적 방법론을 제한하는 범주형 변수
연속형 변수와 범주형 변수 구분에 기술적 한계가 존재

주성분분석과 요인분석

주성분분석은 주로 귀납적 분석방법론에서 활용
연속형 변수 집합의 차원을 감소 시킬 때

선형대수 이론

주성분분석 (PCA)

PCA는 Principal Component Analysis의 약자
주성분분석을 이해하고 수행하기 위해서는 기본적인 행렬 연산에 대한 이해가 필요

행렬 (matrix)이란?

직사각형 형태로 수, 기호, 수식 등을 배열한 것
행 row : 가로 방향 줄, 열 column : 세로 방향 줄
성분 (원소, element) : 행렬을 이루는 수, 기호, 수식
행렬의 표현
행렬은 알파벳 대문자로, 성분은 알파벳 소문자로 표기

행렬의 연산

행렬의 덧셈
행렬의 뺄셈
행렬의 실수배
행렬의 곱셈

행렬연산 실습

행렬 연산 수행

행렬의 덧셈-뺄셈-실수배

덧셈 뺄셈
실수배
행렬의 곱셈 A11 * B11