데이터 변환의 필요성
변수가 많으면 적합도는 향상한다?
정보가 많으면 많을 수록 정보의 정확도는 향상한다고 생각할 수 있지만 그렇게 쉽지가 않다.
•
차원의 저주 (curse of dimensionality)
◦
변수가 증가할 수록 필요한 연산이 기하급수적으로 증가한다.
◦
변수가 많아지면 중요도가 낮은 변수도 포함될 가능성이 높다.
연속형 변수의 범주형 변수 변환
•
연속형 변수를 근거로 집단 정의 및 구분
•
특정 조건을 충족시켰는지 여부 등을 판단
범주형 변수의 어려움
•
데이터 기반의 귀납적 방법론을 제한하는 범주형 변수
•
연속형 변수와 범주형 변수 구분에 기술적 한계가 존재
주성분분석과 요인분석
•
주성분분석은 주로 귀납적 분석방법론에서 활용
•
연속형 변수 집합의 차원을 감소 시킬 때
선형대수 이론
주성분분석 (PCA)
•
PCA는 Principal Component Analysis의 약자
•
주성분분석을 이해하고 수행하기 위해서는 기본적인 행렬 연산에 대한 이해가 필요
행렬 (matrix)이란?
•
직사각형 형태로 수, 기호, 수식 등을 배열한 것
◦
행 row : 가로 방향 줄, 열 column : 세로 방향 줄
◦
성분 (원소, element) : 행렬을 이루는 수, 기호, 수식
•
행렬의 표현
◦
행렬은 알파벳 대문자로, 성분은 알파벳 소문자로 표기
행렬의 연산
•
행렬의 덧셈
•
행렬의 뺄셈
•
행렬의 실수배
•
행렬의 곱셈
행렬연산 실습
행렬 연산 수행
행렬의 덧셈-뺄셈-실수배
덧셈 뺄셈
실수배
행렬의 곱셈 A11 * B11