k-NN이란?
K개의 가장 가까운 이웃의 값 또는 클래스를 평균 또는 다수결 등의 방법으로 고려하여 새로운 데이터의 값 또는 클래스를 추정하는 기법
•
클래스를 추정하면 ? 분류분석
•
특정 변수의 값을 추정하면? 예측 분석
거리를 정의하는 여러가지 방법
유클리드 거리 (Euclidean distance)
마할라노비스 거리
•
튜닝을 하는 과정이 필요하다.
나이브 베이즈의 개요
베이즈 법칙이란
사전확률을 활용하여 사후확률을 계산하는 것
•
사전확률 : 추가적인 정보가 주어지기 전 확률
•
사후확률 : 추가적인 정보가 주어진 후에 업데이트된 확률
•
조건부 확률을 활용해서 구하기도 한다.
나이브 베이즈는??
보이는 대로 베이즈를
”나이브”한 조건부 독립성을 가정하고 사후확률 최대원칙에 따라 테스트 집합 데이터의 클래스를 분류한다.
사전확률과 사후확률 계산 예시
조건 추가
데이터 준비 및 전처리
•
데이터의 구조의 특징에 따라 하이퍼 파라메터 값은 달라진다.
•
나이브 베이즈는 나이브한 조건부 독립성을 가정하고 사후확률 최대 원칙에 따라 테스트 집합 데이터의 클래스를 분류한다.