불균형 데이터 분석을 위한 샘플링 기법
·
🤖 AI/Machine Learning
불균형 데이터란?불균형 데이터는 클래스(범주)별 관측치의 수가 현저하게 차이가 나는 데이터이다. 즉 정상 범주의 관측치 수와 이상 범주의 관측치 수의 차이가 크게 나타나는 경우를 말한다. 예를 들어 암환자를 분류하는 문제로 생각해봤을때 암에 걸린 사람보다는 암에 걸리지 않은 사람이 더 많기 때문에 암환자로부터 얻어진 샘플이 그렇지 않은 경우의 샘플보다 훨씬 적을 수 있다. 데이터 불균형 문제를 해결하지 않고 학습하게 되면 분류기는 정상인의 샘플에 더 많은 가중치를 두고 학습할 것이고, 아래의 그림과 같이 분류 경계면에 Bias가 존재하게 되어 암환자를 정상인으로 잘못 분류할 수 있게 된다.또 다른 예시로는 제조업의 정상제품과 불량품 구분하는 경우와 금융범죄에서의 이상 거래(사기) 경우가 정상 거래인 경우..