불균형 데이터 분석을 위한 샘플링 기법
·
🤖 AI/Machine Learning
불균형 데이터란?불균형 데이터는 클래스(범주)별 관측치의 수가 현저하게 차이가 나는 데이터이다. 즉 정상 범주의 관측치 수와 이상 범주의 관측치 수의 차이가 크게 나타나는 경우를 말한다. 예를 들어 암환자를 분류하는 문제로 생각해봤을때 암에 걸린 사람보다는 암에 걸리지 않은 사람이 더 많기 때문에 암환자로부터 얻어진 샘플이 그렇지 않은 경우의 샘플보다 훨씬 적을 수 있다. 데이터 불균형 문제를 해결하지 않고 학습하게 되면 분류기는 정상인의 샘플에 더 많은 가중치를 두고 학습할 것이고, 아래의 그림과 같이 분류 경계면에 Bias가 존재하게 되어 암환자를 정상인으로 잘못 분류할 수 있게 된다.또 다른 예시로는 제조업의 정상제품과 불량품 구분하는 경우와 금융범죄에서의 이상 거래(사기) 경우가 정상 거래인 경우..
Dicision Tree(의사결정나무)
·
🤖 AI/Machine Learning
Dicision Tree란?Dicision Tree는 분류 및 회귀 작업에 사용되는 지도 머신 러닝 알고리즘의 한 유형이다. Dicision Tree를 구성하는 알고리즘에는 ID3, C4.5, CART(분류 및 회귀 트리) 등 여러 가지가 있지만 여기서는 ID3에 대해서 알아본다. 내부 노드는 특징 테스트 또는 결정점을 나타내고, 분기는 해당 테스트의 결과를 나타내며, 리프 노드는 최종 클래스 레이블 또는 목표 값을 나타내는 순서도와 같은 구조이다.불순도는 데이터 내에서 여러 카테고리가 섞여 있어, 원하는 표본을 뽑을 확률이 적을 수록 커지는 개념이다. 다양한 과일들의 비율이 높아질수록 불순도는 증가한다. 이 불순도를 지표로 만든 것을 엔트로피(Entropy)라고 하는데 Dicision Tree는 Sam..
Developer Quarterly
'🤖 AI/Machine Learning' 카테고리의 글 목록