불균형 데이터 분석을 위한 샘플링 기법
·
🤖 AI/Machine Learning
불균형 데이터란?불균형 데이터는 클래스(범주)별 관측치의 수가 현저하게 차이가 나는 데이터이다. 즉 정상 범주의 관측치 수와 이상 범주의 관측치 수의 차이가 크게 나타나는 경우를 말한다. 예를 들어 암환자를 분류하는 문제로 생각해봤을때 암에 걸린 사람보다는 암에 걸리지 않은 사람이 더 많기 때문에 암환자로부터 얻어진 샘플이 그렇지 않은 경우의 샘플보다 훨씬 적을 수 있다. 데이터 불균형 문제를 해결하지 않고 학습하게 되면 분류기는 정상인의 샘플에 더 많은 가중치를 두고 학습할 것이고, 아래의 그림과 같이 분류 경계면에 Bias가 존재하게 되어 암환자를 정상인으로 잘못 분류할 수 있게 된다.또 다른 예시로는 제조업의 정상제품과 불량품 구분하는 경우와 금융범죄에서의 이상 거래(사기) 경우가 정상 거래인 경우..
Attention is All You Need (트랜스포머)
·
🤖 AI/Deep Learning
트랜스포머 모델은 자연어 처리에서 가장 기본이 되는 모델로 구글이 발표한 논문인 "Attention is all you need"에서 처음으로 나온 모델이다. 기존의 seq2seq의 구조인 인코더-디코더를 따르면서도, 어텐션(Attention)만으로 구현한 모델이다. 이 모델은 RNN을 사용하지 않고, 인코더-디코더 구조를 설계하였음에도 번역 성능에서 RNN보다 우수한 성능을 보여주었다. Input Embedding트랜스포머 아키텍처는 위의 그림과 같이 생겼다. 먼저 첫 단계인 빨간 박스의 Input Embedding부터 알아보자. 먼저 입력으로 들어오는 단어들을 임베딩 벡터로 바꿔줘야한다.  예를 들어 단어가 어휘 사전에서 1,918번째에 위치한다면 1,918로 변환된다.(원-핫 인코딩은 단어 집합 크..
Developer Quarterly