DQ — DQ

Combinatorial Analysis(조합분석)

2024.08.19·

🔣 Math/Probability

Experiment(실험)확률과 통계학에서의 실험은 데이터를 생성해내는 모든 과정을 실험이라고 얘기한다. 예를들어 동전 던지기 or 주사위 던지기 or 슈퍼마켓에서 고객들이 몇 명 오는지 새는 것 이런 어떠한 데이터를 생성해내는 모든 과정을 실험이라고 한다. The Basic Principle of CountingCombinatorial Analysis(조합 분석)의 기본이 되는 것은 Counting의 기본 원리에서부터 시작되기 때문에 Counting에 대한 기본 원리를 예제를 통해 알아보자. 1. 두 가지 실험을 수행한다고 가정해보자.2. 첫 번째 실험은 m개의 가능한 결과가 있다.3. 첫 번째 실험의 각 결과에 대해 두 번째 실험은 n개의 가능한 결과가 있다.4. 그렇다면 두 실험의 가능한 결과는 ..

SQL, DB, DBMS의 의미와 필요성

2024.08.16·

💾 Database/DB

DB(Database)데이터베이스는 데이터의 집합이다. DBMS(Database Management System)데이터베이스를 관리하고 운영하는 소프트웨어를 DBMS라고 한다.(Oracle, MySQL 등) 만약 대학교에서 DBMS를 사용하지않고 행정실과 도서관과 같은 여러 부서가 각각 독립된 시스템을 사용하고 있다고 가정해보자 등록금을 납부한 한 학생이 도서관에 가서 책을 대출하려 하였지만 행정실과 도서관은 실시간으로 데이터가 동기화되지 않기 때문에 학생은 등록금을 납부하였음에도 불구하고 도서관에서는 학생이 등록금을 납부했음을 인지하지 못해 대출을 해주지 않는 문제가 발생한다. 이러한 문제를 해결하기 위해 데이터를 각기 다른 위치에 중복해서 저장하는 대신, DBMS에 통합하는 방법으로 문제를 해결한다..

불균형 데이터 분석을 위한 샘플링 기법

2024.08.13·

🤖 AI/Machine Learning

불균형 데이터란?불균형 데이터는 클래스(범주)별 관측치의 수가 현저하게 차이가 나는 데이터이다. 즉 정상 범주의 관측치 수와 이상 범주의 관측치 수의 차이가 크게 나타나는 경우를 말한다. 예를 들어 암환자를 분류하는 문제로 생각해봤을때 암에 걸린 사람보다는 암에 걸리지 않은 사람이 더 많기 때문에 암환자로부터 얻어진 샘플이 그렇지 않은 경우의 샘플보다 훨씬 적을 수 있다. 데이터 불균형 문제를 해결하지 않고 학습하게 되면 분류기는 정상인의 샘플에 더 많은 가중치를 두고 학습할 것이고, 아래의 그림과 같이 분류 경계면에 Bias가 존재하게 되어 암환자를 정상인으로 잘못 분류할 수 있게 된다.또 다른 예시로는 제조업의 정상제품과 불량품 구분하는 경우와 금융범죄에서의 이상 거래(사기) 경우가 정상 거래인 경우..

Dicision Tree(의사결정나무)

2024.08.06·

🤖 AI/Machine Learning

Dicision Tree란?Dicision Tree는 분류 및 회귀 작업에 사용되는 지도 머신 러닝 알고리즘의 한 유형이다. Dicision Tree를 구성하는 알고리즘에는 ID3, C4.5, CART(분류 및 회귀 트리) 등 여러 가지가 있지만 여기서는 ID3에 대해서 알아본다. 내부 노드는 특징 테스트 또는 결정점을 나타내고, 분기는 해당 테스트의 결과를 나타내며, 리프 노드는 최종 클래스 레이블 또는 목표 값을 나타내는 순서도와 같은 구조이다.불순도는 데이터 내에서 여러 카테고리가 섞여 있어, 원하는 표본을 뽑을 확률이 적을 수록 커지는 개념이다. 다양한 과일들의 비율이 높아질수록 불순도는 증가한다. 이 불순도를 지표로 만든 것을 엔트로피(Entropy)라고 하는데 Dicision Tree는 Sam..

Attention is All You Need (트랜스포머)

2024.08.04·

🤖 AI/Deep Learning

트랜스포머 모델은 자연어 처리에서 가장 기본이 되는 모델로 구글이 발표한 논문인 "Attention is all you need"에서 처음으로 나온 모델이다. 기존의 seq2seq의 구조인 인코더-디코더를 따르면서도, 어텐션(Attention)만으로 구현한 모델이다. 이 모델은 RNN을 사용하지 않고, 인코더-디코더 구조를 설계하였음에도 번역 성능에서 RNN보다 우수한 성능을 보여주었다. Input Embedding트랜스포머 아키텍처는 위의 그림과 같이 생겼다. 먼저 첫 단계인 빨간 박스의 Input Embedding부터 알아보자. 먼저 입력으로 들어오는 단어들을 임베딩 벡터로 바꿔줘야한다. 예를 들어 단어가 어휘 사전에서 1,918번째에 위치한다면 1,918로 변환된다.(원-핫 인코딩은 단어 집합 크..

티스토리툴바