본문 바로가기

부트캠프/멀티캠퍼스_퍼포먼스 마케팅과 데이터 분석

[멀티캠퍼스 부트캠프 10주차(1)] 데이터 분석 심화_딥러닝

데이터 분석 심화_딥러닝



머신러닝(Machine Learning) vs. 딥러닝(Deep Learning)

1. 정의 및 기술 간 상관관계

1) 인공지능(AI)의 계층 구조

 -인공지능: 인간의 지능을 기계로 구현하려는 가장 포괄적인 개념

 -머신러닝: 데이터를 통해 기계가 스스로 학습 규칙을 찾아내게 하는 인공지능의 하위 분야

 -딥러닝: 인공 신경망을 여러 층으로 쌓아 복잡한 데이터를 처리하는 머신러닝의 특화된 한 부분집합

 

2) 데이터 처리 방식의 진화

 -머신러닝은 데이터 정제하고 특징 입력하는 과정이 필요하지만, 딥러닝은 원본 데이터(이미지, 음석 등)를 직접 입력받아 처리 可

 

 

2. 특징 추출에서의 차이점

1) 머신러닝: 수동 특징 추출

 -사람이 이미지나 데이터에서 관련 특징을 직접 정의하고 추출하여 모델에 제공해야 함

 

2) 딥러닝: 자동 특징 추출

 -알고리즘이 데이터 자체에서 특징을 스스로 통계적으로 뽑아냄

 -인간이 특징을 가공할 필요 X 데이터 전송만으로 예측이 가능하며, 인간이 인지하지 못한 미세한 특징까지 학습 可

 

3) 특징 추출의 계층적 구조

 -입력층(Input): 원본 이미지 수용

 -하위 계층: 선, 점, 엣지와 같은 단순 기하학적 정보 추출

 -중간 계층: 눈, 코, 입 또는 자동차 부품과 같은 부분적 형태 구성

 -상위 계층: 전체적인 얼굴이나 물체 객체를 완성하여 결과 도출

 

 

3. 수행 조건 및 하드웨어 환경

1) 컴퓨팅 파워와 GPU(Graphics Processing Unit, 그래픽 처리 장치)의 중요성

 -딥러닝은 수많은 뉴런이 동시에 연산을 수행하므로 병렬 처리가 매우 중요

 -딥러닝 모델 운용을 위해서는 고성능 GPU와 대용량 RAM 必

 


 

딥러닝의 발전 과정

1. 인공 신경망의 기원(1940s)

1) 최초의 수학적 모델: M-P 뉴런(1943)

 -신경생리학자 워렌 맥컬록과 논리학자 월터 피츠가 제안한 인공지능 역사상 최초의 인공 세포 모델

 -생물학적 뇌의 신경 세포가 작동하는 방식을 이진수(0 / 1) 논리 회로로 설명할 수 있음을 증명함

 

 2) M-P 뉴런의 특징과 한계

 -여러 개의 입력 신호가 들어와 임계치를 넘으면 신호를 내보내는 현대 딥러닝의 핵심 원리를 처음 제시

 -가중치를 스스로 학습하는 기능이 없어, 모든 연산 규칙을 사람이 직접 설정해야 한다는 한계

 

 

2. 초기 인공 신경망과 첫 번째 암흑기(1950s-1960s)

1) 퍼셉트론(Perceptron, 1957)

 -로젠블랏에 의해 제안된 최초의 학습 가능한 인공 신경망 모델

 -입력값에 가중치를 곱하고 합산하여 최종적으로 이진 분류 수행

 

2) 아달라인(ADALINE, 1960)

 -위드로우와 호프가 개발한 신경망으로, 퍼셉트론과 유사하지만 오차 최소화를 위해 선형 활성화 함수를 사용하는 학습 규칙 도입

 

3) 첫 번째 침체기: XOR 문제

 -단층 퍼셉트론으로는 비선형 문제(XOR)를 해결할 수 없다는 것이 밝혀지며 연구 중단됨

 

 

3. 신경망의 부활과 학습 알고리즘의 확립(1980s)

1) 다층 퍼셉트론(Multilayer Perceptron, MLP, 1985)

 -입력층과 출력층 사이에 하나 이상의 은닉층(Hidden Layer)을 두어 비선형 문제를 해결할 수 있게 함

XOR 문제와 다층 퍼셉트론

 

2) 역전파 알고리즘(Backpropagation, 1986)

 -루멜하트, 힌튼, 윌리엄스 등에 의해 정립된 딥러닝 학습의 핵심 매커니즘

 -출력 오차를 모델의 역방향으로 전파하여 각 층의 가중치를 효율적으로 업데이트하는 수학적 방법

 

3) CNN(Convolutional Neural Network, 합성곱 신경망, 1989)

 -얀 르쿤 교수가 제안한 구조로, 이미지의 공간적인 특징을 보존하며 학습하는데 특화

 -입력 데이터를 필터로 스캔하여 특징 지도를 추출하며, 초기 우편번호 인식 등에 적용됨

 -훗날 현대 딥러닝 폭발의 기초가 되는 초기 CNN 모델의 표준

 

 

4. 두 번째 암흑기와 고전 머신러닝의 득세(1990s)

1) 기울기 소실(Vanising Gradient) 문제의 발견

 -신경망의 층이 깊어질수록 역전파되는 오차 정보가 사라져 학습이 되지 않는 치명적 결함 발견

   (sigmoid는 0과 1 사이 값만 전달하므로 은닉층을 거치며 값이 현저히 줄어듦)

 

2) 전통적 머신러닝의 유행(1995)

 -수학적으로 명확하고 연산 효율이 좋은 SVM(Support Vector Machine) 등이 인기를 끌며 신경망 열세

 

3) LSTM(Long Short-Term Memory, 1997)

 -슈미크후버와 호크라이터가 제안한 RNN(Recurrent Neural Network)의 일종

 -시계열 데이터 처리에 필수적인 장기 기억을 가능하게 하여, 기존 RNN의 치명적인 단점인 기울기 소실 문제 해결

 

 

5. 머신러닝의 득세와 딥러닝의 재도약(2000s-2012)

1) 학습 실패를 극복한 여러 방법의 등장

 -가중치 초기화(Weight Initialization): 층마다 가중치 범위를 적절히 조절하여 학습의 시작점 안정화

 -LeLU 함수: 기존 sigmoid 함수의 기울기 소실 문제를 해결한 활성화 함수

 -Drop out: 학습 중 무작위로 뉴런을 꺼 모델이 특정 데이터에만 집착하는 과적합 방지

 

2) 딥러닝 시대의 개막_AlexNet(2012)

 -GPU 연상과 위 기법들을 집대성한 AlexNet이 이미지 인식 대화(ILSVRC) 우승

 -초기 CNN → 딥러닝으로 패러다임이 완전히 전환된 역사적 기점

 

 

6. 현대 딥러닝(2010s)

1) ResNet(2015)

 -잔차 연결(Skip Connection)을 통해 152층 이상의 극도로 높은 신경망에서도 기울기 소실 없이 학습 가능

 -해당 시점부터 AI의 사물 인식률이 인간의 오차율(5%)을 추월

 

2) 언어와 지능의 결합_기계번역과 알파고(2015-2016)

 -기계번역 상용화: Stacked RNN과 Attention 매커니즘을 결합하여 자연스러운 번역 가능

 -알파고: 딥러닝이 복잡한 전략 게임에서도 인간을 넘어섬

 

3) 대규모 언어 모델(LLM)의 진화

 -GPT-1: 1억 1,700만 개의 파라미터를 가진 생성평 사전학습 모델의 시작

 -BERT: 구글에서 만든 양방향 문맥 파악 모델로 자연어 처리 성능 극대화

 -GPT-2&3: 파라미터 수가 1,750억 개로 급증하며 인간 수준의 글쓰기와 코딩 보조 가능

 


 

심층 신경망(DNN)의 주요 과제와 학습 최적화 기술

1. 심층 신경망 학습의 3대 난제와 해결 방안

1) 경사 소실과 활성화 함수

 -역전파 과정에서 미분값을 뒤로 전달할 때, 층이 깊어질수록 가중치 업데이트 양이 사라져 학습이 제대로 이루어지지 않음

 -Sigmoid의 한계: 기울기아 0에 가까운 구간이 많아 가중치 업데이트 전달력이 낮음

   → ReLU(Rectified Linear Units): 양수 구간에서 미분값 1을 유지하여 깊은 층까지 기울기를 효과적으로 전달

 

2) 학습 속도 개선을 위한 옵티마이저(Optimizer)

 -경사 하강법(Gradient Descent, GD): 데이터 전체를 사용하여 에러를 계산한 후 최적의 한 걸음을 이동하지만 연산 속도 느림

 -확률적 경사 하강법(Stochastic Gradient Decsent, SGD): 미니 배치 단위로 데이터 분할하여 가중치 빠르게 업데이트

   → 같은 시간동안 더 많은 업데이트를 진행하여 목적지에 도달하는 시간 단축

 -고급 옵티마이저: 방향성(Momentum, NAG)과 보폭(Adagrad, RMSProp)을 복합적으로 고려하는 Adam 등으로 발전

 

3) 과적합 방지와 모델의 유연성

 -드롭 아웃: 학습 시 무작위로 일부 노드를 비활성화하여 특정 정보에만 의존하지 않도록 학습시킴

   → 모델의 유연성 확보하고 일반화 성능 높임

 

 

2. 이미지 인식 아키텍쳐_합성곱 신경망(CNN)의 구조와 원리

1) 합성곱 계층(Convolutional Layer)

 -특징 추출: 다양한 조각 필터를 사용하여 이미지의 특정 패턴을 감지하고 특징 지도 작성

 -제로 패딩(Zero Padding): 연산 시 이미지 크기가 줄어드는 것을 방지하기 위해 가장자리에 0을 보태어 입력 사이즈 유지

 

2) 풀링 계층(Pooling Layer)

 -특정 영역 내에서 가장 큰 값을 추출하는 Max Pooling을 주로 사용하여 이미지의 크기 줄이며 데이터 추상화

   → 노이즈 제거하고 연산량을 줄이며 모델의 유연성을 확보하는 데 기여

 

3) 완전 연결 계층 및 출력(Fully Connected Layer & Output)

 -추출된 추상적 특징 데이터를 일렬로 펴(Flatten) 완전 연결 계층(FC)에 전달하여 최종 분류 수행

 -이진 분류 시 시그모이드(Sigmoid), 다중 분류 시 소프트맥스(Softmax, 모든 출력값의 합이 1) 함수 적용

 


 

#부트캠프후기 #멀티캠퍼스부트캠프 # 데이터마케팅부트캠프