7장 퍼셉트론과 인공지능의 시작
인공지능의 시작을 알린 퍼셉트론
- 퍼셉트론: 입력 값을 여러 개 받아 출력을 만드는데, 이때 입력 값에 가중치를 조절할 수 있게 만들어 최초로 '학습'을 함.
- 아달라인: 퍼셉트론에 경사 하강법을 도입해 최적의 경계선을 그릴 수 있도록 함.
+ 가중합이란? 입력 값과 가중치를 모두 곱한 후 바이어스를 더한 값 +
퍼셉트론의 과제
: 퍼셉트론이나 아달라인은 모두 2차원 평면상에 직선을 긋는 것만 가능합니다. 이 예시는 경우에 따라 선을 아무리 그어도 해결되지 않는 상황이 있다는 것을 말해 줍니다. ( 각각 엇갈려 놓인 검은색 점 두개와 흰색 점 두 개를 하나의 선으로 구별x )
8장 다층 퍼셉트론
다층 퍼셉트론의 등장
1. x1과 x2를 두 연산으로 각각 보냅니다.
2. 첫 번째 연산에서는 NAND처리를 합니다.
3. 이와 동시에 두 번째 연산에서 OR 처리를 합니다.
4. 2와 3을 통해 구한 결과값 1과 결과값 2를 가지고 AND 처리를 하면 출력 값 만들 수 o
다층 퍼셉트론의 설계
ex) 시그모이드 함수를 활성화 함수로 사용한다면?
- n1과 n2
두 식의 결괏값이 출력층의 방향으로 보내어지고, 출력층으로 전달된 값은 마찬가지로 활성화 함수를 사용해 y 예측 값을 정하게 됩니다.
- y out
XOR 문제의 해결
1. 가중치와 바이어스 ( 여러 조합이 있지만 일단 정하겠음.)
2. 다층 퍼셉트론의 내부에 변수 채우기.
3. XOR 다층 문제 해결
코딩으로 XOR 문제 해결하기
+ 인공지능의 역사 +
9장 오차 역전파에서 딥러닝으로
오차 역전파의 개념
: 은닉층이 생기면서 두 번의 경사 하강법을 실행해야 합니다.
* 1 처럼 한 번의 순전파 발생( 각 가중치의 초깃값이 정해짐) -> 초깃값의 가중치로 만들어진 값과 실제 값을 비교해 출력층의 오차를 계산. -> 2, 3 과정이 이어짐.
활성화 함수와 고급 경사 하강법
* 기울기가 소실되는 이유?
: 활성화 함수로 사용된 시그모이드 함수의 특성 때문입니다. 시그모이드 함수를 미분하면 최대치는 0.25입니다. 1보다 작으므로 계속 곱하다 보면 0에 가까워집니다. 따라서 여러 층을 거칠수록 기울기가 사라져 가중치를 수정하기 어려워지는 것입니다.
여러 활성화 함수의 도입
- 렐루함수는 x가 0보다 크기만 하면 미분 값이 1이 된다. 따라서 활성화 함수로 렐루를 쓰면 여러 번 오차 역전파가 진행되어도 맨 처음 층까지 값이 남아 있게 된다.
속도와 정확도 문제를 해결하는 고급 경사 하강법
확률적 경사 하강법
: 경사 하강법은 한 번 업데이트할 때마다 전체 데이터를 미분하므로 독도가 느리지만 확률적 경사 하강법은 전체 데이터를 사용하지 않고, 랜덤하게 추출한 일부 데이터만 사용합니다.
모멘텀(관성, 탄력, 가속도)
- 모멘텀 확률적 경사 하강법 ( 모멘텀 SGD ): 경사 하강법에 탄력을 더해 주는 것. 경사 하강법과 마찬가지로 매번 기울기를 구하지만, 이를 통해 오차를 수정하기 전 바로 앞 수정 값과 방향 (+, - )을 참고해 같은 방향으로 일정한 비율만 수정되게 하는 방법입니다. 따라서 수정 방향이 양수 방향으로 한 번, 음수 방향으로 한번 지그재그로 일어나는 현상이 줄어들고, 이전 이동 값을 고려해 일정 비율만큼 다음 값을 결정하므로 관성 효과를 낼 수 있습니다.
딥러닝에 사용되는 고급 경사 하강법의 변천
'이론 > 모두의 딥러닝' 카테고리의 다른 글
< 다섯째 마당 > 딥러닝 활용하기 (0) | 2023.02.17 |
---|---|
< 넷째 마당 > 딥러닝 기본기 다지기 (0) | 2023.02.15 |
< 심화 학습2 > 파이썬 코딩으로 짜 보는 신경망 (0) | 2023.02.08 |
< 심화 학습1 > 오차 역전파의 계산법 (0) | 2023.02.06 |
<둘째 마당> 예측 모델의 기본 원리 (0) | 2023.02.03 |