Stochastic / gradient descent
추계학의
( 밀 추 / 계산 계 / 배울 학)
확률론적인
: 주가 시세의 흐름에서 향후의 주가 시세 동향을 예측하는 일.
: ~ 주가가 과열 구간에 들어서게 되면, 조만간 하락할 것으로 /
반대로 주가가 침체 구간에 들어서게 되면 조만간 반등할 것으로 /
예상해 볼 수 있는데, 이러한 속성을 지표화 한 것이 스토캐스틱.
: 현 주가 수준이 일정 기간 동안 변동했던 범위 내에서
상대적으로 어느 수준에 위치해 있는가를 가지고 판단하는 지표
Gradient Descent ( 경사하강법 )
구배 / 공간에 대한 기울기
: 손실( cost )를 줄이는 알고리즘.
미분 값 ( 기울기 )이 최소가 되는 점을 찾아 알맞은 weight(가중치 매개변수)를 찾아낸다.
*step size ( learning rate )
X0 = X0 - stepsize( X0에 대한 f의 편미분 )
1) 경사 하강법의 첫 번째 단계는 w1에 대한 시작점을 선택하는 것.
2) 시작점에서 손실 곡선의 기울기(gradient)를 계산한다.
여기서 기울기는 편미분의 벡터로, 어느 방향이 더 정확한지 혹은 더 부정확한지를 알려준다.
단일 가중치에 대한 손실의 기울기는 미분 값과 같다.
손실함수 곡선의 다음 지점을 결정하기 위해 경사하강법 알고리즘은 단일 가중의 일부를 시작점에 더한다.
( 어느방향 +-로 이동해야 하는지를 경정.
기울기의 보폭 ( learning rate ) 를 통해 손실 곡선의 다음 지점으로 이동.
3) 경사하강법은 위의 과정을 반복해 최소값에 점점 접근한다.
Stochastic Gradient Descent (SGD)
확률적 경사하강법은 데이터 세트에서 무작위로 균일하게 선택한 하나의 예를 의존하여
각 단계의 예측 경사를 계산한다.
https://engmrk.com/mini-batch-gd/
Batch
경사하강법에서 배치
: 경사하강법에서 배치는단일 반복에서 기울기를 계산하는 데 사용하는 예 ( data )의 총 개수
:: gradient descent 에서의 배치는 전체 데이터셋이라고 가정.
> 배치가 너무 커지면 단일 반복으로도 계산하는데 오랜 시간이 걸릴 수 있음.
>> 무작위로 샘플링 된 예가 포함된 대량의 데이터 셋에는 중복 데이터가 포함되어 있을 수 있음.
실제로 배치 크기가 커지면 중복의 가능성도 그만큼 높아짐.
then,
만약, 훨씬 적은 계산으로 적절한 기울기를 얻을 수 있다면?
데이터 세트에서 예(data)를 무작위로 선택하면 /노이즈는 있겠지만/ 훨씬 적은 데이터 세트로 중요한 평균값을 추정할 수 있음.
확률적 경사하강법은 이 아이디어를 더욱 확장한 것으로서, 반복당 하나의 예 ( 배치크기 1) 만을 사용함.
>> 확률적 ( stochastic ) 이라는 용어는 각 배치를 포함하는 하나의 예가 무작위로 선택된다는 것을 의미.
단점
: 반복이 충분하면 SGD가 효과는 있지만 노이즈가 매우 심하다.
확률적 경사하강법의 여러 변형 함수의 최저점에 가까운 점을 찾을 가능성이 높지만 항상 보장되지는 않는다.
(최저점을 찾지는 못할 수 있음)
단점극복
: 미니배치 확률적 경사하강법은 전체배치 반복과 SGD의 절충안.
미니배치는 일반적으로 무작위로 선택한 10개에서 1000개 사이의 예로 구성됨.
노이즈를 줄이며서도 전체 배치보다는 효율적이게 됨.
* 경사하강법은 여러 개의 특성을 갖는 특성 세트에도 사용 가능함.