이번 chapter에서는 $$ x \sim \mathrm{Ber}(\theta)$$를 따르는
$$ f(x,\theta) = x(1-\theta) + (1-x)(1+\theta)
$$ \mathcal{L} = \mathbb{E}_x[f(x;\theta)]$$
$$= \sum_x{p(x;\theta)}f(x)$$
$$ = \sum_x p(x;\theta)(x(1-\theta)+(1-x)(1+\theta))$$
$$ = (\theta (1(1-\theta)+0(1+\theta))) + ((1-\theta)(0(1-\theta)+ 1(1+\theta))$$
$$ =-2 \theta^2+\theta + 1$$
이 때, 그냥 2차 미분까지 한다면 다음과 같습니다.
$$ \nabla_{\theta}\mathcal{L} = -4\theta+1 $$
$$\nabla^2_\theta\mathcal{L} = -4 $$
SL을 사용한 미분은 다음과 같습니다.
$$( \nabla_{\theta}\mathcal{L})_{\mathrm{SL}} = -4\theta + 1$$
$$( \nabla^2_{\theta}\mathcal{L})_{\mathrm{SL}} = -2$$
\($$\hat{f}$$를 어떻게 세워야 나올지 개념은 이해했는데, 여기에 적용이 어려웠습니다.\)
sampling을 아무리 많이한다해도 SL estimator는 잘못된 2차 미분값을 내놓습니다. 만약 이런 잘못된 estimate이 2차 미분을 이용하는 Newton-Raphson method같은 optimization method와 결합된다면 절대
이번 예제에서 보여주는 점은