Fix Lunar Lander Test (#177)

The lunar lander trainer for SAC required a `policy` parameter for `create_train_callbacks()`, otherwise it wouldn't run. This PR fixes that.
EmbarkStudios · Oct 11, 2023 · e99a1ec · e99a1ec
1 parent 5b50d8d
commit e99a1ec
Showing 1 changed file with 3 additions and 2 deletions.
diff --git a/experiments/gym/train_lunar_lander.py b/experiments/gym/train_lunar_lander.py
@@ -162,7 +162,7 @@ def create_actor_critic_agents(
     policy = policy.to(device)
     policy_proxy = FeatureAgentProxy(policy, device=device)
     ln_alpha = torch.tensor(np.log(init_alpha), requires_grad=True, device=device)
-    return q1, q2, policy_proxy, ln_alpha
+    return q1, q2, policy_proxy, ln_alpha, policy
 
 
 def create_train_callbacks(
@@ -354,7 +354,7 @@ def create_complementary_callbacks(
         )
 
     """Creating the actor (policy) and critics (the two Q-functions) agents """
-    qnet1, qnet2, agent_proxy, ln_alpha = create_actor_critic_agents(
+    qnet1, qnet2, agent_proxy, ln_alpha, policy = create_actor_critic_agents(
         args=input_args, num_actions=number_of_actions, num_obs=number_of_obs
     )
 
@@ -363,6 +363,7 @@ def create_complementary_callbacks(
         args=input_args,
         q1=qnet1,
         q2=qnet2,
+        policy=policy,
         policy_proxy=agent_proxy,
         ln_alpha=ln_alpha,
         env=gym_wrapper,