feat: Add kimi k2 tau experimental config support

bradhilton · bradhilton · commit 8c905c8bd3fc · 2025-12-05T10:41:32.000-07:00
diff --git a/src/art/dev/train.py b/src/art/dev/train.py
@@ -16,6 +16,7 @@ class TrainConfig(TypedDict, total=False):
     importance_sampling_level: Literal[
         "token", "sequence", "average", "geometric_average"
     ]
+    kimi_k2_tau: float | None
     logprob_calculation_chunk_size: int
     max_negative_advantage_importance_sampling_weight: float
     num_trajectories_learning_rate_multiplier_power: float
diff --git a/src/art/loss.py b/src/art/loss.py
@@ -75,6 +75,8 @@ def loss_fn(
         prob_ratio = torch.clamp(
             prob_ratio, max=max_negative_advantage_importance_sampling_weight
         )
+    if tau := experimental_config.get("kimi_k2_tau", None):
+        advantages -= tau * logprob_diff.detach()
     if experimental_config.get("ppo", True):
         policy_loss = -torch.min(
             prob_ratio * advantages,
diff --git a/src/art/serverless/backend.py b/src/art/serverless/backend.py
@@ -158,6 +158,7 @@ async def _train_model(
                 epsilon=dev_config.get("epsilon"),
                 epsilon_high=dev_config.get("epsilon_high"),
                 importance_sampling_level=dev_config.get("importance_sampling_level"),
+                kimi_k2_tau=dev_config.get("kimi_k2_tau"),
                 learning_rate=config.learning_rate,
                 max_negative_advantage_importance_sampling_weight=dev_config.get(
                     "max_negative_advantage_importance_sampling_weight"
diff --git a/src/art/serverless/client.py b/src/art/serverless/client.py
@@ -56,6 +56,7 @@ class ExperimentalTrainingConfig(TypedDict, total=False):
     importance_sampling_level: (
         Literal["token", "sequence", "average", "geometric_average"] | None
     )
+    kimi_k2_tau: float | None
     learning_rate: float | None
     max_negative_advantage_importance_sampling_weight: float | None
     ppo: bool | None

Original file line number	Diff line number	Diff line change
`@@ -16,6 +16,7 @@ class TrainConfig(TypedDict, total=False):`
`16`	`16`	`importance_sampling_level: Literal[`
`17`	`17`	`"token", "sequence", "average", "geometric_average"`
`18`	`18`	`]`
	`19`	`+ kimi_k2_tau: float \| None`
`19`	`20`	`logprob_calculation_chunk_size: int`
`20`	`21`	`max_negative_advantage_importance_sampling_weight: float`
`21`	`22`	`num_trajectories_learning_rate_multiplier_power: float`
Original file line number	Diff line number	Diff line change
`@@ -75,6 +75,8 @@ def loss_fn(`
`75`	`75`	`prob_ratio = torch.clamp(`
`76`	`76`	`prob_ratio, max=max_negative_advantage_importance_sampling_weight`
`77`	`77`	`)`
	`78`	`+ if tau := experimental_config.get("kimi_k2_tau", None):`
	`79`	`+ advantages -= tau * logprob_diff.detach()`
`78`	`80`	`if experimental_config.get("ppo", True):`
`79`	`81`	`policy_loss = -torch.min(`
`80`	`82`	`prob_ratio * advantages,`
Original file line number	Diff line number	Diff line change
`@@ -56,6 +56,7 @@ class ExperimentalTrainingConfig(TypedDict, total=False):`
`56`	`56`	`importance_sampling_level: (`
`57`	`57`	`Literal["token", "sequence", "average", "geometric_average"] \| None`
`58`	`58`	`)`
	`59`	`+ kimi_k2_tau: float \| None`
`59`	`60`	`learning_rate: float \| None`
`60`	`61`	`max_negative_advantage_importance_sampling_weight: float \| None`
`61`	`62`	`ppo: bool \| None`