feat(eval): introduce the limit for heatmap api

rahulvramesh · rahulvramesh · commit 08d43e1191b9 · 2025-12-06T14:55:52.000Z
diff --git a/services/budapp/budapp/eval_ops/eval_routes.py b/services/budapp/budapp/eval_ops/eval_routes.py
@@ -719,18 +719,24 @@ def get_heatmap_chart_data(
         Optional[datetime],
         Query(description="Filter runs before this date (ISO 8601)"),
     ] = None,
+    limit: Annotated[
+        int,
+        Query(ge=1, le=50, description="Maximum number of deployments to return (default: 5)"),
+    ] = 5,
 ):
     """Get heatmap chart data for comparing deployments across datasets.
 
     Returns dataset benchmark scores for each selected deployment. Scores
     represent the average accuracy across all completed evaluation runs for
-    each dataset-deployment combination.
+    each dataset-deployment combination. By default, returns only the 5 most
+    recent deployments with successful runs.
 
     - **deployment_ids**: Optional comma-separated deployment UUIDs to compare. Returns all if not provided.
     - **trait_ids**: Optional comma-separated trait UUIDs to filter datasets.
     - **dataset_ids**: Optional comma-separated dataset UUIDs to filter.
     - **start_date**: Optional filter for runs after this date.
     - **end_date**: Optional filter for runs before this date.
+    - **limit**: Maximum number of deployments to return (default: 5, max: 50).
 
     Returns a `HeatmapChartResponse` with:
     - List of datasets (columns for the heatmap)
@@ -783,6 +789,7 @@ def get_heatmap_chart_data(
             dataset_ids=dataset_id_list,
             start_date=start_date,
             end_date=end_date,
+            limit=limit,
         )
 
         return HeatmapChartResponse(
diff --git a/services/budapp/budapp/eval_ops/services.py b/services/budapp/budapp/eval_ops/services.py
@@ -3123,18 +3123,21 @@ def get_heatmap_chart_data(
         dataset_ids: Optional[List[uuid.UUID]] = None,
         start_date: Optional[datetime] = None,
         end_date: Optional[datetime] = None,
+        limit: int = 5,
     ) -> Dict[str, Any]:
         """Get heatmap chart data showing dataset scores per deployment.
 
         For each deployment, calculates average scores per dataset.
         Returns a matrix of deployment x dataset with average accuracy scores.
+        By default, returns only the 5 most recent deployments with successful runs.
 
         Parameters:
             deployment_ids (Optional[List[uuid.UUID]]): List of deployment/endpoint IDs. If None, returns all.
             trait_ids (Optional[List[uuid.UUID]]): Filter datasets by traits.
             dataset_ids (Optional[List[uuid.UUID]]): Filter by specific datasets.
             start_date (Optional[datetime]): Filter runs after this date.
             end_date (Optional[datetime]): Filter runs before this date.
+            limit (int): Maximum number of deployments to return (default: 5).
 
         Returns:
             Dict containing:
@@ -3152,6 +3155,7 @@ def get_heatmap_chart_data(
                     DatasetModel.id.label("dataset_id"),
                     DatasetModel.name.label("dataset_name"),
                     MetricModel.metric_value,
+                    RunModel.created_at.label("run_created_at"),
                 )
                 .join(EndpointModel, RunModel.endpoint_id == EndpointModel.id)
                 .join(ModelTable, EndpointModel.model_id == ModelTable.id)
@@ -3212,7 +3216,15 @@ def get_heatmap_chart_data(
                         "deployment_name": row.endpoint_name,
                         "model_name": row.model_name,
                         "dataset_scores": {},  # {dataset_id: {"scores": [], "run_count": int}}
+                        "latest_run_at": row.run_created_at,
                     }
+                else:
+                    # Track the latest run timestamp for this deployment
+                    if row.run_created_at and (
+                        deployments_data[endpoint_id]["latest_run_at"] is None
+                        or row.run_created_at > deployments_data[endpoint_id]["latest_run_at"]
+                    ):
+                        deployments_data[endpoint_id]["latest_run_at"] = row.run_created_at
 
                 # Track scores per dataset
                 if dataset_id not in deployments_data[endpoint_id]["dataset_scores"]:
@@ -3229,8 +3241,15 @@ def get_heatmap_chart_data(
             # Calculate averages and build response
             datasets_list = list(datasets_data.values())
 
+            # Sort deployments by latest run timestamp (descending) and apply limit
+            sorted_deployments = sorted(
+                deployments_data.items(),
+                key=lambda x: x[1]["latest_run_at"] or datetime.min,
+                reverse=True,
+            )[:limit]
+
             deployments_list = []
-            for _endpoint_id, data in deployments_data.items():
+            for _endpoint_id, data in sorted_deployments:
                 dataset_scores = []
                 for dataset_id, score_data in data["dataset_scores"].items():
                     scores = score_data["scores"]