ci(phoenix-client): ignore pyright for pandas (#10423)

RogerHYang · axiomofjoy · web-flow · commit 5093e7c93614 · 2025-12-03T18:30:07.000-05:00
* ci: fix pyright

* ruff

* fix it types

---------

Co-authored-by: Alexander Song &lt;axiomofjoy@gmail.com&gt;
diff --git a/packages/phoenix-client/src/phoenix/client/helpers/spans/__init__.py b/packages/phoenix-client/src/phoenix/client/helpers/spans/__init__.py
@@ -194,7 +194,7 @@ def uniquify_spans_dataframe(
     if "context.trace_id" in df.columns:
         unique_trace_ids = df["context.trace_id"].dropna().unique()  # pyright: ignore
         for old_trace_id in unique_trace_ids:  # pyright: ignore
-            old_trace_id_str = str(old_trace_id)
+            old_trace_id_str = str(old_trace_id)  # pyright: ignore[reportUnknownArgumentType]
             if old_trace_id_str and old_trace_id_str not in trace_id_mapping:
                 trace_id_mapping[old_trace_id_str] = _generate_trace_id()
 
diff --git a/packages/phoenix-client/src/phoenix/client/resources/datasets/__init__.py b/packages/phoenix-client/src/phoenix/client/resources/datasets/__init__.py
@@ -1932,7 +1932,7 @@ def _prepare_dataframe_as_csv(
     )
 
     csv_buffer = BytesIO()
-    df[selected_columns].to_csv(csv_buffer, index=False)
+    df[selected_columns].to_csv(csv_buffer, index=False)  # pyright: ignore[reportUnknownMemberType]
     csv_buffer.seek(0)
 
     compressed = BytesIO()
diff --git a/packages/phoenix-client/src/phoenix/client/resources/spans/__init__.py b/packages/phoenix-client/src/phoenix/client/resources/spans/__init__.py
@@ -256,7 +256,8 @@ def get_span_annotations_dataframe(
 
         if spans_dataframe is not None:
             span_ids_raw: list[str] = cast(
-                list[str], spans_dataframe["context.span_id"].dropna().tolist()
+                list[str],
+                spans_dataframe["context.span_id"].dropna().tolist(),  # pyright: ignore[reportUnknownMemberType]
             )
             span_ids_list = list({*span_ids_raw})
         elif span_ids is not None:
@@ -308,7 +309,7 @@ def get_span_annotations_dataframe(
 
         df = pd.DataFrame(annotations)
         df = _flatten_nested_column(df, "result")
-        df.rename(columns={"name": "annotation_name"}, inplace=True)
+        df.rename(columns={"name": "annotation_name"}, inplace=True)  # pyright: ignore[reportUnknownMemberType]
         if not df.empty:
             df.set_index("span_id", inplace=True)  # type: ignore[unused-ignore]
         return df
@@ -1427,7 +1428,8 @@ async def get_span_annotations_dataframe(
 
         if spans_dataframe is not None:
             span_ids_raw: list[str] = cast(
-                list[str], spans_dataframe["context.span_id"].dropna().tolist()
+                list[str],
+                spans_dataframe["context.span_id"].dropna().tolist(),  # pyright: ignore[reportUnknownMemberType]
             )
             span_ids_list = list({*span_ids_raw})
         elif span_ids is not None:
@@ -1479,7 +1481,7 @@ async def get_span_annotations_dataframe(
 
         df = pd.DataFrame(annotations)
         df = _flatten_nested_column(df, "result")
-        df.rename(columns={"name": "annotation_name"}, inplace=True)
+        df.rename(columns={"name": "annotation_name"}, inplace=True)  # pyright: ignore[reportUnknownMemberType]
         if not df.empty:
             df.set_index("span_id", inplace=True)  # type: ignore[unused-ignore]
         return df
@@ -2512,9 +2514,9 @@ def _flatten_nested_column(df: "pd.DataFrame", column_name: str) -> "pd.DataFram
         # Flatten the nested dictionary column and prefix each resulting column with
         # the original column name (e.g., "result.label").
         nested_df = pd.json_normalize(df[column_name]).rename(  # type: ignore[arg-type]
-            columns=lambda col: f"{column_name}.{col}"
+            columns=lambda col: f"{column_name}.{col}"  # pyright: ignore[reportUnknownLambdaType]
         )
-        df = pd.concat([df.drop(columns=[column_name]), nested_df], axis=1)
+        df = pd.concat([df.drop(columns=[column_name]), nested_df], axis=1)  # pyright: ignore[reportUnknownMemberType]
     return df
 
 
diff --git a/tests/integration/client/test_rag_helpers.py b/tests/integration/client/test_rag_helpers.py
@@ -216,20 +216,20 @@ async def test_retrieved_documents_basic_and_edge_cases(
 
         assert isinstance(df, pd.DataFrame)
         # Focus only on rows for the retriever that has docs
-        df_docs_only = df[df.index.get_level_values(0) == retriever_span_id]
+        df_docs_only = df[df.index.get_level_values(0) == retriever_span_id]  # pyright: ignore[reportUnknownVariableType]
         assert len(df_docs_only) == 2
         # Expect multi-index with span_id and document position
         assert df_docs_only.index.nlevels == 2
         assert "context.trace_id" in df_docs_only.columns
         assert "input" in df_docs_only.columns
         # Input propagated from retriever span
-        assert all(val == "what is X?" for val in df_docs_only["input"].tolist())
+        assert all(val == "what is X?" for val in df_docs_only["input"].tolist())  # pyright: ignore[reportUnknownVariableType]
         # Content and score/metadata assertions when available
         if "document" in df_docs_only.columns:
-            documents = set(df_docs_only["document"].astype(str).tolist())  # pyright: ignore[reportAttributeAccessIssue]
+            documents = set(df_docs_only["document"].astype(str).tolist())  # pyright: ignore[reportAttributeAccessIssue,reportUnknownVariableType]
             assert "doc_1_content" in documents and "doc_2_content" in documents
         if "document_score" in df_docs_only.columns:
-            has_missing = any(pd.isna(s) for s in df_docs_only["document_score"].tolist())  # pyright: ignore[reportArgumentType]
+            has_missing = any(pd.isna(s) for s in df_docs_only["document_score"].tolist())  # pyright: ignore[reportArgumentType,reportUnknownVariableType]
             assert has_missing
 
     @pytest.mark.parametrize("is_async", [True, False])
diff --git a/tests/integration/client/test_spans.py b/tests/integration/client/test_spans.py
@@ -1104,7 +1104,7 @@ async def test_helper_functions_round_trip(
             our_df = df[our_spans_mask].copy()
 
             # Test 1: DataFrame to spans conversion
-            reconstructed_spans = dataframe_to_spans(our_df)
+            reconstructed_spans = dataframe_to_spans(our_df)  # pyright: ignore[reportArgumentType]
             assert len(reconstructed_spans) == num_spans
 
             spans_by_name = {span["name"]: span for span in reconstructed_spans}
@@ -1139,7 +1139,7 @@ async def test_helper_functions_round_trip(
             original_df_trace_ids = our_df["context.trace_id"].tolist()  # pyright: ignore[reportUnknownVariableType]
             original_df_span_ids = our_df["context.span_id"].tolist()  # pyright: ignore[reportUnknownVariableType]
 
-            unique_df = uniquify_spans_dataframe(our_df, in_place=False)
+            unique_df = uniquify_spans_dataframe(our_df, in_place=False)  # pyright: ignore[reportArgumentType]
 
             # Verify DataFrame uniquification
             assert unique_df["context.trace_id"].tolist() != original_df_trace_ids

Original file line number	Diff line number	Diff line change
`@@ -1932,7 +1932,7 @@ def _prepare_dataframe_as_csv(`
`1932`	`1932`	`)`
`1933`	`1933`
`1934`	`1934`	`csv_buffer = BytesIO()`
`1935`		`- df[selected_columns].to_csv(csv_buffer, index=False)`
	`1935`	`+ df[selected_columns].to_csv(csv_buffer, index=False) # pyright: ignore[reportUnknownMemberType]`
`1936`	`1936`	`csv_buffer.seek(0)`
`1937`	`1937`
`1938`	`1938`	`compressed = BytesIO()`