revert to request.node.name for log_dir

tmonty12 · tmonty12 · commit 3de77cd53b4a · 2025-12-08T11:46:09.000-08:00
diff --git a/tests/conftest.py b/tests/conftest.py
@@ -19,7 +19,6 @@
 import tempfile
 from pathlib import Path
 from typing import Optional
-from datetime import datetime
 
 import pytest
 from filelock import FileLock
@@ -192,14 +191,10 @@ def predownload_tokenizers(pytestconfig):
 
 @pytest.fixture(autouse=True)
 def logger(request):
-    timestamp = datetime.now().strftime("%m-%d-%Y_%H-%M-%S")
-    log_dir = f"{request.node.name}_{timestamp}"
-    request.node.log_dir = log_dir
-    log_path = os.path.join(log_dir, "test.log.txt")
-
+    log_path = os.path.join(request.node.name, "test.log.txt")
     logger = logging.getLogger()
-    shutil.rmtree(log_dir, ignore_errors=True)
-    os.makedirs(log_dir, exist_ok=True)
+    shutil.rmtree(request.node.name, ignore_errors=True)
+    os.makedirs(request.node.name, exist_ok=True)
     handler = logging.FileHandler(log_path, mode="w")
     formatter = logging.Formatter(LOG_FORMAT, datefmt=DATE_FORMAT)
     handler.setFormatter(formatter)
diff --git a/tests/fault_tolerance/deploy/client.py b/tests/fault_tolerance/deploy/client.py
@@ -448,6 +448,7 @@ def run_aiperf(
     return success
 
 
+# TODO: use file redirection and wait() instead of pipes and communicate
 def run_aiperf_with_signal_handling(
     cmd_attempt: List[str],
     logger: logging.Logger,
diff --git a/tests/fault_tolerance/deploy/test_deployment.py b/tests/fault_tolerance/deploy/test_deployment.py
@@ -8,8 +8,8 @@
 import re
 import signal
 from contextlib import contextmanager
-from typing import Any
 from multiprocessing.context import SpawnProcess
+from typing import Any
 
 import pytest
 
@@ -191,7 +191,6 @@ def _clients(
         logger.debug(f"{proc} joined")
 
 
-
 def _terminate_client_processes(
     client_procs: list[SpawnProcess],
     logger: logging.Logger,
@@ -233,7 +232,9 @@ async def _inject_failures(
 
         logger.info(f"Injecting failure for: {failure}")
 
-        affected_pods[failure.get_failure_key()] = await failure.execute(deployment, logger)
+        affected_pods[failure.get_failure_key()] = await failure.execute(
+            deployment, logger
+        )
 
     return affected_pods
 
@@ -263,26 +264,23 @@ def validation_context(request, scenario):  # noqa: F811
 
     yield context  # Test receives this and populates it
 
-    # Get log_dir from request.node if available (set by test), otherwise use node.name
-    base_log_dir = getattr(request.node, "log_dir", request.node.name)
-
     # Determine log paths based on whether this is a mixed token test
     log_paths = []
     test_name = request.node.name
     logger = logging.getLogger(test_name)
 
     if hasattr(scenario.load, "mixed_token_test") and scenario.load.mixed_token_test:
         # For mixed token tests, we have separate overflow and recovery directories
-        overflow_dir = f"{base_log_dir}{OVERFLOW_SUFFIX}"
-        recovery_dir = f"{base_log_dir}{RECOVERY_SUFFIX}"
+        overflow_dir = f"{request.node.name}{OVERFLOW_SUFFIX}"
+        recovery_dir = f"{request.node.name}{RECOVERY_SUFFIX}"
         log_paths = [overflow_dir, recovery_dir]
 
         logging.info("Mixed token test detected. Looking for results in:")
         logging.info(f"  - Overflow phase: {overflow_dir}")
         logging.info(f"  - Recovery phase: {recovery_dir}")
     else:
         # Standard test with single directory
-        log_paths = [base_log_dir]
+        log_paths = [request.node.name]
 
     # Use factory to auto-detect and parse results
     try:
@@ -495,7 +493,7 @@ async def test_fault_scenario(
 
     async with ManagedDeployment(
         namespace=namespace,
-        log_dir=request.node.log_dir,
+        log_dir=request.node.name,
         deployment_spec=scenario.deployment,
         skip_service_restart=skip_service_restart,
     ) as deployment:
@@ -505,14 +503,16 @@ async def test_fault_scenario(
 
         with _clients(
             logger,
-            request.node.log_dir,
+            request.node.name,
             scenario.deployment,
             namespace,
             model,
             scenario.load,  # Pass entire Load config object
         ) as client_procs:
             # Inject failures and capture which pods were affected
-            affected_pods = await _inject_failures(scenario.failures, logger, deployment)
+            affected_pods = await _inject_failures(
+                scenario.failures, logger, deployment
+            )
             logger.info(f"Affected pods during test: {affected_pods}")
 
             if scenario.load.continuous_load: