feat: add readme and test files

Hoder-zyf · Hoder-zyf · commit 68018ca4db81 · 2025-11-10T14:13:41.000Z
diff --git a/.gitignore b/.gitignore
@@ -187,4 +187,7 @@ CLAUDE.md
 
 test*.py
 
-datasets/
+datasets/
+
+!test_pipeline.py
+!test_convert_pipeline.py
diff --git a/rdagent/components/data/README.md b/rdagent/components/data/README.md
@@ -0,0 +1,201 @@
+# RD-Agent Data 组件
+
+数据集处理 pipeline，从搜索到 SFT 格式转换的完整流程。
+
+## 两阶段处理流程
+
+### Phase 1: 数据采集（test_pipeline.py）
+
+**流程**：搜索 → 下载 → 检查 → LLM过滤 → 选择性迁移
+
+**涉及模块**：
+- `search_api.py`：HuggingFace API 封装，支持 3 维搜索（domain/size/language）
+- `dataset_agent.py`：LLM 驱动的搜索代理，自动选择最佳数据集
+- `dataset_inspector.py`：数据集检查器，LLM 分析哪些文件有用
+- `dataset_manager.py`：存储管理，选择性迁移有用文件到 `./datasets/raw/`
+
+**运行命令**：
+```bash
+python test_pipeline.py
+```
+
+**输出**：
+- 数据集下载到临时目录 `/tmp/dataset_staging`
+- 有用文件迁移到 `./datasets/raw/`
+- 自动过滤垃圾文件，节省存储空间
+
+---
+
+### Phase 2: SFT 转换（test_convert_pipeline.py）
+
+**流程**：加载数据 → Schema分析 → 智能路由 → 转换为 Alpaca 格式
+
+**涉及模块**：
+- `schema_analyzer.py`：LLM 分析数据 schema，识别 instruction/output 列
+- `data_converter.py`：转换为 Alpaca 格式，支持单轮/多轮对话
+- `data_cleaner.py`：数据清洗（去重、长度过滤、LLM质量打分）
+- `sft_processor.py`：主流程编排，智能路由（Light Path/Heavy Path）
+
+**智能路由**：
+- **Light Path**：数据质量 >0.8 → 简单转换 + 清洗
+- **Heavy Path**：数据复杂 → 直接 LLM 批量转换
+
+**运行命令**：
+```bash
+python test_convert_pipeline.py  # 需要先运行 test_pipeline.py
+```
+
+**输出**：
+- Alpaca JSON 格式文件保存到 `./datasets/sft/`
+- 包含 instruction/input/output 字段
+- 经过去重和质量过滤（≥7.0分）
+
+## 文件详细说明
+
+### Phase 1: 数据采集相关文件
+
+#### search_api.py（135行）
+- **核心类**：`HuggingFaceSearchAPI`
+- **主要功能**：封装 HuggingFace Hub API，提供数据集搜索能力
+- **关键方法**：
+  - `search_datasets()`：支持 domain（模糊匹配）、size、language 三维搜索
+  - `get_dataset_info()`：获取单个数据集的详细信息
+- **特点**：自动过滤需要申请权限的 gated datasets，返回结构化搜索结果
+
+#### dataset_agent.py（499行）
+- **核心类**：`DatasetSearchAgent`
+- **主要功能**：LLM 驱动的智能搜索代理，自动生成搜索参数并选择最佳数据集
+- **关键方法**：
+  - `search_and_download()`：完整流程（搜索→选择→下载）
+  - `_generate_search_params()`：LLM 根据任务描述生成搜索参数
+  - `_select_best_dataset()`：LLM 基于 4 维评估选择最佳数据集
+  - `_apply_license_blacklist()`：过滤 NC/ND/GPL 等限制性 license
+- **特点**：混合重试策略（第1次 LLM 智能调整，后续规则式放松参数）
+
+#### dataset_inspector.py（658行）
+- **核心类**：`DatasetInspector`
+- **主要功能**：数据集质量检查和文件分析
+- **关键方法**：
+  - `inspect()`：加载数据集并提取结构信息（列名、样本数、数据类型等）
+  - `check_quality()`：规则式质量检查（不依赖 LLM）
+  - `analyze_files_for_sft()`：LLM 分析哪些文件对 SFT 训练有用
+  - `_preview_xxx_file()`：支持 csv/json/parquet 等格式的文件预览
+- **特点**：智能文件分类，自动识别并过滤垃圾文件，节省存储空间
+
+#### dataset_manager.py（109行）
+- **核心类**：`DatasetManager`
+- **主要功能**：数据集存储和迁移管理
+- **关键方法**：
+  - `migrate_dataset_selective()`：基于文件分析结果，只迁移有用文件
+- **特点**：组织化存储结构（raw/ 和 converted/ 分离），自动创建目录
+
+### Phase 2: SFT 转换相关文件
+
+#### schema_analyzer.py
+- **核心类**：`SchemaAnalyzer`
+- **主要功能**：LLM 分析数据集的 schema 结构
+- **关键方法**：
+  - `analyze()`：识别 instruction/input/output 列，判断单轮/多轮对话
+  - `_validate_schema_result()`：验证 LLM 输出格式是否正确
+- **返回格式**：包含 data_type、instruction_col、output_col、input_col、reasoning
+- **特点**：3 次重试机制，失败时有启发式 fallback
+
+#### data_converter.py
+- **核心类**：`DataConverter`
+- **主要功能**：将各种格式数据转换为标准 Alpaca 格式
+- **关键方法**：
+  - `convert_to_alpaca()`：主转换入口
+  - `_convert_single_turn()`：单轮 QA 转换逻辑
+  - `_convert_multi_turn()`：多轮对话转换，保留历史作为 context
+  - `_extract_metadata()`：智能提取元数据（白名单优先，黑名单排除）
+- **支持格式**：csv、json、jsonl、parquet、arrow
+
+#### data_cleaner.py
+- **核心类**：`DataCleaner`
+- **主要功能**：数据清洗和质量过滤
+- **清洗流程**：
+  1. 去重：基于 instruction+output 的 MD5 哈希
+  2. 长度过滤：设置最小/最大长度阈值
+  3. 质量打分：LLM 批量评分（10条/批），保留 ≥7.0 分
+- **特点**：20 workers 并行处理，采样策略（超过 10000 条只评分前 10000）
+
+#### sft_processor.py
+- **核心类**：`SFTProcessor`、`CheckpointManager`
+- **主要功能**：生产级 SFT 数据准备系统，完整 pipeline 编排
+- **智能路由**：
+  - Light Path（质量>0.8）：schema分析 → 简单转换 → 清洗
+  - Heavy Path（质量≤0.8）：直接 LLM 批量转换
+- **关键特性**：
+  - 断点续传：batch 级别 checkpoint，中断可恢复
+  - 并行处理：20 workers 同时处理
+  - 增量保存：每完成 1 个 batch 立即保存
+- **特点**：整合所有上述模块，提供统一入口
+
+### 辅助文件
+
+#### prompts.yaml
+- **功能**：集中管理所有 LLM 提示词模板
+- **包含提示词**：
+  - search_params：生成搜索参数
+  - dataset_selection：数据集选择评估
+  - schema_analysis_for_sft：schema 结构分析
+  - quality_scoring_batch：批量质量打分
+  - heavy_conversion：Heavy Path 直接转换
+- **特点**：使用模板系统渲染，便于维护和更新
+
+#### __init__.py
+- **功能**：模块导出和便捷函数
+- **导出内容**：所有主要类 + `convert_to_sft()` 一行代码函数
+- **便捷函数**：自动完成从搜索到输出的完整流程
+
+## 快速使用
+
+### 方式一：两步运行
+```bash
+# Phase 1: 数据采集
+python test_pipeline.py
+
+# Phase 2: SFT 转换
+python test_convert_pipeline.py
+```
+
+### 方式二：一行代码
+```python
+from rdagent.components.data import convert_to_sft
+
+convert_to_sft(
+    input_path="data/raw/",
+    output_file="output/alpaca.json",
+    task_description="数学推理数据集"
+)
+```
+
+
+
+
+## 依赖关系
+
+```
+Phase 1:                          Phase 2:
+dataset_agent → search_api        sft_processor
+     ↓                                 ├── schema_analyzer
+dataset_inspector                      ├── data_converter
+     ↓                                 └── data_cleaner
+dataset_manager                              ↑
+                                       prompts.yaml
+```
+
+## Alpaca 输出格式
+
+```json
+{
+    "instruction": "问题或指令",
+    "input": "输入上下文（可选）",
+    "output": "回答或输出",
+    "metadata": {
+        "category": "分类",
+        "difficulty": "难度"
+    }
+}
+```
+
diff --git a/test_convert_pipeline.py b/test_convert_pipeline.py
@@ -0,0 +1,171 @@
+"""
+Dataset SFT Conversion Pipeline (Phase 2: SFT Conversion).
+Workflow: Load migrated dataset → Schema Analysis → Intelligent Routing → Convert to Alpaca format
+
+Prerequisites: Run test_pipeline.py first to migrate dataset to ./datasets/raw/
+"""
+
+import json
+import os
+from pathlib import Path
+
+from rdagent.components.data import convert_to_sft
+
+# Configuration
+DATASETS_ROOT = Path("./datasets/raw")
+OUTPUT_DIR = Path("./datasets/sft")
+TASK_DESCRIPTION = "数学推理数据集"  # 需要与 test_pipeline.py 保持一致
+
+print("=" * 70)
+print("SFT 转换流程 (Phase 2: 数据转换与清洗)")
+print("=" * 70)
+print(f"数据集根目录: {DATASETS_ROOT}")
+print(f"输出目录: {OUTPUT_DIR}")
+print(f"任务描述: {TASK_DESCRIPTION}")
+print("=" * 70)
+
+
+def find_latest_dataset(datasets_root: Path) -> Path:
+    """查找最新迁移的数据集目录"""
+    if not datasets_root.exists():
+        raise FileNotFoundError(f"数据集根目录不存在: {datasets_root}")
+
+    # 获取所有子目录
+    subdirs = [d for d in datasets_root.iterdir() if d.is_dir()]
+
+    if not subdirs:
+        raise FileNotFoundError(f"未找到任何数据集: {datasets_root}")
+
+    # 按修改时间排序，返回最新的
+    latest_dataset = max(subdirs, key=lambda d: d.stat().st_mtime)
+    return latest_dataset
+
+
+def test_sft_conversion():
+    """测试 SFT 转换流程（智能分流）"""
+
+    # Step 1: 查找最新数据集
+    print("\n[Step 1/3] 查找迁移后的数据集...")
+
+    try:
+        dataset_path = find_latest_dataset(DATASETS_ROOT)
+        print(f"✅ 找到数据集: {dataset_path.name}")
+        print(f"   路径: {dataset_path}")
+        print(f"   修改时间: {dataset_path.stat().st_mtime}")
+    except Exception as e:
+        print(f"❌ 未找到数据集: {e}")
+        print(f"\n提示: 请先运行 test_pipeline.py 下载并迁移数据集")
+        return False
+
+    # Step 2: 准备输出路径
+    print("\n[Step 2/3] 准备输出路径...")
+
+    output_file = OUTPUT_DIR / f"{dataset_path.name}_alpaca.json"
+    OUTPUT_DIR.mkdir(parents=True, exist_ok=True)
+
+    print(f"✅ 输出路径准备完成")
+    print(f"   输出文件: {output_file}")
+
+    # Clean checkpoint before conversion
+    checkpoint_file = Path("sft_checkpoint.json")
+    if checkpoint_file.exists():
+        checkpoint_file.unlink()
+        print(f"   🧹 清理 checkpoint: {checkpoint_file}")
+
+    # Step 3: SFT 转换（智能分流）
+    print("\n[Step 3/3] SFT 转换（智能分流系统）...")
+    print("=" * 70)
+    print("智能分流说明:")
+    print("  - 轻量路径 (Light Path): 标准 Q&A 数据 → 简单转换 + 去重 + 并行质量评分")
+    print("  - 重度路径 (Heavy Path): 混乱数据 → 去重 + 直接并行 LLM 转换")
+    print("  - 系统自动根据数据质量选择路径")
+    print("=" * 70)
+
+    try:
+        result = convert_to_sft(
+            input_path=str(dataset_path),
+            output_file=str(output_file),
+            task_description=TASK_DESCRIPTION,
+        )
+
+        # 验证结果
+        print("\n✅ 转换完成!")
+        print("=" * 70)
+        print("转换统计:")
+        print(f"  处理路径: {result.get('processing_path', 'unknown').upper()}")
+        print(f"  成功状态: {result['success']}")
+        print(f"  输入样本: {result['stats'].get('total_rows', 0)}")
+        print(f"  输出样本: {result['stats'].get('successful_rows', 0)}")
+        print(f"  质量分数: {result['stats'].get('quality_score', 0):.2f}")
+        print("=" * 70)
+
+        # 检查输出文件
+        if output_file.exists():
+            with open(output_file, "r", encoding="utf-8") as f:
+                output_data = json.load(f)
+
+            print(f"\n📄 输出文件验证:")
+            print(f"  文件路径: {output_file}")
+            print(f"  样本总数: {len(output_data)}")
+            print(f"  文件大小: {output_file.stat().st_size / 1024 / 1024:.2f}MB")
+            print(f"  格式验证: {'✓' if all('instruction' in s and 'output' in s for s in output_data) else '✗'}")
+
+            # 显示示例
+            if output_data:
+                print(f"\n📝 示例样本 (前 3 个):")
+                for i, sample in enumerate(output_data[:3]):
+                    print(f"\n  样本 {i+1}:")
+                    print(f"    instruction: {sample['instruction'][:80]}...")
+                    if sample.get("input"):
+                        print(f"    input: {sample['input'][:60]}...")
+                    print(f"    output: {sample['output'][:80]}...")
+                    if "metadata" in sample:
+                        print(f"    metadata: {sample['metadata']}")
+
+            # 数据质量统计
+            if output_data:
+                avg_instruction_len = sum(len(s["instruction"]) for s in output_data) / len(output_data)
+                avg_output_len = sum(len(s["output"]) for s in output_data) / len(output_data)
+                has_metadata = sum(1 for s in output_data if "metadata" in s)
+
+                print(f"\n📊 数据质量统计:")
+                print(f"  平均 instruction 长度: {avg_instruction_len:.0f} 字符")
+                print(f"  平均 output 长度: {avg_output_len:.0f} 字符")
+                print(f"  包含 metadata: {has_metadata}/{len(output_data)} 样本")
+
+        return result["success"]
+
+    except Exception as e:
+        print(f"❌ 转换失败: {e}")
+        import traceback
+
+        traceback.print_exc()
+        return False
+
+
+def main():
+    """运行完整的 SFT 转换流程"""
+
+    success = test_sft_conversion()
+
+    # 总结
+    print("\n" + "=" * 70)
+    if success:
+        print("✅ SFT 转换流程完成!")
+        print("=" * 70)
+        print("下一步建议:")
+        print("  1. 检查输出文件质量")
+        print("  2. 使用输出文件进行 LoRA/SFT 训练")
+        print(f"  3. 输出文件位置: {OUTPUT_DIR}")
+    else:
+        print("❌ SFT 转换失败!")
+        print("=" * 70)
+        print("请检查:")
+        print("  1. 是否已运行 test_pipeline.py 迁移数据集?")
+        print("  2. 数据集格式是否正确?")
+        print("  3. LLM API 是否配置正确?")
+    print("=" * 70)
+
+
+if __name__ == "__main__":
+    main()
diff --git a/test_pipeline.py b/test_pipeline.py