Evaluate search pipeline 

### Describe the feature

To evaluate the quality of the search, you need to collect or generate a dataset. Firstly, for Retrieval part - entry consisting query and relevant documents (also may contain negative examples). Also, we can assess not only retrieval part, but full RAG-pipeline - it will require dataset with question-answer pairs, and some LLM-judge.

- [ ] Collect dataset with query and relevant documents. Also may contain subset of documents that will be involved in search run (to make score stable across different runs).
- [ ] Calculate Offline metrics: HitRate@10, MeanAveragePrecision@10
- [ ] Save metrics somewhere with description: may be in repository issues, releases, or discussions
- [ ] Iterate on improving search pipeline and extending collected dataset

### Suggested solution

[Wiki: Relevance metrics](https://en.wikipedia.org/wiki/Evaluation_measures_(information_retrieval))
[Weaviate: article about metrics](https://weaviate.io/blog/retrieval-evaluation-metrics)
[HuggingFace: RAG evaluation cookbook](https://huggingface.co/learn/cookbook/en/rag_evaluation)

### Additional context

_No response_

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Evaluate search pipeline #81

Describe the feature

Suggested solution

Additional context

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Evaluate search pipeline #81

Description

Describe the feature

Suggested solution

Additional context

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions