TagGenNoTox

Table of Contents

About The Project
Usage
Contacts

About The Project

Мы представляем инновационную модель для автоматической классификации видеоконтента по тегам, использующую данные разных типов, что существенно упрощает поиск и анализ контента.

С помощью YAMNET мы эффективно извлекаем аудио, а OpenCV позволяет выделять ключевые кадры, что дает возможность анализировать визуальные аспекты видео. Мы также интегрируем название и описание видео, создавая многомодальные эмбеддинги из всех источников данных. Эти эмбеддинги служат основой для обучения нашей нейронной сети, обеспечивая высокую точность классификации тегов как первого, так и второго уровня.

Уникальность нашего подхода заключается в синергии метаданных, что позволяет улучшить качество предсказаний и адаптироваться к разнообразным видам контента, обеспечивая более глубокое понимание его содержания.

Стек решения: Python, YAMNET, OpenCV, SentenceTransformers, PyTorch.

(back to top)

Usage

Для выполнения инференса:

В ноутбуке inference.ipynb указать путь до датасета с тестовыми данными, который будет лежать в папке data:

test_data = pd.read_csv("...путь...")

Запустить все ячейки в ноутбуке
Результаты будут лежать в файле submission_test_data.csv

model: cnn_model.py - CNN модель для двух уровней тегирования

Параметры модели, полученные после обучения: mlb_first_level.pkl mlb_second_level.pkl model_first_level.pth model_second_level.pth tag_mapping.pkl

utils:

data_preprocessing.py - лемматизация, удаление стоп-слов, токенизация и создание эмбеддингов

tag_extraction.py - извлечение тегов на разных уровнях, фильтрация тегов 2 уровня по 1

notebooks:

baseline.ipynb - обучение и тестирование модели

EDA.ipynb - data exploration

inference.ipynb - запуск модели на тестовых данных

video_extracting - извлечение видео из датасетов

data:

train_data_categories.csv - обучающая выборка

IAB_tags.csv - таксономия тегов

data_proc.pkl - обработанные данные

(back to top)

Contacts

Alina Salimova - @avo_milas - [email protected]

Project Link: https://github.com/avo-milas/TagGenNoTox

(back to top)

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
data		data
model		model
notebooks		notebooks
utils		utils
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

TagGenNoTox

About The Project

Usage

Contacts

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 3

Uh oh!

Languages

avo-milas/TagGenNoTox

Folders and files

Latest commit

History

Repository files navigation

TagGenNoTox

About The Project

Usage

Contacts

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 3

Uh oh!

Languages

Packages