Skip to content

kientv/misaki-vietnamese

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

title Misaki G2P Demo
emoji 🔥
colorFrom yellow
colorTo gray
sdk gradio
sdk_version 5.11.0
app_file app.py
pinned false
license apache-2.0
short_description Grapheme-to-Phoneme engine for English and Vietnamese with Blendshapes.

Misaki G2P Demo (English & Vietnamese)

Misaki is an experimental G2P (Grapheme-to-Phoneme) engine designed to power future versions of Kokoro models. This demo provides a web interface to convert text into phonemes and generate ARKit-style blendshapes for 3D facial animation.

Misaki G2P UI

🚀 Tính năng (Features)

  • Hỗ trợ đa ngôn ngữ: Tiếng Anh (Mỹ/Anh) và Tiếng Việt.
  • Phân biệt từ loại (POS Disambiguation): Sử dụng SpaCy và Transformer để đảm bảo phiên âm chính xác dựa trên ngữ cảnh.
  • Đầu ra Blendshapes: Tự động ánh xạ phiên âm sang 52 tham số chuẩn ARKit (tương thích Ready Player Me, MetaHuman).
  • Giao diện thân thiện: Chạy trên nền Gradio, dễ dàng sử dụng và thử nghiệm.

🛠 Cài đặt (Setup)

1. Yêu cầu hệ thống (Prerequisites)

Bạn cần cài đặt espeak-ng trên hệ thống:

# Ubuntu/Debian
sudo apt-get update
sudo apt-get install espeak-ng

2. Cài đặt môi trường (Installation)

Clone repo và cài đặt các thư viện cần thiết:

cd misaki
python3 -m venv venv
source venv/bin/activate

# Cài đặt các thư viện Python
pip install -r requirements.txt
pip install vietnam_number underthesea

🏃 Chạy ứng dụng (Running)

Để chạy demo cục bộ, hãy sử dụng lệnh sau (đảm bảo đường dẫn ESPEAK_DATA_PATH chính xác với hệ thống của bạn):

export ESPEAK_DATA_PATH=/usr/lib/x86_64-linux-gnu/espeak-ng-data
python app.py

Truy cập giao diện tại: http://localhost:7860

📦 Triển khai (Deployment)

Dự án đã có sẵn file packages.txt để hỗ trợ triển khai trực tiếp lên Hugging Face Spaces. Chỉ cần upload toàn bộ source code, Hugging Face sẽ tự động cài đặt các dependency hệ thống.

ℹ️ Lưu ý (Notes)

  • Tiếng Việt: Sử dụng VIG2P với sự hỗ trợ từ underthesea để tách từ.
  • Tiếng Anh: Tự động chuyển đổi giữa giọng Anh-Anh và Anh-Mỹ.
  • Blendshapes: Dữ liệu JSON trả về có thể dùng trực tiếp để điều khiển môi cho các Avatar 3D.

Created by Antigravity for the community.

About

AI: Text to phonemes and blendshape

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages