| title | Misaki G2P Demo |
|---|---|
| emoji | 🔥 |
| colorFrom | yellow |
| colorTo | gray |
| sdk | gradio |
| sdk_version | 5.11.0 |
| app_file | app.py |
| pinned | false |
| license | apache-2.0 |
| short_description | Grapheme-to-Phoneme engine for English and Vietnamese with Blendshapes. |
Misaki is an experimental G2P (Grapheme-to-Phoneme) engine designed to power future versions of Kokoro models. This demo provides a web interface to convert text into phonemes and generate ARKit-style blendshapes for 3D facial animation.
- Hỗ trợ đa ngôn ngữ: Tiếng Anh (Mỹ/Anh) và Tiếng Việt.
- Phân biệt từ loại (POS Disambiguation): Sử dụng SpaCy và Transformer để đảm bảo phiên âm chính xác dựa trên ngữ cảnh.
- Đầu ra Blendshapes: Tự động ánh xạ phiên âm sang 52 tham số chuẩn ARKit (tương thích Ready Player Me, MetaHuman).
- Giao diện thân thiện: Chạy trên nền Gradio, dễ dàng sử dụng và thử nghiệm.
Bạn cần cài đặt espeak-ng trên hệ thống:
# Ubuntu/Debian
sudo apt-get update
sudo apt-get install espeak-ngClone repo và cài đặt các thư viện cần thiết:
cd misaki
python3 -m venv venv
source venv/bin/activate
# Cài đặt các thư viện Python
pip install -r requirements.txt
pip install vietnam_number undertheseaĐể chạy demo cục bộ, hãy sử dụng lệnh sau (đảm bảo đường dẫn ESPEAK_DATA_PATH chính xác với hệ thống của bạn):
export ESPEAK_DATA_PATH=/usr/lib/x86_64-linux-gnu/espeak-ng-data
python app.pyTruy cập giao diện tại: http://localhost:7860
Dự án đã có sẵn file packages.txt để hỗ trợ triển khai trực tiếp lên Hugging Face Spaces. Chỉ cần upload toàn bộ source code, Hugging Face sẽ tự động cài đặt các dependency hệ thống.
- Tiếng Việt: Sử dụng
VIG2Pvới sự hỗ trợ từundertheseađể tách từ. - Tiếng Anh: Tự động chuyển đổi giữa giọng Anh-Anh và Anh-Mỹ.
- Blendshapes: Dữ liệu JSON trả về có thể dùng trực tiếp để điều khiển môi cho các Avatar 3D.
Created by Antigravity for the community.
