Fun-ASR는 통의(Tongyi) 실험실에서 출시한 엔드투엔드 음성 인식 대규모 모델입니다. 수천만 시간의 실제 음성 데이터로 학습되었으며, 강력한 문맥 이해 능력과 산업 적응성을 갖추고 있습니다. 저지연 실시간 전사를 지원하며 31개 언어를 포함합니다.
모델 저장소: ModelScope, HuggingFace
온라인 체험: ModelScope Space, HuggingFace Space
| 모델 | 지원 작업 | 학습 데이터 | 파라미터 |
|---|---|---|---|
| Fun-ASR-Nano (⭐ 🤗) |
중국어·영어·일본어 음성 인식. 중국어 7개 방언 + 26개 지역 억양 지원. 영어·일본어도 다양한 억양 대응. 가사 인식·랩 음성 인식 탑재. | 수천만 시간 | 8억 |
| Fun-ASR-MLT-Nano (⭐ 🤗) |
한국어, 베트남어, 인도네시아어, 태국어, 말레이어, 필리핀어, 아랍어, 힌디어 등 31개 언어 음성 인식. | 수십만 시간 | 8억 |
- 원거리·고소음 환경 대응: 회의실, 차량, 공장 등 고소음 환경에 최적화, 인식 정확도 93% 달성
- 31개 언어 다국어 지원: 동남아시아 언어에 중점 최적화, 자동 언어 전환·혼합 인식 지원
- 한국어 지원: Fun-ASR-MLT-Nano를 통한 한국어 음성 인식
- 핫워드 기능: 도메인 특정 용어의 인식 정확도 향상
- 화자 분리: 누가 언제 말했는지 자동 식별
- vLLM 추론 엔진: 배치 추론으로 최대 393배 실시간 속도
git clone https://github.com/FunAudioLLM/Fun-ASR.git
cd Fun-ASR
pip install -r requirements.txtfrom funasr import AutoModel
model = AutoModel(
model="FunAudioLLM/Fun-ASR-MLT-Nano-2512", # 한국어는 MLT 모델 사용
trust_remote_code=True,
device="cuda:0",
hub="hf"
)
result = model.generate(
input=["audio.wav"],
batch_size=1,
language="韩文",
)
print(result[0]["text"])model = AutoModel(
model="FunAudioLLM/Fun-ASR-MLT-Nano-2512",
trust_remote_code=True,
device="cuda:0",
hub="hf",
vad_model="fsmn-vad",
spk_model="cam++",
punc_model="ct-punc"
)
result = model.generate(input=["meeting.wav"], batch_size=1)
for item in result:
if 'sentence_info' in item:
for sent in item['sentence_info']:
print(f"[화자{sent['spk']}] {sent['text']}")| 모델 | GPU 속도 | CPU 속도 | vs Whisper-large-v3 |
|---|---|---|---|
| Fun-ASR-Nano (vLLM) | 393x 실시간 | — | 🚀 30배 빠름 |
| SenseVoice-Small | 170x 실시간 | 17x 실시간 | 🚀 13배 빠름 |
| Whisper-large-v3 | 13x 실시간 | ❌ | 기준 |
Fun-ASR-Nano는 FunAudioLLM 패밀리의 일원입니다:
| 프로젝트 | 설명 | Stars |
|---|---|---|
| FunASR | 산업용 음성 인식 툴킷 — VAD, ASR, 구두점, 화자 분리 | |
| SenseVoice | 초고속 ASR + 감정 인식 + 오디오 이벤트 감지 | |
| CosyVoice | 자연 음성 생성 — 다국어, 제로샷 클로닝 | |
| FunClip | AI 음성 인식 기반 비디오 클리핑 |
