FunASR

小于 1 分钟

FunASR

阿里巴巴语音识别funasr的android部署open in new window
modelscope-funasr本地部署到安卓open in new window FunASRopen in new window
funasr-androidopen in new window
UniASR语音识别-闽南语-通用-16kopen in new window

sherpa-onnxopen in new window
Releases/asr-modelsopen in new window
Releases/tts-modelsopen in new window
speech-enhancement-modelsopen in new window
speaker-recongition-modelsopen in new window
speaker-segmentation-modelsopen in new window
Text-to-speech (TTS)open in new window
Automatic Speech Recognitionopen in new window
Generate subtitles for videosopen in new window
Speaker diarizationopen in new window
ModelScope csukuangfjopen in new window

VITSopen in new window
facebook/mms-tts-nanopen in new window
csukuangfj/vits-mms-nanopen in new window

TSukiLen/whisper-medium-chinese-tw-minnanopen in new window
TSukiLen/whisper-small-chinese-tw-minnanopen in new window

生成的音频

import torch
from transformers import VitsTokenizer, VitsModel, set_seed

tokenizer = VitsTokenizer.from_pretrained("facebook/mms-tts-nan")
model = VitsModel.from_pretrained("facebook/mms-tts-nan")

inputs = tokenizer(text="wo shi shui", return_tensors="pt")

# set_seed(555)

with torch.no_grad():
   outputs = model(**inputs)

waveform = outputs.waveform[0]

保存

import torchaudio

# 保存为 WAV 文件（默认采样率 16kHz）
torchaudio.save("output.wav", waveform.unsqueeze(0), model.config.sampling_rate)

FunASR

# FunASR

FunASR