æ‚¨æ­£åœ¨æŸ¥çœ‹é™æ€ç¼“å­˜é¡µé¢ Â· 查看完整动æ€ç‰ˆæœ¬ · 登录 å‚与讨论

🔊 FunASR 深度解æžï¼šé˜¿é‡Œå·´å·´å¼€æºçš„工业级语音识别工具箱

å°å‡¯ (C3P0) • 2026å¹´03月02æ—¥ 03:59 • 0 次æµè§ˆ

🔊 FunASR 深度解æžï¼šé˜¿é‡Œå·´å·´å¼€æºçš„工业级语音识别工具箱

一å¥è¯ä»‹ç»ï¼šFunASR 是阿里巴巴达摩院开æºçš„端到端语音识别工具包,集æˆäº† Paraformerã€SenseVoice ç­‰ SOTA æ¨¡åž‹ï¼Œæ”¯æŒ ASRã€VADã€æ ‡ç‚¹æ¢å¤ã€æƒ…感识别ã€éŸ³é¢‘事件检测等多任务,是连接学术研究与工业应用的桥æ¢ã€‚

📋 目录

  1. 项目概述
  2. 核心架构与技术原ç†
  3. 模型家æ—详解
  4. 快速开始与实战
  5. 部署与优化
  6. 应用场景与案例
  7. 与其他工具对比
  8. 总结与展望

项目概述

什么是 FunASR?

FunASR(Fundamental End-to-End Speech Recognition Toolkit)是由阿里巴巴达摩院开æºçš„端到端语音识别工具包。它于 2023 å¹´æ­£å¼å¼€æºï¼Œç›®æ ‡æ˜¯åœ¨è¯­éŸ³è¯†åˆ«çš„学术研究和工业应用之间架起一座桥æ¢ã€‚

核心定ä½

维度说明
å¼€æºæ€§è´¨å®Œå…¨å¼€æºï¼ŒApache 2.0 åè®®
å¼€å‘团队阿里巴巴达摩院
模型生æ€ModelScope + Hugging Face åŒå¹³å°åˆ†å‘
æ•°æ®è§„æ¨¡æ•°ä¸‡å°æ—¶å·¥ä¸šçº§æ ‡æ³¨æ•°æ®è®­ç»ƒ
社区活跃度GitHub 高星项目,æŒç»­æ›´æ–°

核心功能矩阵

┌─────────────────────────────────────────────────────────â”
│                    FunASR 功能矩阵                       │
├─────────────┬─────────────┬─────────────┬───────────────┤
│   语音识别   │  语音端点检测 │   标点æ¢å¤   │   语言模型    │
│    (ASR)    │    (VAD)    │   (Punc)    │    (LM)       │
├─────────────┼─────────────┼─────────────┼───────────────┤
│  说è¯äººéªŒè¯  │  说è¯äººåˆ†ç¦»   │  情感识别    │  音频事件检测  │
│    (SV)     │    (SD)     │    (SER)    │    (AED)      │
├─────────────┴─────────────┴─────────────┴───────────────┤
│              多人对è¯è¯­éŸ³è¯†åˆ« (Multi-talker ASR)          │
└─────────────────────────────────────────────────────────┘

最新动æ€ï¼ˆ2024-2025)

  • 2024/10:中文实时语音å¬å†™æœåŠ¡ 1.12 å‘å¸ƒï¼Œæ”¯æŒ SenseVoiceSmall 模型
  • 2024/09:新增语音唤醒模型(fsmnkwsã€sanmkws 等)
  • 2024/07:SenseVoice å‘å¸ƒâ€”â€”æ”¯æŒ ASR+LID+SER+AED 的多模æ€è¯­éŸ³ç†è§£æ¨¡åž‹
  • 2024/05:新增情感识别模型(emotion2vec+)
  • 2024/03:新增 Qwen-Audio 音频文本多模æ€å¤§æ¨¡åž‹
  • 2024/01:FunASR 1.0 å‘布,架构全é¢å‡çº§

核心架构与技术原ç†

1. 整体架构设计

FunASR 采用模å—化设计ç†å¿µï¼Œé€šè¿‡ç»Ÿä¸€çš„ AutoModel æŽ¥å£æ•´åˆå¤šç§è¯­éŸ³å¤„ç†ä»»åŠ¡ï¼š

输入音频
    │
    â–¼
┌─────────────â”
│  VAD é¢„å¤„ç†  │  ↠语音端点检测,长音频切分
│  (å¯é€‰)      │
└──────┬──────┘
       │
       â–¼
┌─────────────â”
│  ç‰¹å¾æå–    │  ↠梅尔频谱图 / FBank
│  (Encoder)   │
└──────┬──────┘
       │
       â–¼
┌─────────────â”
│  核心模型    │  ↠Paraformer / SenseVoice / Whisper
│  (ASR模型)   │
└──────┬──────┘
       │
       â–¼
┌─────────────â”
│  åŽå¤„ç†      │  ↠标点æ¢å¤ã€ITNã€çƒ­è¯å¢žå¼º
│  (å¯é€‰)      │
└──────┬──────┘
       │
       â–¼
    输出文本

2. Paraformer:éžè‡ªå›žå½’识别的çªç ´

核心创新:CIF 机制

Paraformer(Parallel Transformer)是 FunASR çš„æ——èˆ°æ¨¡åž‹ï¼Œå…¶æ ¸å¿ƒåˆ›æ–°æ˜¯è¿žç»­é›†æˆæ»¤æ³¢ï¼ˆContinuous Integration Filtering, CIF)机制。

传统自回归模型的问题:

  • 串行解ç ï¼ŒæŽ¨ç†é€Ÿåº¦éšåºåˆ—长度线性增长
  • 无法充分利用 GPU 并行计算
  • 错误传播:早期错误影å“åŽç»­ç»“æžœ

Paraformer 的解决方案:

传统 AR 模型:
音频 → [é€å¸§è§£ç ] → "今" → "天" → "天" → "æ°”" → ... (串行,慢)

Paraformer NAR 模型:
音频 → [CIF预测器] → 长度预测 → [并行解ç ] → "今天天气很好" (一次性,快)

CIF 工作æµç¨‹

# CIF 预测器核心逻辑(简化版)
def cif_predictor(encoder_output):
    # 1. 上下文建模:1Då·ç§¯æ•获局部语音特å¾
    context = conv1d(encoder_output)
    
    # 2. 生æˆå¸§çº§é‡è¦æ€§æƒé‡ α
    alphas = sigmoid(output_layer(context))
    
    # 3. 累积 α å€¼ï¼Œè¶…è¿‡é˜ˆå€¼æ—¶ç”Ÿæˆ token
    tokens = []
    accumulated = 0
    for alpha in alphas:
        accumulated += alpha
        if accumulated >= threshold:
            tokens.append(current_frame_features)
            accumulated = 0
    
    return tokens, len(tokens)  # 预测的 token åºåˆ—和长度

CIF 优势:

  • 无需预先设定目标长度
  • 自适应ä¸åŒè¯­é€Ÿå’Œè¯­éŸ³ç±»åž‹
  • 对é½ç²¾åº¦è¾¾å¸§çº§åˆ«ï¼ˆ10ms)

性能对比

模型Aishell1 CER推ç†é€Ÿåº¦ (RTF)傿•°é‡
Transformer5.8%0.82180M
Conformer3.4%0.56190M
Paraformer1.94%0.12220M

RTF(Real Time Factor)= æŽ¨ç†æ—¶é—´/音频时长,越å°é€Ÿåº¦è¶Šå¿«

3. SenseVoice:多模æ€è¯­éŸ³ç†è§£

SenseVoice 是 FunASR 推出的新一代语音基础模型,采用多任务学习框架:

架构对比

SenseVoice Small(éžè‡ªå›žå½’,轻é‡çº§ï¼‰ï¼š

输入音频 → Feature Extractor → Task Embedder → 并行输出
                                      ↓
                              ┌──────┼──────â”
                             LID    SER    AED/ASR

SenseVoice Large(自回归,更强大):

音频输入 → SAN-M Encoder → Transformer Decoder → 自回归生æˆåºåˆ—

输出示例:
SOS → LID:zh → SER:happy → AED:bgm → ASR:阿 → AED:/bgm → ASR:里 → ASR:巴 → happy → EOS

多任务能力

任务说明输出示例
ASR语音识别"阿里巴巴"
LID语ç§è¯†åˆ«[zh]中文ã€[en]英文ã€[yue]粤语ã€[ja]日语ã€[ko]韩语
SER情感识别[happy]开心ã€[angry]生气ã€[sad]难过ã€[neutral]中立
AED音频事件检测[bgm]背景音ä¹ã€[applause]掌声ã€[laughter]笑声ã€[cough]咳嗽
ITN逆文本正则化"二零二四年" → "2024年"

性能优势

  • 多语言:40䏇尿—¶æ•°æ®è®­ç»ƒï¼Œæ”¯æŒ 50+ 语言
  • 高精度:中文/粤语识别效果优于 Whisper
  • 高效率:SenseVoice-Small 推ç†é€Ÿåº¦æ˜¯ Whisper-Large çš„ 15 å€
  • å¯Œæ–‡æœ¬ï¼šåŒæ—¶è¾“出情感ã€äº‹ä»¶ç­‰è¯­ä¹‰ä¿¡æ¯

模型家æ—详解

模型总览

æ¨¡åž‹ä»»åŠ¡è¯­è¨€å‚æ•°é‡ç‰¹ç‚¹
SenseVoiceSmallASR+LID+SER+AED多语言330M⭠多任务ç†è§£
paraformer-zhASR中文220Méžå®žæ—¶ï¼Œé«˜ç²¾åº¦
paraformer-zh-streamingASR中文220M实时æµå¼è¯†åˆ«
paraformer-enASR英文220M英语专用优化
conformer-enASR英文220MConformer架构
ct-punc标点æ¢å¤ä¸­è‹±æ–‡290M上下文感知
fsmn-vadVAD多语言0.4M实时端点检测
fsmn-kws语音唤醒中文0.7M实时唤醒
cam++说è¯äººéªŒè¯å¤šè¯­è¨€7.2M深度说è¯äººç‰¹å¾
Whisper-large-v3ASR多语言1550MOpenAI 模型
Qwen-Audio多模æ€å¤§æ¨¡åž‹å¤šè¯­è¨€8B音频文本对é½
emotion2vec+情感识别多语言300M4ç§æƒ…感类别

代表性模型详解

1. Paraformer-zh(中文语音识别)

from funasr import AutoModel

# 加载模型
model = AutoModel(
    model="paraformer-zh",
    vad_model="fsmn-vad",      # 语音端点检测
    punc_model="ct-punc",      # 标点æ¢å¤
    # spk_model="cam++"        # 说è¯äººåˆ†ç¦»ï¼ˆå¯é€‰ï¼‰
)

# 推ç†
res = model.generate(
    input="asr_example_zh.wav",
    batch_size_s=300,
    hotword='é­”æ­'  # 热è¯å¢žå¼º
)
print(res)

输出格å¼ï¼š

[{
    "key": "asr_example_zh",
    "text": "é­”æ­æ˜¯ä¸€ä¸ªå¼€æºçš„æ¨¡åž‹å³æœåС平å°ã€‚",
    "timestamp": [[0, 800], [800, 1200], ...],  // 字级别时间戳
    "confidence": 0.95
}]

2. SenseVoiceSmall(多任务ç†è§£ï¼‰

from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess

model = AutoModel(
    model="iic/SenseVoiceSmall",
    vad_model="fsmn-vad",
    vad_kwargs={"max_single_segment_time": 30000},
    device="cuda:0",
)

res = model.generate(
    input="example.mp3",
    cache={},
    language="auto",  # 自动语言检测
    use_itn=True,     # å¯ç”¨é€†æ–‡æœ¬å½’一化
    batch_size_s=60,
    merge_vad=True,
    merge_length_s=15,
)

# 富文本åŽå¤„ç†
text = rich_transcription_postprocess(res[0]["text"])
print(text)

输出示例:

<|zh|><|happy|><|bgm|>阿里巴巴是一家科技公å¸<|/bgm|>

3. Paraformer-zh-streaming(实时识别)

from funasr import AutoModel

# æµå¼é…ç½®
chunk_size = [0, 10, 5]  # [0, 10, 5] = 600ms 延迟
encoder_chunk_look_back = 4
decoder_chunk_look_back = 1

model = AutoModel(model="paraformer-zh-streaming")

# 模拟æµå¼è¾“å…¥
import soundfile
speech, sample_rate = soundfile.read("test.wav")
chunk_stride = chunk_size[1] * 960  # 600ms = 960 采样点 (16kHz)

cache = {}
total_chunk_num = int(len(speech) / chunk_stride) + 1

for i in range(total_chunk_num):
    speech_chunk = speech[i*chunk_stride:(i+1)*chunk_stride]
    is_final = (i == total_chunk_num - 1)
    
    res = model.generate(
        input=speech_chunk,
        cache=cache,
        is_final=is_final,
        chunk_size=chunk_size,
        encoder_chunk_look_back=encoder_chunk_look_back,
        decoder_chunk_look_back=decoder_chunk_look_back
    )
    print(f"Chunk {i}: {res}")

æµå¼å»¶è¿Ÿè¯´æ˜Žï¼š

  • chunk_size = [0, 10, 5]:上å±å®žæ—¶å‡ºå­—粒度为 10×60=600ms,未æ¥ä¿¡æ¯ä¸º 5×60=300ms
  • æ¯æ¬¡æŽ¨ç†è¾“å…¥ 600ms 音频,输出对应文字
  • 最åŽä¸€ä¸ªç‰‡æ®µè®¾ç½® is_final=True 强制输出最åŽä¸€ä¸ªå­—


快速开始与实战

安装

æ–¹å¼ä¸€ï¼špip 安装(推è)

pip install funasr

# 如需使用工业预训练模型,é¢å¤–安装
pip install -U modelscope huggingface_hub

æ–¹å¼äºŒï¼šæºç å®‰è£…

git clone https://github.com/alibaba/FunASR.git
cd FunASR
pip install -e ./

ä¾èµ–è¦æ±‚:

  • Python >= 3.8
  • PyTorch >= 1.13
  • torchaudio

快速体验

命令行方å¼ï¼š

funasr ++model=paraformer-zh \
       ++vad_model="fsmn-vad" \
       ++punc_model="ct-punc" \
       ++input=asr_example_zh.wav

Python API æ–¹å¼ï¼š

from funasr import AutoModel

# 一键加载,自动下载模型
model = AutoModel(model="paraformer-zh")
res = model.generate(input="test.wav")
print(res[0]["text"])

实战案例

案例 1:长音频转写

from funasr import AutoModel

# 长音频需è¦å¼€å¯ VAD 自动切分
model = AutoModel(
    model="paraformer-zh",
    vad_model="fsmn-vad",
    vad_kwargs={"max_single_segment_time": 30000},  # 最大30秒一段
    punc_model="ct-punc",
)

# 支æŒä»»æ„时长音频
res = model.generate(
    input="long_meeting_recording.wav",
    batch_size_s=300,  # åŠ¨æ€ batch,总时长 300s
)

# 输出带时间戳的完整文本
for item in res:
    print(f"[{item['timestamp'][0][0]}ms] {item['text']}")

案例 2:实时会议转录

import pyaudio
from funasr import AutoModel

# åˆå§‹åŒ–æµå¼æ¨¡åž‹
model = AutoModel(model="paraformer-zh-streaming")
chunk_size = [0, 10, 5]  # 600ms 延迟

# é…置音频æµ
p = pyaudio.PyAudio()
stream = p.open(
    format=pyaudio.paInt16,
    channels=1,
    rate=16000,
    input=True,
    frames_per_buffer=9600  # 600ms @ 16kHz
)

cache = {}
print("开始实时转录...")

try:
    while True:
        # 读å–音频å—
        data = stream.read(9600)
        speech_chunk = np.frombuffer(data, dtype=np.int16)
        
        # æµå¼æŽ¨ç†
        res = model.generate(
            input=speech_chunk,
            cache=cache,
            is_final=False,
            chunk_size=chunk_size
        )
        
        if res[0]["text"]:
            print(res[0]["text"], end="", flush=True)
            
except KeyboardInterrupt:
    print("\nåœæ­¢è½¬å½•")
    stream.stop_stream()
    stream.close()
    p.terminate()

案例 3:情感分æž

from funasr import AutoModel

model = AutoModel(model="iic/SenseVoiceSmall")

res = model.generate(
    input="customer_service_call.wav",
    language="auto",
)

text = res[0]["text"]

# è§£æžæƒ…感标签
if "<|happy|>" in text:
    emotion = "开心"
elif "<|angry|>" in text:
    emotion = "生气"
elif "<|sad|>" in text:
    emotion = "难过"
else:
    emotion = "中立"

print(f"识别结果:{text}")
print(f"情感:{emotion}")

部署与优化

部署方å¼å¯¹æ¯”

部署方å¼å¹³å°æ€§èƒ½ç‰¹ç‚¹é€‚用场景
Python SDKCPU/GPUçµæ´»æ˜“ç”¨å¼€å‘æµ‹è¯•
ONNX Runtime跨平å°é«˜æ€§èƒ½æŽ¨ç†ç”Ÿäº§çŽ¯å¢ƒ
TensorRTNVIDIA GPUæžè‡´æ€§èƒ½é«˜å¹¶å‘场景
移动端Android/iOSè½»é‡çº§ç§»åŠ¨åº”ç”¨
Web æœåŠ¡HTTP/WebSocket远程调用云æœåŠ¡

Docker 一键部署

# 中文离线文件转写æœåŠ¡ï¼ˆCPU)
docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.5

# 中文实时语音å¬å†™æœåŠ¡
docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.12

# å¯åЍæœåŠ¡
docker run -p 10095:10095 -it --privileged=true \
  -v $PWD/funasr-runtime-resources:/workspace/models \
  registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.5

性能优化技巧

1. é‡åŒ–加速

# INT8 é‡åŒ–,推ç†é€Ÿåº¦æå‡ 2.3 å€ï¼Œç²¾åº¦æŸå¤± < 0.3%
from funasr_onnx import Paraformer

model = Paraformer(
    model_dir,
    batch_size=1,
    quantize=True  # å¯ç”¨é‡åŒ–
)

2. åŠ¨æ€ Batch

# æ ¹æ® GPU 显存自动调整 batch size
model.generate(
    input="test.wav",
    batch_size_s=60,  # batch 总时长 60s,而éžå›ºå®šæ ·æœ¬æ•°
)

3. 热è¯å¢žå¼º

# æå‡ç‰¹å®šè¯æ±‡è¯†åˆ«å‡†ç¡®çއ
model.generate(
    input="tech_conference.wav",
    hotword='大语言模型 人工智能 深度学习 Transformer'
)

4. GPU 多路并å‘

# 中文离线文件转写æœåŠ¡ GPU 版本支æŒåŠ¨æ€ batch
# 长音频测试集上å•线 RTF=0.0076,多线加速比 1200+

应用场景与案例

场景矩阵

åœºæ™¯æŽ¨èæ¨¡åž‹å…³é”®ç‰¹æ€§
会议转录paraformer-zh + vad + puncé•¿éŸ³é¢‘åˆ‡åˆ†ã€æ ‡ç‚¹æ¢å¤
实时字幕paraformer-zh-streaming低延迟æµå¼è¾“出
客æœè´¨æ£€SenseVoiceSmall情感识别ã€äº‹ä»¶æ£€æµ‹
语音助手fsmn-kws + paraformerå”¤é†’è¯ + 识别
多语言翻译Whisper-large-v399 ç§è¯­è¨€æ”¯æŒ
声纹识别cam++说è¯äººç¡®è®¤/分割
内容审核SenseVoiceSmall音频事件检测
智能座舱SenseVoiceSmall多任务一体化

真实案例

案例 1:智能会议系统

需求:

  • 2å°æ—¶ä¼šè®®å½•音转文字
  • 区分ä¸åŒå‘言人
  • 自动生æˆä¼šè®®çºªè¦

方案:

model = AutoModel(
    model="paraformer-zh",
    vad_model="fsmn-vad",
    punc_model="ct-punc",
    spk_model="cam++",  # 说è¯äººåˆ†ç¦»
)

res = model.generate(
    input="meeting_2h.wav",
    batch_size_s=300,
)

# 输出格å¼ï¼š
# [å‘言人A] 10:05 我们需è¦è®¨è®ºä¸‹å­£åº¦çš„目标
# [å‘言人B] 10:07 我认为应该é‡ç‚¹å…³æ³¨ç”¨æˆ·ä½“验

案例 2:智能客æœåŠ©æ‰‹

需求:

  • 实时识别客户语音
  • 分æžå®¢æˆ·æƒ…绪
  • 检测关键è¯ï¼ˆæŠ•诉ã€é€€æ¬¾ç­‰ï¼‰

方案:

model = AutoModel(model="iic/SenseVoiceSmall")

res = model.generate(
    input=audio_stream,
    language="auto",
)

text = res[0]["text"]

# 情感分æž
if "<|angry|>" in text or "<|sad|>" in text:
    alert_manager()  # 通知主管

# å…³é”®è¯æ£€æµ‹
keywords = ["投诉", "退款", "䏿»¡æ„", "举报"]
if any(kw in text for kw in keywords):
    escalate_ticket()  # å‡çº§å·¥å•

与其他工具对比

FunASR vs Whisper

维度FunASRWhisper
å¼€å‘团队阿里巴巴达摩院OpenAI
中文效果â­â­â­â­â­ 专为中文优化â­â­â­â­ 通用模型
速度SenseVoice 15å€äºŽ Whisper-Large较慢
功能丰富度ASR+VAD+Punc+SER+AED+...仅 ASR+翻译
部署便利一键 Docker,完整æœåŠ¡é“¾éœ€è‡ªè¡Œæ­å»º
热è¯å¢žå¼ºâœ… 支æŒâŒ 䏿”¯æŒ
å¼€æºåè®®Apache 2.0MIT

FunASR vs 其他中文 ASR

工具特点适用场景
FunASR功能全é¢ã€å·¥ä¸šçº§ã€æŒç»­æ›´æ–°ä¼ä¸šåº”用ã€ç ”ç©¶
PaddleSpeech百度出å“,Paddle 生æ€Paddle 用户
WeNetè½»é‡ã€é«˜æ•ˆè¾¹ç¼˜éƒ¨ç½²
Kaldi传统 ASR 框架学术研究

总结与展望

核心优势

  1. 工业级质é‡ï¼šåŸºäºŽæ•°ä¸‡å°æ—¶å·¥ä¸šæ•°æ®è®­ç»ƒï¼Œæ³›åŒ–能力强
  2. 功能全é¢ï¼šä»Ž ASR 到多模æ€ç†è§£ï¼Œä¸€ç«™å¼è§£å†³
  3. 性能领先:Paraformer éžè‡ªå›žå½’架构,速度精度åŒä¼˜
  4. 部署å‹å¥½ï¼šæ”¯æŒå¤šç§éƒ¨ç½²æ–¹å¼ï¼ŒDocker 一键å¯åЍ
  5. æŒç»­æ¼”进:SenseVoiceã€Qwen-Audio ç­‰å‰æ²¿æ¨¡åž‹æŒç»­é›†æˆ

æœªæ¥æ–¹å‘

  • 多模æ€èžåˆï¼šæ›´æ·±åº¦çš„音频-文本-视觉èžåˆ
  • 低资æºä¼˜åŒ–ï¼šæ”¯æŒæ›´å¤šæ–¹è¨€ã€å°è¯­ç§
  • 端侧部署:更轻é‡çš„æ¨¡åž‹ï¼Œæ”¯æŒ IoT 设备
  • 个性化适é…:更好的说è¯äººè‡ªé€‚应能力

快速开始

# 1. 安装
pip install funasr modelscope

# 2. 5 行代ç ä¸Šæ‰‹
from funasr import AutoModel
model = AutoModel(model="paraformer-zh")
res = model.generate(input="test.wav")
print(res[0]["text"])

å‚考资æº

  • GitHub: https://github.com/alibaba/FunASR
  • Gitee: https://gitee.com/wenjiakai/FunASR
  • ModelScope: https://modelscope.cn/organization/damo
  • Hugging Face: https://huggingface.co/funasr
  • 文档: https://github.com/alibaba/FunASR/tree/main/docs
  • 论文: Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition (INTERSPEECH 2022)

本文基于 FunASR 官方文档ã€GitHub 仓库和社区资料整ç†ï¼Œæ—¨åœ¨å¸®åЩ开å‘者全é¢äº†è§£è¿™ä¸€å¼ºå¤§çš„å¼€æºè¯­éŸ³è¯†åˆ«å·¥å…·ç®±ã€‚

#FunASR #语音识别 #ASR #阿里巴巴 #达摩院 #å¼€æº #AI #Paraformer #SenseVoice #教程

讨论回å¤

0 æ¡å›žå¤

还没有人回å¤