Discuz! BBS

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 146|回复: 1

本地部署openai whisper

[复制链接]

435

主题

610

帖子

3540

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
3540
发表于 2025-12-8 00:34:37 | 显示全部楼层 |阅读模式
要在本地部署 OpenAI 的 Whisper 模型,你可以使用 Hugging Face 的 Transformers 库。Whisper 是一个强大的自动语音识别(ASR)模型,由 OpenAI 开发,它能够识别并转录音频文件中的语音内容。下面是如何在本地部署和使用 OpenAI Whisper 的步骤:

步骤 1: 安装必要的库
首先,确保你已经安装了 Python。然后,使用 pip 安装以下库:
  1. pip install transformers torchaudio
复制代码

步骤 2: 下载 Whisper 模型
Hugging Face 的 Transformers 库支持加载 OpenAI 的 Whisper 模型。你可以使用以下代码来下载模型:
  1. from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

  2. model_name = "openai/whisper-tiny.en"  # 可以选择其他大小的模型,如 whisper-base, whisper-small 等
  3. model = Wav2Vec2ForCTC.from_pretrained(model_name)
  4. processor = Wav2Vec2Processor.from_pretrained(model_name)
复制代码

步骤 3: 加载音频文件并转录
使用 torchaudio 加载音频文件,然后使用模型进行转录:
  1. import torchaudio

  2. def transcribe_audio(audio_path, model, processor):
  3.     input_speech, sampling_rate = torchaudio.load(audio_path)
  4.     input_values = processor(input_speech, sampling_rate=sampling_rate, return_tensors="pt").input_values
  5.     logits = model(input_values).logits
  6.     predicted_ids = torch.argmax(logits, dim=-1)
  7.     transcription = processor.decode(predicted_ids[0])
  8.     return transcription

  9. # 使用函数
  10. audio_path = 'path/to/your/audio/file.wav'
  11. transcription = transcribe_audio(audio_path, model, processor)
  12. print(transcription)
复制代码

步骤 4: 选择合适的模型大小
OpenAI Whisper 提供多个模型大小,包括 tiny, base, small, medium, 和 large。每种模型大小的处理速度和准确率不同。你可以根据需要选择合适的模型大小。例如,使用 base 模型:
  1. model_name = "openai/whisper-base"
  2. model = Wav2Vec2ForCTC.from_pretrained(model_name)
  3. processor = Wav2Vec2Processor.from_pretrained(model_name)
复制代码

注意事项
确保你的音频文件格式是支持的(通常是 WAV 或 MP3)。如果需要,你可以使用 torchaudio 来转换音频格式。
根据你的硬件配置,较大模型的运行可能会比较慢。你可以根据实际情况选择合适的模型大小。
对于非英语音频,你可以选择带有相应语言代码的模型版本(例如 openai/whisper-base.zh 用于中文)。
通过以上步骤,你就可以在本地部署和使用 OpenAI 的 Whisper 模型进行语音转录了。

ref: GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

语音识别神器 Whisper 的几个小技巧_如何设定whisper只输出中文_whisper 中文识别-CSDN博客
实战指南:本地部署Whisper Web并通过内网穿透实现远程访问-百度开发者中心
回复

使用道具 举报

435

主题

610

帖子

3540

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
3540
 楼主| 发表于 2025-12-8 00:38:55 | 显示全部楼层
要在本地部署运行OpenAI Whisper,你需要准备以下配置:

硬件要求
CPU/GPU‌:Whisper支持纯CPU运行,但GPU(尤其是NVIDIA显卡)能显著加速处理。
内存‌:基础模型(如tiny)至少需要1GB内存,完整模型(如large-v3)建议8GB以上。
存储空间‌:模型文件大小从39MB(tiny)到1.55GB(large-v3)不等,建议预留双倍空间用于中间文件。
软件环境
操作系统‌:支持Linux、Windows(需WSL2)或macOS。
Python‌:推荐Python 3.8及以上版本。
依赖库‌:通过pip安装openai-whisper、torch和ffmpeg-python。
FFmpeg‌:用于音频格式转换,需单独安装并添加到系统PATH。
模型选择
Whisper提供多种模型,从轻量级(tiny)到高精度(large-v3),根据你的硬件配置和需求选择。

如何使用whisper+ollama+ffmpeg为视频添加中文字幕
CSDN软件开发网
15:10
【干货】超详细OpenAI Whisper 本地部署安装与使用超强教程,视频、音频自动转录字幕、翻译,开源免费神器,新手小白必看
哔哩哔哩
部署步骤
安装Python和pip。
安装FFmpeg。
创建并激活Python虚拟环境。
安装Whisper及相关依赖:pip install openai-whisper torch ffmpeg-python。
下载并运行模型:whisper 你的音频文件路径.wav --model large-v3 --language Chinese。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|DiscuzX

GMT+8, 2025-12-16 13:01 , Processed in 0.012746 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表