Voxtral - Mistral AI推出的开源语音模型

Latest AI tools20hrs agorelease Sharenet.ai

112 0

Voxtral是什么

Voxtral 是 Mistral AI 推出的先进开源语音模型，支持通过强大的语音转录和理解能力推动自然人机交互。模型提供两个版本，24B 适用于大规模生产，3B 适合本地部署。Voxtral 支持多语言，能自动检测语言，支持处理长达 30 分钟的音频转录和 40 分钟的音频理解。模型具备内置问答和总结功能，无需额外语言模型直接生成结构化内容。Voxtral 能直接触发后端功能调用，优化语音交互的效率和成本。Voxtral 结合深度学习技术，将语音识别与自然语言理解集成于一体，广泛应用在会议记录、客户服务、内容创作、教育和智能助手等领域，助力语音交互的普及。

Voxtral的主要功能

长音频处理能力：能处理长达 30 分钟的音频转录及 40 分钟的深度理解，轻松应对长篇内容。
智能问答与总结：支持对音频内容直接提问，生成清晰的结构化总结，无需额外的语音识别或语言模型辅助。
多语言自动识别：支持多种主流语言（如英语、法语、西班牙语等），能自动检测语言，满足不同地区用户的需求。
语音指令触发：直接根据语音指令触发后端功能或 API 调用，简化操作流程，提高交互效率。
文本理解与处理：具备强大的文本理解能力，支持文本输入和处理。
高效转录性能：提供优化的转录服务，成本低，适合大规模应用。

Voxtral的官网地址

Project website：https://mistral.ai/news/voxtral
HuggingFace Model Library::
- https://huggingface.co/mistralai/Voxtral-Small-24B-2507
- https://huggingface.co/mistralai/Voxtral-Mini-3B-2507

如何使用Voxtral

Visit the official website：访问 Voxtral 的项目官网和HuggingFace 模型库中的相关模型。
选择合适的版本::
- Voxtral-Small-24B-2507：适用于生产规模，性能更强。
- Voxtral-Mini-3B-2507：适合本地部署，资源占用更少。
Installation of dependencies：确保环境中安装 Python 和必要的依赖库，例如 transformers cap (a poem) torch. Use以下命令安装::

pip install transformers torch

Loading Models：使用 HuggingFace 的 transformers库加载 Voxtral 模型：

from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor

model_name = "mistralai/Voxtral-Small-24B-2507"  # 或者 "mistralai/Voxtral-Mini-3B-2507"
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_name)
processor = AutoProcessor.from_pretrained(model_name)

准备音频数据：确保音频文件格式是支持的格式（如 WAV、MP3 等）。
- 转录音频：用 Voxtral 模型进行音频转录：

from transformers import pipeline

# 创建一个语音转录 pipeline
transcriber = pipeline("automatic-speech-recognition", model=model_name)

# 转录音频文件
transcription = transcriber("path/to/your/audio/file.wav")
print(transcription)