간편한 음성 툴킷: 로컬 배포를 위한 AI 음성 툴킷

1.5K 0

일반 소개

Easy-Voice-Toolkit 是一个基于开源语音项目的多功能工具箱，提供语音识别、语音转录、语音转换、数据集创建和模型训练等多种自动化音频工具。用户可以根据需要选择性地使用这些工具，或按顺序使用它们，将原始音频文件逐步转换为理想的语音模型。该工具箱支持本地部署，用户可以下载轻量级安装包或便携式包进行使用。

기능 목록

오디오 처리

음성 인식

语音转录

数据集制作（SRT 转换 & WAV 分割）

모델 교육

음성 합성

도움말 사용

安装流程：

下载轻量安装包：小型包，包含安装说明，但不包含必要的环境依赖和模型。
下载即用型便携包：大型包，包含所有环境依赖和多个模型预设，下载后解压即可使用。

本地部署 - 用户安装：

下载轻量安装包或即用型便携包。
다운로드한 파일의 압축을 풉니다.
움직여야 합니다. .exe 文件或其快捷方式。

本地部署 - 开发者设置环境：

确保已安装 Python 3.8 或更高版本。

프로젝트 웨어하우스 복제:

git clone https://github.com/Spr-Aachen/Easy-Voice-Toolkit.git

切换到项目目录：
```
cd Easy-Voice-Toolkit
```
安装依赖项：
```
pip install -r requirements.txt
```

安装 GUI 依赖项：

pip install pyside6 QEasyWidgets pywin32==300 psutil pynvml darkdetect PyGithub

运行程序：
```
python Run.py
```

功能操作流程：

오디오 처리：导入音频文件，选择所需的处理工具（如降噪、剪辑等），应用处理并保存结果。
음성 인식：导入音频文件，选择语音识别模型，运行识别并导出文本结果。
语音转录：导入音频文件，选择转录工具，运行转录并导出字幕文件（如 SRT）。
数据集制作：导入音频文件，选择数据集制作工具，进行 SRT 转换或 WAV 分割，生成训练数据集。
모델 교육：导入训练数据集，选择模型训练工具，配置训练参数，运行训练并保存模型。
음성 전사：导入音频文件，选择语音转换工具，配置转换参数，运行转换并保存结果。

주의

目前 UI 界面仅支持 Windows 系统。
下载和使用过程中请确保网络连接稳定。
如果遇到问题，请参考项目仓库中的使用说明和常见问题解答。

이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.

PydanticAI: Pydantic으로 제너레이티브 AI 앱을 구축하면 프로덕션급 AI 앱을 더 쉽게 구축할 수 있습니다.

최신 AI 도구 # AI 자바 오픈 소스 프로젝트

7개월 전

01.7K

AIGCPanel: 디지털 맨 통합 시스템의 오픈 소스 클론, 무료 디지털 맨 클라이언트를 원클릭으로 배포할 수 있습니다.

최신 AI 도구 # AI 자바 오픈 소스 프로젝트 # AI 디지털 맨

7개월 전

01.4K

DiffRhythm(谛韵)：10秒内生成最长4分45秒的歌曲

최신 AI 도구 # AI 자바 오픈 소스 프로젝트 # AI 음악

4개월 전

0889

Takomo.ai：无代码AI应用构建平台，通过画布拖拽构建多模态工作流

최신 AI 도구 # 로우코드 워크플로 # 지능형 바디 애플리케이션

4개월 전

01.2K

댓글 없음

댓글 없음...

간편한 음성 툴킷: 로컬 배포를 위한 AI 음성 툴킷

일반 소개

기능 목록

도움말 사용

FaceFusion: 비디오 얼굴 스왑 향상 도구 | 음성 동기화 비디오 입 움직임

GLIGEN GUI: 이미지 요소의 위치를 정밀하게 제어, ComfyUI 기반의 직관적인 그래픽 인터페이스

관련 문서

PydanticAI: Pydantic으로 제너레이티브 AI 앱을 구축하면 프로덕션급 AI 앱을 더 쉽게 구축할 수 있습니다.

AIGCPanel: 디지털 맨 통합 시스템의 오픈 소스 클론, 무료 디지털 맨 클라이언트를 원클릭으로 배포할 수 있습니다.

DiffRhythm(谛韵)：10秒内生成最长4分45秒的歌曲

Takomo.ai：无代码AI应用构建平台，通过画布拖拽构建多模态工作流

댓글 없음

최신 기사

간편한 음성 툴킷: 로컬 배포를 위한 AI 음성 툴킷

일반 소개

기능 목록

도움말 사용

FaceFusion: 비디오 얼굴 스왑 향상 도구 | 음성 동기화 비디오 입 움직임

GLIGEN GUI: 이미지 요소의 위치를 정밀하게 제어, ComfyUI 기반의 직관적인 그래픽 인터페이스

관련 문서

PydanticAI: Pydantic으로 제너레이티브 AI 앱을 구축하면 프로덕션급 AI 앱을 더 쉽게 구축할 수 있습니다.

AIGCPanel: 디지털 맨 통합 시스템의 오픈 소스 클론, 무료 디지털 맨 클라이언트를 원클릭으로 배포할 수 있습니다.

DiffRhythm(谛韵)：10秒内生成最长4分45秒的歌曲

Takomo.ai：无代码AI应用构建平台，通过画布拖拽构建多模态工作流

댓글 없음

선택한 AI 도구

최신 기사