SpeechGPT 2.0-프리뷰: 실시간 상호작용을 위한 엔드투엔드 의인화된 음성 대화 매크로 모델

1.1K 0

일반 소개

SpeechGPT 2.0-preview 是 OpenMOSS 推出的首个拟人化实时交互系统，基于百万小时级语音数据训练而成。该系统具备拟人口语化表达与百毫秒级低延迟响应，支持自然流畅的实时打断交互。SpeechGPT 2.0-preview 对齐了语音和文本两个模态，展现出多情感、多风格、多音色的精准控制与智能切换能力。它不仅能够模拟各类角色的语气和情感状态，还具备诗歌朗诵、故事讲述、说方言等多种语音才艺。此外，SpeechGPT 2.0-preview 还支持工具调用、联网搜索和外挂知识库等功能，提供了丰富的语音表现力和文本能力。

演示地址：https://sp2.open-moss.com/

기능 목록

拟人口语化表达
百毫秒级低延迟响应
多情感、多风格、多音色控制
角色扮演能力
诗歌朗诵、故事讲述、说方言等语音才艺
支持工具调用、联网搜索和外挂知识库
高效语音数据爬取系统
多功能高效率语音数据清洗 pipeline
全方面多粒度语音数据标注系统
语义-声学联合建模的超低比特率流式语音 Codec

도움말 사용

설치 프로세스

복제 창고:

   git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview

下载模型权重（需要安装 git-lfs）：

   git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B

准备环境：

   pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation

启动网页 demo：

   python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/

기능 작동 흐름

拟人口语化表达：SpeechGPT 2.0-preview 能够模拟人类的口语表达方式，提供自然流畅的对话体验。
低延迟响应：系统在百毫秒级别内响应用户输入，实现实时交互。
多情感、多风格、多音色控制：用户可以通过指令控制系统的情感、风格和音色，适应不同的对话场景。
롤플레잉(게임)：系统能够模拟不同角色的语气和情感状态，适用于多种应用场景。
语音才艺：SpeechGPT 2.0-preview 具备诗歌朗诵、故事讲述和方言表达等多种语音才艺，丰富了对话内容。
工具调用和联网搜索：系统支持调用外部工具和进行联网搜索，扩展了对话的功能性和信息获取能力。
外挂知识库：通过接入外部知识库，系统能够提供更为详尽和专业的回答。

사용 예

감정 조절：用户可以输入指令“用开心的语气讲一个笑话”，系统会用愉快的语气讲述笑话。
롤플레잉(게임)：输入指令“模拟一个老师的语气解释二次函数”，系统会用老师的语气进行解释。
语音才艺：输入指令“用方言讲一个故事”，系统会用指定的方言讲述故事。

通过以上步骤和示例，用户可以充分体验 SpeechGPT 2.0-preview 的强大功能和多样化应用场景。

이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.

PixVerse: 텍스트 또는 이미지로 독특한 스타일의 동영상 클립을 생성하세요.

1개월 전

02K

DeepTranslate: 무료 OpenAI 인터페이스로 구동되는 AI 다국어 웹 번역 플러그인

최신 AI 도구 # AI 번역

9개월 전

01.5K

AI-Infra-Guard: AI 시스템의 잠재적 보안 위험을 탐지하기 위한 오픈 소스 도구

최신 AI 도구 # AI 자바 오픈 소스 프로젝트

5개월 전

0781

Vsub: 텍스트 또는 템플릿을 입력하여 얼굴을 노출하지 않아도 되는 바이럴 마케팅 동영상을 생성할 수 있습니다.

최신 AI 도구 # AI 마케팅 # AI 비디오 생성 도구

6개월 전

01.3K

댓글 없음

댓글 없음...

SpeechGPT 2.0-프리뷰: 실시간 상호작용을 위한 엔드투엔드 의인화된 음성 대화 매크로 모델

일반 소개

기능 목록

도움말 사용

설치 프로세스

기능 작동 흐름

사용 예

AnyVoice: 단 3초 만에 무료 온라인 음성 복제가 가능합니다!

웨이트: 음성 모방 커버송 및 텍스트 음성 변환 저작 플랫폼

관련 문서

PixVerse: 텍스트 또는 이미지로 독특한 스타일의 동영상 클립을 생성하세요.

DeepTranslate: 무료 OpenAI 인터페이스로 구동되는 AI 다국어 웹 번역 플러그인

AI-Infra-Guard: AI 시스템의 잠재적 보안 위험을 탐지하기 위한 오픈 소스 도구

Vsub: 텍스트 또는 템플릿을 입력하여 얼굴을 노출하지 않아도 되는 바이럴 마케팅 동영상을 생성할 수 있습니다.

댓글 없음

최신 기사

SpeechGPT 2.0-프리뷰: 실시간 상호작용을 위한 엔드투엔드 의인화된 음성 대화 매크로 모델

일반 소개

기능 목록

도움말 사용

설치 프로세스

기능 작동 흐름

사용 예

AnyVoice: 단 3초 만에 무료 온라인 음성 복제가 가능합니다!

웨이트: 음성 모방 커버송 및 텍스트 음성 변환 저작 플랫폼

관련 문서

PixVerse: 텍스트 또는 이미지로 독특한 스타일의 동영상 클립을 생성하세요.

DeepTranslate: 무료 OpenAI 인터페이스로 구동되는 AI 다국어 웹 번역 플러그인

AI-Infra-Guard: AI 시스템의 잠재적 보안 위험을 탐지하기 위한 오픈 소스 도구

Vsub: 텍스트 또는 템플릿을 입력하여 얼굴을 노출하지 않아도 되는 바이럴 마케팅 동영상을 생성할 수 있습니다.

댓글 없음

선택한 AI 도구

최신 기사