SpeechGPT 2.0-프리뷰: 실시간 상호작용을 위한 엔드투엔드 의인화된 음성 대화 매크로 모델
일반 소개
SpeechGPT 2.0-preview 是 OpenMOSS 推出的首个拟人化实时交互系统,基于百万小时级语音数据训练而成。该系统具备拟人口语化表达与百毫秒级低延迟响应,支持自然流畅的实时打断交互。SpeechGPT 2.0-preview 对齐了语音和文本两个模态,展现出多情感、多风格、多音色的精准控制与智能切换能力。它不仅能够模拟各类角色的语气和情感状态,还具备诗歌朗诵、故事讲述、说方言等多种语音才艺。此外,SpeechGPT 2.0-preview 还支持工具调用、联网搜索和外挂知识库等功能,提供了丰富的语音表现力和文本能力。


演示地址:https://sp2.open-moss.com/
기능 목록
- 拟人口语化表达
- 百毫秒级低延迟响应
- 多情感、多风格、多音色控制
- 角色扮演能力
- 诗歌朗诵、故事讲述、说方言等语音才艺
- 支持工具调用、联网搜索和外挂知识库
- 高效语音数据爬取系统
- 多功能高效率语音数据清洗 pipeline
- 全方面多粒度语音数据标注系统
- 语义-声学联合建模的超低比特率流式语音 Codec
도움말 사용
설치 프로세스
- 복제 창고:
git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview
- 下载模型权重(需要安装 git-lfs):
git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
- 准备环境:
pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation
- 启动网页 demo:
python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/
기능 작동 흐름
- 拟人口语化表达:SpeechGPT 2.0-preview 能够模拟人类的口语表达方式,提供自然流畅的对话体验。
- 低延迟响应:系统在百毫秒级别内响应用户输入,实现实时交互。
- 多情感、多风格、多音色控制:用户可以通过指令控制系统的情感、风格和音色,适应不同的对话场景。
- 롤플레잉(게임):系统能够模拟不同角色的语气和情感状态,适用于多种应用场景。
- 语音才艺:SpeechGPT 2.0-preview 具备诗歌朗诵、故事讲述和方言表达等多种语音才艺,丰富了对话内容。
- 工具调用和联网搜索:系统支持调用外部工具和进行联网搜索,扩展了对话的功能性和信息获取能力。
- 外挂知识库:通过接入外部知识库,系统能够提供更为详尽和专业的回答。
사용 예
- 감정 조절:用户可以输入指令“用开心的语气讲一个笑话”,系统会用愉快的语气讲述笑话。
- 롤플레잉(게임):输入指令“模拟一个老师的语气解释二次函数”,系统会用老师的语气进行解释。
- 语音才艺:输入指令“用方言讲一个故事”,系统会用指定的方言讲述故事。
通过以上步骤和示例,用户可以充分体验 SpeechGPT 2.0-preview 的强大功能和多样化应用场景。
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...