Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现

울트라박스: 실시간 엔드투엔드 음성 대화를 위한 오디오 멀티모달 매크로 모델, GPT-4o 음성 상호작용의 오픈 소스 구현

综合介绍 Ultravox是一个创新的多模态大语言模型(LLM),专为实时语音处理而设计。与传统的语音识别系统不同,Ultravox无需单独的音频语音识别(ASR)阶段,能够直接将音频转换为高维空间中...
6개월 전
01.2K0
紫东太初:多模态大模型平台,支持文本创作、图像生成、3D理解、信号分析等任务

지동 타이추: 텍스트 생성, 이미지 생성, 3D 이해, 신호 분석 등의 작업을 지원하는 멀티모달 대형 모델 플랫폼입니다.

综合介绍 紫东太初是由中国科学院自动化研究所和武汉人工智能研究院推出的新一代多模态大模型平台。该平台支持多轮问答、文本创作、图像生成、3D理解和信号分析等多种任务,具备强大的认知、理解和创作能力。紫东...
8개월 전
01.1K0