VideoMind:视频按时间戳定位内容与问答的开源项目

VideoMind: 타임스탬프별 동영상 포지셔닝 콘텐츠 및 Q&A 오픈 소스 프로젝트

일반 소개 비디오마인드는 긴 동영상을 위한 추론, Q&A 및 요약 생성에 중점을 둔 오픈 소스 멀티모달 AI 도구입니다. 홍콩 폴리테크닉 대학교의 예 리우와 싱가포르 국립대학교의 쇼 랩 팀이 개발했습니다. 이 도구는 비디오에 대한 인간의 이해를 모방합니다...
1개월 전
0792
MoshiVis:实时语音对话和图像理解的开源模型

MoshiVis: 실시간 음성 대화 및 이미지 이해를 위한 오픈 소스 모델

일반 소개 모시비스는 규타이 연구소에서 개발하여 깃허브에서 호스팅하는 오픈 소스 프로젝트입니다. 약 2억 6천 6백만 개의 새로운 적응 매개변수와 고정된 Pal...을 갖춘 Moshi 음성-텍스트 모델(7B 매개변수)을 기반으로 합니다.
4개월 전
0701
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio: 음성을 인식하고 복제된 음성을 사용하여 통신하는 멀티모달 음성 상호작용 프레임워크 등 다양한 기능

综合介绍 Step-Audio 是一个开源的智能语音交互框架,旨在提供生产环境开箱即用的语音理解和生成能力。该框架支持多语言对话(如中文、英文、日语)、情感语音(如快乐、悲伤)、区域方言(如粤语、四川...
5개월 전
01.1K