속삭임 입력: Groq을 사용한 무료 고속 음성-텍스트 변환 서비스입니다.

934 0

일반 소개

Whisper Input 是一个开源的语音转译工具，用户可以通过按下 Option 按钮开始录制语音，抬起按钮结束录制。该工具调用 Groq Whisper Large V3 Turbo 模型进行语音转译，能够在 1-2 秒内快速反馈转译结果。Whisper Input 还支持由 실리콘 플로우 托管的 FunAudioLLM/SenseVoiceSmall 模型，提供更快的识别速度和更高的准确性。该项目特别适合需要高效语音输入的用户，包括视力障碍者。

기능 목록

语音录制与转译：按下 Option 按钮开始录制，抬起按钮结束录制，自动调用模型进行转译。
다국어 지원：支持多种语言的语音转译。
快速反馈：大部分语音输入可以在 1-2 秒内反馈结果。
무료 사용：支持 Groq 和 SiliconFlow 提供的免费用量，无需付费。
标点符号支持：自动添加标点符号，提高转译文本的可读性。
无障碍支持：正在开发简易的 macOS 客户端，方便视力障碍用户使用。

도움말 사용

설치 프로세스

前提条件：确保本地有 Python 环境，版本不低于 3.10。
복제 프로젝트::

   git clone https://github.com/ErlichLiu/Whisper-Input.git

가상 환경 만들기::

   python -m venv venv

激活虚拟环境::
- macOS/Linux: bash source venv/bin/activate
- Windows: bash .\venv\Scripts\activate
종속성 설치::

   pip install pip-tools
pip-compile requirements.in
pip install -r requirements.txt

구성 모델

Groq Whisper Large V3 模型

注册 Groq 账户::Groq 注册页面
获取 API KEY::Groq API KEY
환경 변수 구성::

   cp .env.example .env

将 API KEY 粘贴到 .env 文件中：

   SERVICE_PLATFORM=groq
GROQ_API_KEY=你的API_KEY

SiliconFlow FunAudioLLM/SenseVoiceSmall 模型

注册 SiliconFlow 账户::SiliconFlow 注册页面
获取 API KEY::SiliconFlow API KEY
환경 변수 구성::

   cp .env.example .env

将 API KEY 粘贴到 .env 文件中：

   SERVICE_PLATFORM=siliconflow
SILICONFLOW_API_KEY=你的API_KEY

실행 중인 프로그램

트리거 절차::

   python main.py

사용법：按下 Option 按钮开始录制语音，抬起按钮结束录制，程序会自动进行语音转译并反馈结果。

주의

后台运行：程序需要一直在后台运行，建议在一个不会经常关闭的终端或终端 Tab 中运行。
无障碍支持：未来将上线 macOS 客户端，方便视力障碍用户使用。

一句话描述（简介）

Whisper Input 是一个高效的语音转译工具，支持多语言语音输入，快速准确地将语音转译为文本，适合需要高效语音输入的用户。

이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.

텍스트 생성 웹 UI: 여러 백엔드 서비스를 지원하는 라디오 기반 대규모 언어 모델 채팅 인터페이스

8개월 전

01.4K

LatentSync：用音频直接生成唇形同步视频的开源工具

최신 AI 도구 # AI 자바 오픈 소스 프로젝트 # 포트 동기화

1개월 전

01.7K

TAATOO: 이미지 보안을 위한 보이지 않는 워터마킹 도구

최신 AI 도구 # AI 이미지 생성 보조 장치

3 개월 전

0547

LaWGPT: 중국어 법률 지식 모델링, 법률 퀴즈 및 사법시험 교육 지원

최신 AI 도구 # AI 자바 오픈 소스 프로젝트 # AI 교육 도구

4개월 전

0673

댓글 없음

댓글 없음...

속삭임 입력: Groq을 사용한 무료 고속 음성-텍스트 변환 서비스입니다.

일반 소개

기능 목록

도움말 사용

설치 프로세스

구성 모델

Groq Whisper Large V3 模型

SiliconFlow FunAudioLLM/SenseVoiceSmall 模型

실행 중인 프로그램

주의

一句话描述（简介）

Azure TTS 임포터: 음성 합성 서비스를 읽기 소프트웨어에 통합하기

쿼드래틱: AI 대화와 코드 실행을 통합하는 온라인 데이터 분석 양식

관련 문서

텍스트 생성 웹 UI: 여러 백엔드 서비스를 지원하는 라디오 기반 대규모 언어 모델 채팅 인터페이스

LatentSync：用音频直接生成唇形同步视频的开源工具

TAATOO: 이미지 보안을 위한 보이지 않는 워터마킹 도구

LaWGPT: 중국어 법률 지식 모델링, 법률 퀴즈 및 사법시험 교육 지원

댓글 없음

최신 기사

속삭임 입력: Groq을 사용한 무료 고속 음성-텍스트 변환 서비스입니다.

일반 소개

기능 목록

도움말 사용

설치 프로세스

구성 모델

Groq Whisper Large V3 模型

SiliconFlow FunAudioLLM/SenseVoiceSmall 模型

실행 중인 프로그램

주의

一句话描述（简介）

Azure TTS 임포터: 음성 합성 서비스를 읽기 소프트웨어에 통합하기

쿼드래틱: AI 대화와 코드 실행을 통합하는 온라인 데이터 분석 양식

관련 문서

텍스트 생성 웹 UI: 여러 백엔드 서비스를 지원하는 라디오 기반 대규모 언어 모델 채팅 인터페이스

LatentSync：用音频直接生成唇形同步视频的开源工具

TAATOO: 이미지 보안을 위한 보이지 않는 워터마킹 도구

LaWGPT: 중국어 법률 지식 모델링, 법률 퀴즈 및 사법시험 교육 지원

댓글 없음

선택한 AI 도구

최신 기사