CapsWriter-Offline : Outil de saisie vocale et de transcription des sous-titres pour le PC

Derniers outils d'IAPosté il y a 5 mois Sharenet.ai

916 0

Introduction générale

CapsWriter-Offline est un outil de saisie vocale et de transcription de sous-titres pour PC, hébergé sur GitHub et créé par le développeur HaujetZhao. Il fonctionne complètement hors ligne et ne nécessite pas de connexion Internet pour la transcription de la parole en texte et de fichiers audio/vidéo en sous-titres, et prend en charge un temps d'enregistrement illimité, une saisie mixte chinois/anglais, et une reconnaissance de haute précision. Le logiciel est facile et efficace à utiliser en appuyant sur le raccourci clavier (CapsLock par défaut) pour enregistrer et en le relâchant pour saisir automatiquement le résultat de la reconnaissance. CapsWriter-Offline est open-source et gratuit pour Windows, MacOS et Linux, et est un favori parmi ceux qui ont besoin d'une saisie et d'une production de sous-titres efficaces.

Liste des fonctions

la saisie de texte à partir de la paroleLa voix est convertie automatiquement en texte, ce qui permet d'enregistrer des contenus mixtes chinois et anglais.
Nombre illimité d'heures de transcription: Transcription précise de contenus vocaux très longs grâce à la reconnaissance de la segmentation et aux techniques de déduplication.
Transcription audio et vidéo avec sous-titresLe logiciel de sous-titrage : permet de faire glisser des fichiers audio et vidéo dans le client pour générer automatiquement des sous-titres au format SRT.
remplacement de mots chaudsLes mots chauds : chinois, anglais et basés sur des règles peuvent être personnalisés afin d'améliorer la précision de la reconnaissance de mots spécifiques.
Fonction agendaLes résultats de l'enregistrement sont automatiquement sauvegardés sous forme de fichiers Markdown et classés par date.
Journal des mots-clésReconnaître un discours qui commence par un mot-clé spécifique et l'enregistrer dans un fichier Markdown thématique distinct.
Préservation d'enregistrements de haute qualitéLa version française du logiciel est disponible sur le site web de la Commission européenne : elle prend en charge l'enregistrement à 48000 échantillons et la sauvegarde au format MP3 avec FFmpeg.
Support multiplateformeIl est compatible avec les systèmes Windows, MacOS et Linux, répondant ainsi aux besoins de multiples scénarios.

Utiliser l'aide

Processus d'installation

CapsWriter-Offline est un logiciel open source que les utilisateurs doivent télécharger depuis GitHub et installer manuellement. Voici les étapes détaillées :

1. téléchargement de logiciels

Visitez la page GitHub.
Sélectionnez la version appropriée pour votre système dans la section "Releases" :
- Windows 10 et les systèmes 64 bits supérieurs: Télécharger CapsWriter-Offline-Windows-64bit.zip(côté serveur et côté client) et models.zip(fichier modèle).
- Windows 7 et les systèmes 32 bits supérieurs: Télécharger CapsWriter-Offline-Windows-32bit-Client.zip(Client uniquement, nécessité de se connecter à d'autres serveurs sur le réseau local).
- MacOS/LinuxVous devez compiler vous-même le code source ou vous référer à la version packagée fournie par la communauté.
Décompressez le fichier une fois le téléchargement terminé et placez le fichier models.zip Décompressez-le et placez-le dans le répertoire des logiciels sous models Dossier.

2. préparation à l'environnement

Utilisateur Windows: :
- Veillez à ce que votre système soit équipé de Windows 10 ou d'une version supérieure (requise du côté du serveur), avec au moins 4 Go de RAM (systèmes 64 bits).
- Si vous souhaitez enregistrer au format MP3, vous devez installer FFmpeg et configurer les variables d'environnement.
Utilisateurs de MacOS: :
- montage protobuf(en cours) brew install protobuf).
- Le client doit commencer par le sudo pour l'exécuter, le raccourci par défaut est Majuscule droite.
Utilisateurs de Linux: :
- montage xclip(en cours) sudo apt-get install xclip) pour prendre en charge la fonctionnalité du presse-papiers.

3. exécuter le logiciel

côté serveurDézippez et double-cliquez start_server.exe(Windows) ou exécutez core_server.py(nécessite Python 3.8-3.10 et ses dépendances). Le modèle est chargé au démarrage (il occupe environ 2 Go de mémoire et prend 50 secondes).
client (informatique)Double clic : Double clic start_client.exe(Windows) ou exécutez core_client.py(MacOS/Linux requis) sudo). Il écoute le microphone et les raccourcis par défaut lorsqu'il est lancé.

Principales fonctions

la saisie de texte à partir de la parole

Lancement du clientAprès avoir lancé le client, le logiciel écoute la touche CapsLock par défaut (Majuscule droite pour MacOS).
opération d'enregistrement: :
- Appuyez sur la touche CapsLock et maintenez-la enfoncée pour lancer l'enregistrement (les enregistrements de moins de 0,3 seconde sont ignorés).
- Après avoir relâché la touche, le logiciel convertit automatiquement la parole en texte et le saisit à la position actuelle du curseur.
Ajustement des paramètres: :
- existent config.py Modifier les touches de raccourci dans le fichier (shortcut), s'il faut coller la sortie (paste) et d'autres paramètres.
- Pour rétablir l'état de CapsLock, réglez le paramètre restore_key mis en place en tant que True.

Transcription audio et vidéo avec sous-titres

Préparer le documentLe client est en cours d'exécution et le serveur fonctionne correctement.
Glisser-déposer des fichiersFaites glisser les fichiers audio et vidéo (par exemple MP4, WAV) sur le disque dur de l'ordinateur. start_client.exe En haut.
Générer des sous-titresLe logiciel reconnaît automatiquement le contenu audio et génère un fichier SRT, qui est enregistré dans le même répertoire.
mise en gardeSi le fichier est volumineux, il est recommandé de vérifier au préalable l'espace mémoire et l'espace disque, le temps de reconnaissance étant lié à la longueur du fichier.

remplacement de mots chauds

Editer le fichier hotwordDans le répertoire du logiciel, trouvez le fichier hot-zh.txt(en chinois),hot-en.txt(en anglais),hot-rule.txt(règles personnalisées).
Ajouter un mot-clé: :
- Un mot chaud chinois par ligne (par exemple "intelligence artificielle"), basé sur la substitution du pinyin.
- Mots chauds en anglais, un par ligne (par exemple "AI"), basés sur des substitutions orthographiques.
- Les règles personnalisées sont séparées par un signe égal (par exemple, "milliampère heure = mAh").
Mode d'entrée en vigueurLe client charge dynamiquement les mots clés afin d'améliorer la reconnaissance terminologique.

Fonction agenda

Activation de l'agenda: Activé par défaut, chaque résultat d'enregistrement est sauvegardé dans la mémoire de l'ordinateur. 年份/月份/日期.md Documentation.
Préservation des enregistrementsLes fichiers audio sont déposés automatiquement 年份/月份/assets et prend en charge les formats WAV ou MP3.
Journal des mots-clés: :
- compilateur keywords.txtAjoutez un mot-clé (par exemple, "réunion") à chaque ligne.
- Lorsque la voix commence par un mot-clé, le résultat est enregistré séparément en tant que 年份/月份/关键词-日期.md.
Apurement des licenciementsLes fichiers audio non référencés par Markdown sont supprimés à l'aide du script Python inclus dans l'application.

Démonstration du déroulement des opérations

Scénario 1 : Saisie rapide de notes
Ouvrez le client -> maintenez la touche CapsLock enfoncée -> dites "réunion cet après-midi pour discuter de l'avancement du projet" -> relâchez la touche -> le texte est automatiquement saisi dans le document -> enregistrez comme fichier journal.
Scénario 2 : Vidéo vers sous-titres
Préparer le fichier MP4 -> Glisser vers le client -> Attendre le traitement (la progression est affichée dans le terminal) -> Vérifier le fichier SRT généré -> Importer vers le logiciel de montage vidéo pour utilisation.

mise en garde

Si le serveur n'est pas démarré, le client affichera une erreur de connexion, vous devez vous assurer que le serveur tourne sur le serveur 127.0.0.1:6016(adresse par défaut).
Les utilisateurs de MacOS devront autoriser les privilèges du microphone et pourront accéder au microphone à partir du terminal en tant qu'outil de communication. sudo Exécuter le client.
Un trop grand nombre de mots chauds peut augmenter le temps de latence de 3 ms/10 000 entrées, il est donc recommandé de rationaliser les mots les plus couramment utilisés.