BiliNote : l'outil d'IA qui génère automatiquement des notes en Markdown à partir de vidéos

Derniers outils d'IAPosté il y a 3 mois Sharenet.ai

541 0

Introduction générale

BiliNote est un outil de prise de notes vidéo IA open source qui prend en charge l'extraction du contenu de BiliBili et des liens vidéo YouTube pour générer automatiquement des notes clairement structurées au format Markdown. Il utilise la transcription audio locale et une variété de grands modèles (tels que OpenAI, DeepSeek, Qwen) pour le résumé du contenu, la prise en charge de l'insertion de captures d'écran vidéo et de liens de saut d'horodatage. Le projet est hébergé sur GitHub sous la licence MIT et est disponible sous forme de déploiement Docker et de package Windows pour les étudiants, les créateurs et les chercheurs afin d'organiser le matériel pour l'étude ou le travail. L'expérience en ligne officielle est déployée sur les pages Cloudflare, dont l'accès peut être lent en raison des conditions du réseau.

Liste des fonctions

Extrait automatiquement le contenu des liens vidéo Beep et YouTube pour générer des notes en Markdown.
Transcription audio native utilisant le modèle Fast-Whisper avec prise en charge de la confidentialité.
Prise en charge d'OpenAI, de DeepSeek, de Qwen et d'autres grands modèles pour résumer le contenu principal de la vidéo.
Insertion facultative de captures d'écran d'images clés vidéo pour améliorer la visualisation des notes.
Générer des notes horodatées avec la possibilité de sauter à l'instant correspondant de la vidéo d'origine.
La fonction d'enregistrement des tâches permet de consulter l'historique des notes pour générer des enregistrements.
Prise en charge du déploiement Docker en un clic pour simplifier les installations locales ou dans le cloud.
Une version packagée (fichier exe) est disponible pour Windows et ne nécessite pas de configuration complexe pour être utilisée.
Il est prévu de prendre en charge d'autres plateformes vidéo telles que Jitterbug et Shutterbug.

Utiliser l'aide

Installation et déploiement

BiliNote propose trois façons de l'utiliser : déploiement manuel, déploiement Docker et version packagée Windows. Voici les étapes détaillées :

Déploiement manuel

Clonage du code du projet
Exécutez la commande suivante pour obtenir le code source :

git clone https://github.com/JefferyHcool/BiliNote.git
cd BiliNote
mv .env.example .env

Installer FFmpeg
BiliNote s'appuie sur FFmpeg pour le traitement audio et doit être installé :
- Mac: Run brew install ffmpeg
- Ubuntu/Debian: Run sudo apt install ffmpeg
- Windows (ordinateur)Téléchargez et installez FFmpeg depuis le site officiel de FFmpeg et assurez-vous que le chemin d'accès à l'exécutable FFmpeg est ajouté à la variable d'environnement PATH.

Configuration du backend
Allez dans le répertoire du backend, installez les dépendances et démarrez le service :

cd backend
pip install -r requirements.txt
python main.py

compilateur .env pour configurer la clé et le port de l'API, par exemple :

API_BASE_URL=http://localhost:8000
OUT_DIR=note_results
IMAGE_BASE_URL=/static/screenshots
MODEL_PROVIDER=openai
OPENAI_API_KEY=sk-xxxxxx
DEEP_SEEK_API_KEY=xxx
QWEN_API_KEY=xxx

Configuration de la partie frontale
Allez dans le répertoire front-end, installez les dépendances et démarrez le service :
```
cd BiliNote_frontend
pnpm install
pnpm dev
```
entretiens http://localhost:5173 Visualiser l'interface frontale.
Transcription audio optimisée (en option)
Si vous utilisez un GPU NVIDIA, vous pouvez activer la version accélérée par CUDA de Fast-Whisper. Projet Fast-Whisper Configuration.

Déploiement Docker

S'assurer que Docker et Docker Compose sont installés
Reportez-vous au site web de Docker pour l'installation.

Cloner et configurer le projet

git clone https://github.com/JefferyHcool/BiliNote.git
cd BiliNote
mv .env.example .env

Démarrage des services
Exécutez la commande suivante pour construire et démarrer le conteneur :
```
docker compose up --build
```
Le port par défaut est le port frontal http://localhost:${FRONTEND_PORT} et le back-end http://localhost:${BACKEND_PORT}Voici un exemple du type de données que l'on peut trouver dans la rubrique .env personnalisé dans le dossier.

Emballage Windows

Télécharger le fichier exe
Visitez la page GitHub Release pour télécharger le paquetage Windows (fichier exe).
programme de course
Double-cliquez sur le fichier exe pour démarrer, pas besoin d'installer FFmpeg ou de configurer les variables d'environnement manuellement. La première fois que vous le lancez, vous devez entrer la clé API.
Configuration des clés API
Saisissez la clé API pour OpenAI, DeepSeek ou Qwen dans l'interface du programme, enregistrez-la et utilisez-la.

Étapes d'utilisation

Visitez BiliNote
- Déploiement local : ouvrez un navigateur et visitez http://localhost:5173.
- Expérience en ligne : visitez https://www.bilinote.app(peut-être en raison de la lenteur du chargement des pages Cloudflare).
- Version packagée de Windows : Double-cliquez sur le fichier exe pour démarrer le programme.
Saisir le lien vidéo
Saisissez dans l'interface un lien vers une vidéo Bleep ou YouTube accessible au public, par exemple https://www.bilibili.com/video/xxxCliquez sur "Submit" pour commencer la procédure. Cliquez sur "Soumettre" pour commencer la procédure.
Options de génération de configuration
- Modèle d'IALes services de résumé de contenu : Choisissez OpenAI, DeepSeek ou Qwen pour le résumé de contenu.
- Insertion de captures d'écran: Cochez si vous souhaitez insérer automatiquement des captures d'écran vidéo.
- sauter le lien: Choisir de générer ou non un lien de saut avec un horodatage.
- style de prise de notesLes modes d'extraction : Choisissez entre le style académique, le style parlé ou le mode d'extraction ciblé (certains styles sont sujets à des mises à jour ultérieures).
Générer des notes
Après avoir cliqué sur "Générer", BiliNote télécharge la vidéo audio, la transcrit en texte à l'aide de Fast-Whisper et génère des notes en Markdown à l'aide du macromodèle sélectionné. Le temps de génération dépend de la longueur de la vidéo et des performances du matériel.
Visualisation et exportation des notes
- Les notes sont affichées au format Markdown avec des titres, des paragraphes, des horodatages et des captures d'écran (si l'option est activée).
- Cliquez sur l'horodatage pour passer à l'instant correspondant de la vidéo originale.
- Prise en charge de l'exportation vers des fichiers Markdown, avec des plans futurs pour prendre en charge PDF, Word et Notion Format.
- Les notes historiques peuvent être consultées sur l'écran Historique des tâches, avec la possibilité de les visualiser et de les modifier.

Fonction en vedette Fonctionnement

Transcription audio nativeLes modèles Fast-Whisper sont exécutés localement pour protéger la confidentialité des données. Prise en charge de l'accélération CUDA pour une transcription plus rapide.
Prise en charge de plusieurs modèlesLes vidéos en chinois sont plus faciles à lire avec Qwen que les vidéos en anglais (par exemple, Qwen est meilleur pour les vidéos en chinois).
Insertion de captures d'écranLes images clés vidéo sont automatiquement interceptées et insérées dans les positions correspondantes des notes afin d'améliorer la lisibilité.
Historique de la missionChaque tâche générée est automatiquement enregistrée en vue d'une révision ou d'une modification ultérieure.
Emballage WindowsLes utilisateurs non techniques peuvent bénéficier d'une expérience prête à l'emploi et le processus d'installation est simplifié.

mise en garde

Les liens vidéo doivent être accessibles au public ; les vidéos privées ne peuvent pas être traitées.
La fonction de résumé de contenu doit être configurée avec une clé API valide (OpenAI, DeepSeek ou Qwen).
FFmpeg doit être installé correctement (sauf pour les paquets Windows).
L'expérience en ligne peut se charger lentement en raison des limitations des pages Cloudflare. Nous recommandons donc un déploiement local ou l'utilisation de la version Windows.
Assurer la stabilité du réseau pour éviter les téléchargements audio ou les échecs d'appels API.

scénario d'application

Les étudiants organisent leurs notes pour les cours en ligne
Les étudiants peuvent prendre des notes en Markdown à partir de vidéos Beep ou YouTube, en extrayant les points clés et les horodatages pour faciliter la révision et l'orientation.
Les créateurs de contenu rassemblent le matériel
Les créateurs peuvent extraire des scripts vidéo ou des informations clés afin de générer des notes avec des captures d'écran pour la curation de contenu ou la rédaction.
Archivage du contenu de la formation en entreprise
Les entreprises peuvent transformer les vidéos de formation en notes structurées que les employés peuvent revoir ou archiver, ce qui améliore l'efficacité de l'apprentissage.
Des chercheurs rassemblent des conférences universitaires
Les chercheurs peuvent transformer les vidéos de conférences universitaires en notes, extraire les idées et les données essentielles et constituer une base de connaissances.
Gestion des connaissances personnelles
Les utilisateurs peuvent transformer les vidéos qui les intéressent (par exemple, les tutoriels, les podcasts) en notes et les enregistrer dans leur base de connaissances personnelle pour y accéder à tout moment.

QA

Quelles sont les plateformes vidéo supportées par BiliNote ?
Actuellement, il prend en charge Beili et YouTube et, à l'avenir, il prévoit de prendre en charge Jieyin et Qunjie.
Quelle est la différence entre une version packagée de Windows et un déploiement local ?
La version packagée pour Windows élimine la nécessité d'installer manuellement FFmpeg ou de configurer l'environnement pour les utilisateurs non techniques. Le déploiement local est plus souple, avec la prise en charge de configurations personnalisées et de l'accélération GPU.
Comment puis-je augmenter la vitesse de la transcription audio ?
Pour une version accélérée par CUDA utilisant un périphérique GPU NVIDIA avec Fast-Whisper activé, reportez-vous au projet Fast-Whisper.
Dois-je utiliser une clé API payante ?
La fonction de résumé de contenu nécessite une clé API pour OpenAI, DeepSeek ou Qwen (des frais peuvent s'appliquer). La transcription audio peut être effectuée localement gratuitement.
Pourquoi la version de l'expérience en ligne se charge-t-elle lentement ?
La version en ligne est déployée sur les pages Cloudflare et est soumise aux limitations du réseau et du serveur. Il est recommandé de la déployer localement ou de l'utiliser sous Windows.