AnyText:生成和编辑多语言图像文本,高可控在图像中生成多行中文

AnyText : génère et édite du texte multilingue dans l'image, avec la possibilité de générer plusieurs lignes de chinois dans l'image.

综合介绍 AnyText是一个革命性的多语言视觉文本生成和编辑工具,基于扩散模型开发。它能够在图像中生成自然、高质量的多语种文本,并支持灵活的文本编辑功能。该项目由研究团队开发,并在ICLR 2024...
Il y a 6 mois
01.1K
AI Dev Gallery:Windows本地AI模型开发工具集,端侧模型集成到Windows应用

AI Dev Gallery : Windows Native AI Model Development Toolset, End-Side Model Integration into Windows Applications (en anglais)

Introduction générale AI Dev Gallery est une application d'outils de développement d'IA de Microsoft (actuellement en avant-première publique) conçue pour les développeurs Windows. Elle fournit une plateforme complète pour aider les développeurs à intégrer facilement des fonctionnalités d'IA dans leurs...
Il y a 6 mois
01.1K
Copilot后端代理服务:用其他模型接管GitHub Copilot插件服务端

Copilot backend proxy service : reprendre le serveur de plugin GitHub Copilot avec d'autres modèles

Introduction générale Le Copilot Backend Agent Service est un projet open source conçu pour gérer le serveur de plugins GitHub Copilot en s'appuyant sur d'autres modèles FIM tels que DeepSeek, tout en prenant en charge plusieurs personnes partageant des comptes officiels. Le service supporte une variété d'IDE, y compris V...
Il y a 6 mois
01.1K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结

AI2SRT : Création de courtes vidéos narrées ou de résumés vidéo pour de longues vidéos en un clic à l'aide des modèles Gemini

综合介绍 AI2SRT是一个开源项目,利用GeminiAI大模型,为长视频一键生成解说短视频和视频总结,同时支持音视频转录字幕。该项目旨在简化视频内容创作过程,提供高效的字幕生成和翻译功能。用户可以通...
Il y a 6 mois
01.2K
Agent.exe:让AI直接控制你的电脑,Claude控制计算机的开源实现

Agent.exe : Laissez l'IA contrôler directement votre ordinateur, une implémentation open source de l'ordinateur de contrôle de Claude.

Description générale Agent.exe est une application Electron open source qui utilise l'API Sonnet Claude 3.5 d'Anthropic pour permettre aux utilisateurs de contrôler leurs ordinateurs locaux directement par le biais de l'IA. Le projet a été développé par K...
Il y a 6 mois
01.7K
AppAgent:利用多模态智能体自动操作智能手机

AppAgent : utilisation automatisée d'un smartphone à l'aide d'intelligences multimodales

Introduction complète AppAgent est un agent multimodal basé sur le modèle du grand langage (LLM) conçu pour manipuler les applications de smartphones. Le cadre imite les interactions humaines telles que les taps et les swipes à travers un espace de manipulation simplifié, éliminant ainsi le besoin d'un accès au système back-end et étendant son utilisation à travers différentes applications...
Il y a 6 mois
01.2K