multi-model-bolt.new:基于 Bolt.new 的开源修改版,AI驱动的全栈开发工具综合介绍 multi-model-bolt.new 是一个基于 Bolt.new 的修改版本,允许使用 TogetherAI 模型,支持部署、移动响应和语音输入等功能。用户可以直接在浏览器中提示、运行...最新AI工具# AI IDE# AI开源项目# AI编程6个月前01.6K
Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现综合介绍 Ultravox是一个创新的多模态大语言模型(LLM),专为实时语音处理而设计。与传统的语音识别系统不同,Ultravox无需单独的音频语音识别(ASR)阶段,能够直接将音频转换为高维空间中...最新AI工具# AI大模型原生对话工具# AI开源项目6个月前01.3K
Easy-Wav2Lip:高质量视频唇同步的工具,优化版Wav2Lip综合介绍 Easy-Wav2Lip 是一个基于 Wav2Lip 的改进工具,旨在简化视频唇同步的过程。该工具提供了更简单的设置和执行方式,支持 Google Colab 和本地安装。通过优化算法,Ea...最新AI工具# AI开源项目# 口型同步6个月前01.5K
DreamTalk:使用一张头像图片即可生成表情丰富的说话视频DreamTalk 综合介绍 DreamTalk是一个扩散模型驱动的表情说话头生成框架,由清华大学、阿里巴巴集团和华中科技大学联合开发。主要由降噪网络、风格感知嘴唇专家和风格预测器三部分构成,能够基于...最新AI工具# AI开源项目# AI数字人# 口型同步6个月前01.5K
MuseV+Muse Talk:完整数字人视频生成框架|人像转视频|姿态转视频|唇形同步综合介绍 MuseV是一个GitHub上的公共项目,旨在实现无限长度和高保真度的虚拟人视频生成。它基于扩散技术,并提供了Image2Video、Text2Image2Video、Video2Video...最新AI工具# AI开源项目# AI数字人# 口型同步6个月前01.6K
VideoReTalking:音频驱动的嘴唇同步和视频编辑系统综合介绍 VideoReTalking是一款创新的系统,允许用户根据输入音频生成唇形同步的面部视频,即使有不同的情绪,也能产生高质量且嘴唇同步的输出视频。系统将这一目标分解为三个连续任务:带有典型表情...最新AI工具# AI开源项目# 口型同步6个月前01.3K
AgentClientDemo:演示智能体运行过程的Python客户端,提供直观的图形用户界面综合介绍 AgentClientDemo 是一个集成了智能体(Agent)和客户端(Client)功能的综合性 Python 项目。该项目基于 PyQt 框架开发,提供了一个直观易用的图形用户界面(G...最新AI工具# AI开源项目# 智能体开发框架6个月前0967
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务综合介绍 Chunkr 是一个自托管的 API,专门用于将 PDF、PPTX、DOCX 和 Excel 文件转换为适合 RAG(检索增强生成)和 LLM(大语言模型)使用的数据。该项目由 Lumina...最新AI工具# AI开源项目# OCR# 文档提取与清洗6个月前01.2K
GitIngest:快速将Github代码仓库转为适合LLM理解的文本综合介绍 GitIngest 是一个开源工具,旨在将 GitHub 代码库转化为适合大语言模型(LLM)提示的文本。通过简单的操作,用户可以将任何 GitHub 仓库的内容提取并格式化为适合 LLM ...最新AI工具# AI开源项目# 文档提取与清洗6个月前01.8K
CodeArena:开源LLM编程能力对比竞技场,实时查看最佳代码生成模型综合介绍 CodeArena 是一个独特的平台,旨在通过实时对决展示最佳开源代码生成模型(LLM)。用户可以观看不同的LLM在相同的编程任务中竞争,并通过实时排行榜查看表现最佳的模型。该平台利用Tog...最新AI工具# AI开源项目6个月前01.2K
NSFW Detector:检测文件是否包含不适(NSFW)内容,保护数据安全综合介绍 NSFW Detector 是一个基于 AI 的不适内容检测工具,主要用于检测图像、视频、PDF 文件等是否包含不适内容。该工具采用了 Falconsai/nsfwimagedetectio...最新AI工具# AI图像生成辅助工具# AI开源项目6个月前01.4K
ChatFree(ChatAnywhere-2):使用GPT API创建的本地Copilot,支持任意窗口中补全对话综合介绍 ChatFree是一个开源项目,旨在让用户的AI应用摆脱浏览器的束缚,实现本地化运行。利用GPT API创建的Copilot,旨在支持多种办公软件如Office、Word、WPS等。该项目由...最新AI工具# AI开源项目# AI本地化聊天应用6个月前0957
Sketch-Gen:生成高质量线稿和草图,反推图像提示词,一键安装包综合介绍 Sketch-Gen 是一个基于 AI 技术的线稿和草图生成工具,旨在帮助艺术家和设计师快速生成高质量的线稿和草图。该工具由 Paints-UNDO 项目衍生而来,利用先进的机器学习模型,能...最新AI工具# AI图像生成辅助工具# AI开源项目6个月前01.2K
PydanticAI:使用Pydantic构建生成式AI应用,让构建生产级AI应用更加简单综合介绍 PydanticAI是一个基于Pydantic的Python代理框架,旨在简化生成式AI应用的开发。它由Pydantic团队开发,支持多种模型(如OpenAI、Gemini、Groq等),并...最新AI工具# AI开源项目6个月前01.6K
Steel Browser:自动化网页浏览器API,构建控制浏览器操作的智能体与应用综合介绍 Steel Browser是一个开源的浏览器API,专为AI代理和应用程序设计。它提供了一个完整的浏览器实例,允许用户在不需要担心基础设施的情况下自动化网页操作。Steel Browser支...最新AI工具# AI开源项目6个月前01.3K
E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一综合介绍 E2M(Everything to Markdown)是一个开源的Python库,旨在将多种文件格式转换为Markdown格式。该工具支持包括doc、docx、epub、html、htm、u...最新AI工具# AI开源项目# 文档提取与清洗6个月前01.1K
Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库综合介绍 Llama OCR 是一个基于 Llama 3.2 Vision 的 OCR(光学字符识别)库,能够将文档转换为 Markdown 格式。该库由 Nutlope 开发,使用 Together...最新AI工具# AI开源项目# OCR# 免费大模型API6个月前01.3K
Director:智能视频代理框架,用自然语言描述执行视频搜索、编辑和生成工作流综合介绍 Director 是一个开源框架,旨在通过构建智能视频代理来简化和优化视频交互和工作流程。该框架基于 VideoDB 的“视频即数据”基础设施,能够处理复杂的视频任务,如搜索、编辑、编译和生...最新AI工具# AI开源项目# AI音视频编辑6个月前01K
Knowledge Graph Studio(WhyHow):创建和管理知识图谱的开源平台,RAG应用原生支持综合介绍 知识图谱工作室(Knowledge Graph Studio)是一个开源平台,旨在简化创建和管理RAG-native知识图谱的过程。该平台提供了基于规则的实体解析、模块化图谱构建、灵活的数据...最新AI工具# AI开源项目# 知识图谱6个月前01.3K