Midscene.js:用AI驱动浏览器自动化测试的开源插件综合介绍 Midscene.js是一个由AI驱动的浏览器自动化工具,能够通过自然语言指令来控制网页、执行断言和提取数据。它支持Chrome扩展、JavaScript SDK和YAML脚本,简化了UI测...最新AI工具# AI开源项目# 桌面自动化智能体5个月前01.2K
视频分析工具(Video Analyzer):分析视频内容并生成详细描述综合介绍 视频分析工具(Video Analyzer)是一个综合性的视频分析工具,结合了计算机视觉、音频转录和自然语言处理技术,能够生成详细的视频内容描述。该工具通过提取视频中的关键帧,转录音频内容...最新AI工具# AI开源项目# 视觉目标检测4个月前01.4K
Unsloth:高效微调和训练大语言模型的开源工具综合介绍 Unsloth 是一个开源项目,旨在提供高效的微调和训练大语言模型(LLMs)的工具。该项目支持多种知名模型,包括 Llama、Mistral、Phi 和 Gemma 等。Unsloth 的...最新AI工具# AI开源项目# 大模型微调4个月前01.1K
MaxKB:开箱即用的AI知识库问答系统,适合智能客服和企业内部知识库综合介绍 MaxKB(Max Knowledge Base)是一款基于大语言模型和RAG(检索增强生成)的开源知识库问答系统。该系统广泛应用于智能客服、企业内部知识库、学术研究与教育等场景。MaxKB...最新AI工具# AI开源项目# 知识检索与RAG框架5个月前01.1K
OmniThink:生成高质量长文的写作框架,搜索外部知识后反思并逐步构建知识树综合介绍 OmniThink 是一个创新的机器写作框架,旨在通过模拟人类认知过程中的迭代扩展和反思,生成高质量的长篇文章。该框架专注于扩展知识边界,生成的信息丰富且具有深度。OmniThink 通过构...最新AI工具# AI写作# AI开源项目5个月前0948
OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)综合介绍 OpenAI Realtime Agents是一个开源项目,旨在展示如何利用OpenAI的实时API来构建多智能体的语音应用。它提供了高级的智能体模式(借鉴 OpenAI Swarm),允许...最新AI工具# AI开源项目# 多模态实时互动产品5个月前01.1K
DeepFace:实现面部年龄、性别、情绪、种族识别的轻量级Python库综合介绍 DeepFace是一个轻量级的面部识别和面部属性分析(包括年龄、性别、情绪和种族)的Python库。它集成了多种先进的面部识别模型,如VGG-Face、FaceNet、OpenFace、De...最新AI工具# AI开源项目5个月前01.4K
SynthLight:对肖像图像进行自然光照渲染(未发布)综合介绍 SynthLight 是一个基于扩散模型的肖像重光照工具。它通过学习重新渲染合成的人脸图像,实现对真实肖像照片的光照效果调整。该工具利用物理渲染引擎生成数据集,模拟不同光照条件下的光照转换...最新AI工具# AI图像风格控制# AI开源项目5个月前01.1K
1-2-1-MNVTON:高效图像、视频中人物虚拟试穿服装(待开放)综合介绍 1-2-1-MNVTON是一个基于GitHub的开源项目,旨在通过“Modality-specific Normalization for Virtual Try-On”(MNVTON)技术...最新AI工具# AI开源项目# AI换脸与换装5个月前01.1K
Kokoro-ONNX:高效文本转语音工具,支持多语言和多声音选择综合介绍 Kokoro-ONNX是一个基于ONNX runtime的开源文本转语音(TTS)工具。该项目由thewh1teagle开发,旨在提供高效、快速的语音合成解决方案。Kokoro-ONNX支持...最新AI工具# AI开源项目# AI文本转语音5个月前01.2K
Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR综合介绍 Zerox是一个开源项目,旨在通过视觉模型将PDF、DOCX、图像等文件转换为Markdown格式。该项目由getomni-ai团队开发,提供了简单高效的OCR(光学字符识别)解决方案。Ze...最新AI工具# AI开源项目# 文档提取与清洗5个月前01.1K
Charla:基于终端的极简AI聊天工具,本地集成Ollama后端综合介绍 Charla 是一个基于终端的聊天应用程序,旨在与本地语言模型进行对话。该应用程序集成了 Ollama 后端,支持上下文感知的对话,并将聊天会话保存为 Markdown 文件。用户可以通过简...最新AI工具# AI开源项目# AI本地化聊天应用5个月前01.2K
MiniRAG:简化检索增强生成框架,实体图索引召回相关文本块综合介绍 MiniRAG是一个极其简单的检索增强生成(RAG)框架,旨在通过异构图索引和轻量级拓扑增强检索,使小模型也能实现良好的RAG性能。该项目由香港大学数据科学实验室(HKUDS)开发,主要解决...最新AI工具# AI开源项目# 知识图谱# 知识检索与RAG框架5个月前01.1K
Omni-RGPT:图像和视频区域级理解多模态大模型,提升视觉内容分析能力综合介绍 Omni-RGPT 是一个多模态大语言模型,旨在实现图像和视频的区域级理解。通过引入 Token Mark 技术,Omni-RGPT 能够在视觉特征空间内高亮目标区域,并通过区域提示(如框或...最新AI工具# AI开源项目5个月前0883
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流综合介绍 百聆(Bailing)是一个开源的语音对话助手,旨在通过语音与用户进行自然的对话。该项目结合了语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术,实现了...最新AI工具# AI开源项目# 多模态实时互动产品5个月前01.1K
元界AI:开源版AI数字人克隆与短视频生成工具综合介绍 元界AI(开源版)是一个托管在 GitHub 上的项目,,由 libn-net 团队开发。它能通过 AI 技术克隆数字人形象和声音,生成短视频,还支持配音和字幕制作。这个工具提供 Windo...最新AI工具# AI副业赚钱项目# AI开源项目# AI数字人3个月前0520
WikiChat:使用维基百科数据检索知识的聊天工具综合介绍 WikiChat是由斯坦福大学开发的一款实验性聊天机器人,旨在通过从维基百科检索数据来提高大语言模型的事实性。大语言模型(如ChatGPT和GPT-4)在处理最新信息或不太流行的话题时,往往...最新AI工具# AI开源项目# 知识检索与RAG框架5个月前0981
OpenAI Edge TTS:利用 Edge TTS 的免费文本转语音API,兼容 OpenAI 格式综合介绍 OpenAI Edge TTS 是一个开源项目,提供与 OpenAI 兼容的本地文本转语音(TTS)API。该项目使用 Microsoft Edge 的在线文本转语音服务,允许用户生成高质量...最新AI工具# AI开源项目# AI文本转语音5个月前01.4K
AIEvo:创建多智能体协作应用的高效框架综合介绍 AIEvo是蚂蚁集团开源的多代理框架,旨在高效创建多代理应用。该框架严格遵循SOP任务图,提升复杂任务的执行成功率,并通过反馈和监控机制确保高灵活性和可扩展性。AIEvo已在蚂蚁集团内部生产...最新AI工具# AI开源项目# 智能体开发框架5个月前0968