AI开源项目 | 第44页

순서대로 정렬

post 업데이트 훑어보기 kudos

multi-model-bolt.new：基于 Bolt.new 的开源修改版，AI驱动的全栈开发工具

综合介绍 multi-model-bolt.new 是一个基于 Bolt.new 的修改版本，允许使用 TogetherAI 模型，支持部署、移动响应和语音输入等功能。用户可以直接在浏览器中提示、运行...

6개월 전

01.6K

Ultravox：实时端到端语音对话的音频多模态大模型，GPT-4o语音交互的开源实现

울트라박스: 실시간 엔드투엔드 음성 대화를 위한 오디오 멀티모달 매크로 모델, GPT-4o 음성 상호작용의 오픈 소스 구현

综合介绍 Ultravox是一个创新的多模态大语言模型（LLM），专为实时语音处理而设计。与传统的语音识别系统不同，Ultravox无需单独的音频语音识别（ASR）阶段，能够直接将音频转换为高维空间中...

6개월 전

01.3K

Easy-Wav2Lip：高质量视频唇同步的工具，优化版Wav2Lip

综合介绍 Easy-Wav2Lip 是一个基于 Wav2Lip 的改进工具，旨在简化视频唇同步的过程。该工具提供了更简单的设置和执行方式，支持 Google Colab 和本地安装。通过优化算法，Ea...

최신 AI 도구 # AI 자바 오픈 소스 프로젝트 # 포트 동기화

6개월 전

01.5K

DreamTalk：使用一张头像图片即可生成表情丰富的说话视频

DreamTalk 综合介绍 DreamTalk是一个扩散模型驱动的表情说话头生成框架，由清华大学、阿里巴巴集团和华中科技大学联合开发。主要由降噪网络、风格感知嘴唇专家和风格预测器三部分构成，能够基于...

6개월 전

01.5K

MuseV+Muse Talk：完整数字人视频生成框架|人像转视频|姿态转视频|唇形同步

综合介绍 MuseV是一个GitHub上的公共项目，旨在实现无限长度和高保真度的虚拟人视频生成。它基于扩散技术，并提供了Image2Video、Text2Image2Video、Video2Video...

6개월 전

01.6K

VideoReTalking：音频驱动的嘴唇同步和视频编辑系统

综合介绍 VideoReTalking是一款创新的系统，允许用户根据输入音频生成唇形同步的面部视频，即使有不同的情绪，也能产生高质量且嘴唇同步的输出视频。系统将这一目标分解为三个连续任务：带有典型表情...

최신 AI 도구 # AI 자바 오픈 소스 프로젝트 # 포트 동기화

6개월 전

01.3K

AgentClientDemo：演示智能体运行过程的Python客户端，提供直观的图形用户界面

综合介绍 AgentClientDemo 是一个集成了智能体（Agent）和客户端（Client）功能的综合性 Python 项目。该项目基于 PyQt 框架开发，提供了一个直观易用的图形用户界面（G...

6개월 전

0967

Chunkr: 시각적 모델을 사용해 문서를 수집하고 텍스트 단락 계층 구조를 기반으로 지능형 청킹을 수행하는 올인원 서비스입니다.

综合介绍 Chunkr 是一个自托管的 API，专门用于将 PDF、PPTX、DOCX 和 Excel 文件转换为适合 RAG（检索增强生成）和 LLM（大语言模型）使用的数据。该项目由 Lumina...

6개월 전

01.2K

GitIngest: 깃허브 코드 리포지토리를 LLM 이해에 적합한 텍스트로 빠르게 변환하기

综合介绍 GitIngest 是一个开源工具，旨在将 GitHub 代码库转化为适合大语言模型（LLM）提示的文本。通过简单的操作，用户可以将任何 GitHub 仓库的内容提取并格式化为适合 LLM ...

6개월 전

01.8K

CodeArena: 오픈 소스 LLM 프로그래밍 기능 비교 아레나, 최고의 코드 생성 모델에 대한 실시간 보기

综合介绍 CodeArena 是一个独特的平台，旨在通过实时对决展示最佳开源代码生成模型（LLM）。用户可以观看不同的LLM在相同的编程任务中竞争，并通过实时排行榜查看表现最佳的模型。该平台利用Tog...

최신 AI 도구 # AI 자바 오픈 소스 프로젝트

6개월 전

01.2K

NSFW 탐지기: 데이터 보안을 보호하기 위해 파일에 NSFW 콘텐츠가 포함되어 있는지 감지합니다.

综合介绍 NSFW Detector 是一个基于 AI 的不适内容检测工具，主要用于检测图像、视频、PDF 文件等是否包含不适内容。该工具采用了 Falconsai/nsfwimagedetectio...

6개월 전

01.4K

ChatFree（ChatAnywhere-2）：使用GPT API创建的本地Copilot，支持任意窗口中补全对话

ChatFree(ChatAnywhere-2): 모든 창에서 대화를 완료할 수 있도록 지원하는 GPT API를 사용하여 만든 네이티브 코파일럿입니다.

综合介绍 ChatFree是一个开源项目，旨在让用户的AI应用摆脱浏览器的束缚，实现本地化运行。利用GPT API创建的Copilot，旨在支持多种办公软件如Office、Word、WPS等。该项目由...

6개월 전

0958

Sketch-Gen: 고품질 선화 및 스케치 생성, 이미지 단서 단어 역전파, 원클릭 패키지 설치

综合介绍 Sketch-Gen 是一个基于 AI 技术的线稿和草图生成工具，旨在帮助艺术家和设计师快速生成高质量的线稿和草图。该工具由 Paints-UNDO 项目衍生而来，利用先进的机器学习模型，能...

6개월 전

01.2K

PydanticAI：使用Pydantic构建生成式AI应用，让构建生产级AI应用更加简单

PydanticAI: Pydantic으로 제너레이티브 AI 앱을 구축하면 프로덕션급 AI 앱을 더 쉽게 구축할 수 있습니다.

综合介绍 PydanticAI是一个基于Pydantic的Python代理框架，旨在简化生成式AI应用的开发。它由Pydantic团队开发，支持多种模型（如OpenAI、Gemini、Groq等），并...

최신 AI 도구 # AI 자바 오픈 소스 프로젝트

6개월 전

01.6K

Steel Browser：自动化网页浏览器API，构建控制浏览器操作的智能体与应用

综合介绍 Steel Browser是一个开源的浏览器API，专为AI代理和应用程序设计。它提供了一个完整的浏览器实例，允许用户在不需要担心基础设施的情况下自动化网页操作。Steel Browser支...

최신 AI 도구 # AI 자바 오픈 소스 프로젝트

6개월 전

01.3K

E2M: 여러 파일 형식을 마크다운으로 변환하고, 균일한 문서 서식을 쉽게 달성하세요.

일반 소개 E2M(Everything to Markdown)은 다양한 파일 형식을 마크다운 형식으로 변환하도록 설계된 오픈 소스 Python 라이브러리입니다. 이 도구는 doc, docx, epub, html, htm, u... 등의 형식을 지원합니다.

6개월 전

01.1K

Llama OCR：利用免费Llama 3.2 Vision接口，三行代码将图像转换为Markdown的OCR库

综合介绍 Llama OCR 是一个基于 Llama 3.2 Vision 的 OCR（光学字符识别）库，能够将文档转换为 Markdown 格式。该库由 Nutlope 开发，使用 Together...

6개월 전

01.3K

Director：智能视频代理框架，用自然语言描述执行视频搜索、编辑和生成工作流

综合介绍 Director 是一个开源框架，旨在通过构建智能视频代理来简化和优化视频交互和工作流程。该框架基于 VideoDB 的“视频即数据”基础设施，能够处理复杂的视频任务，如搜索、编辑、编译和生...

6개월 전

01K

Knowledge Graph Studio（WhyHow）：创建和管理知识图谱的开源平台，RAG应用原生支持

综合介绍知识图谱工作室（Knowledge Graph Studio）是一个开源平台，旨在简化创建和管理RAG-native知识图谱的过程。该平台提供了基于规则的实体解析、模块化图谱构建、灵活的数据...

최신 AI 도구 # AI 자바 오픈 소스 프로젝트 # 지식 그래프

6개월 전

01.3K

AI 오픈 소스 프로젝트