百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

Bailing:自然な会話とコミュニケーションのための低遅延オープンソース音声対話アシスタント

包括的な紹介 ベイリング(Bailing)は、音声を通じてユーザーと自然な対話を行うように設計されたオープンソースの音声対話アシスタントです。このプロジェクトは、音声認識(ASR)、音声活動検出(VAD)、大規模言語モデリング(LLM)および音声合成(TTS)技術を組み合わせて...
6ヶ月前
01.4K
RapBank:根据歌词和伴奏直接生成说唱(Rap)人声的模型(目前开放了数据集)

RapBank: 歌詞とバッキングトラックからラップ(Rap)ボーカルを直接生成するモデル(現在オープンデータセット)

综合介绍 RapBank 是一个专为说唱歌词生成而设计的数据集和工具集。该项目由 NZqian 创建,旨在通过收集和处理来自 YouTube 的说唱歌曲,为研究人员和开发者提供一个高质量的说唱歌词数据...
8ヶ月前
01.4K
FunClip:智能剪辑视频内容为短片,轻松实现精准视频片段提取/裁剪

FunClip:ビデオコンテンツをショートフィルムにインテリジェントに編集。

総合紹介 FunClipは、アリババ達磨研究所のTONGYI Speech Labによって開発された、完全オープンソースのローカライズされた自動ビデオ編集ツールです。このツールは、産業グレードのParaformer-Large音声認識モデルを統合し、ビデオ内の音声を正確に識別することができます...
7ヶ月前
01.4K
Qwen-Agent:基于Qwen的智能代理应用框架,包括工具调用、代码解释器、RAG和Chrome扩展。

Qwen-Agent: ツールコール、コードインタプリタ、RAG、Chrome拡張機能を含む、インテリジェントエージェントアプリケーションのためのQwenベースのフレームワーク。

包括的な紹介 Qwen-Agent は、Qwen 2.0 以降をベースに開発されたインテリジェントエージェントアプリケーションフレームワークで、コマンドフォロー、ツール使用、プランニング、メモリなどの機能を備えています。このフレームワークは、ブラウザアシスタント、コードインタプリタ、カスタムアシスタントのような様々なサンプルアプリケーションを提供します。
8ヶ月前
01.4K
NGCBot:新闻推送、AI对话与群聊管理的微信机器人

NGCBot:ニュースプッシュ、AI対話、グループチャット管理のためのWeChatボット

包括的な紹介 NGCBotはWeChatロボットオープンソースプロジェクトの開発に基づくHOOKメカニズムであり、開発者ngc660sec(Yunshan/eXM)によって作成され、GitHub上でホストされている 反復の2年後、V2.3の現在のバージョンは、最初のシンプルな機能から...
5ヶ月前
01.4K
XiaoYuanKouSuan_Auto:小猿口算自动答题工具,高效解决口算题目

XiaoYuanKouSuan_Auto:XiaoYuanKouSuan自動質疑応答ツール、効率的に口頭算数の問題を解く

包括的な紹介 Ape Mouth Calculator Automatic Question Answer Toolは、OCR認識と自動化スクリプトによってApe Mouth Calculatorアプリケーションの問題を効率的に解くために設計されたPythonベースのオープンソースプロジェクトです。このツールはOpenCVやTesseractなどの技術を利用し、画面上の問題をリアルタイムで識別することができます...
10ヶ月前
01.4K
Data Formulator:AI驱动的数据可视化工具

Data Formulator:AIによるデータ可視化ツール

概論 Data Formulator は Microsoft Research によって開発されたオープンソースのAI駆動型データ可視化ツールである。このツールは、グラフィカル・ユーザー・インターフェース (GUI) と自然言語入力 (NL) を組み合わせたもので、ユーザーは簡単なインタラクションやコマンドによって、素早くデータを作成し、反復することができます。
6ヶ月前
01.4K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

CogAgent: Smart Spectrumのグラフィカル・インターフェース自動化のためのオープンソースのインテリジェント視覚言語モデル

综合介绍 CogAgent是由清华大学数据挖掘研究组(THUDM)开发的开源视觉语言模型,旨在实现跨平台的图形用户界面(GUI)自动化操作。该模型基于CogVLM(GLM-4V-9B),支持中英文双语...
7ヶ月前
01.4K
OASIS:多智能体模拟数百万用户社交媒体互动,研究复杂社会现象
Orama:高性能全文本和向量搜索引擎

Orama:高性能な書籍・ベクトル全文検索エンジン

概説 Oramaはオープンソースの高性能検索エンジンで、すべてTypeScriptで記述されており、全文検索、ベクトル検索、ハイブリッド検索をサポートしている。OramaはあらゆるJavaScript実行環境で動作するように設計されており、高速で信頼性の高い検索を提供する。
6ヶ月前
01.4K
xyks:小猿口算逆向笔记,逆向工程与解密算法

xyks:小型猿口計算リバースノート、リバースエンジニアリング、復号アルゴリズム

包括的な紹介 猿の口計算機リバースノートは、猿の口計算機アプリケーションのリバースエンジニアリングのプロセスと方法を文書化し、共有することを目的としたオープンソースプロジェクトです。このプロジェクトには、Fridaやdexdumpなどの命令を使用するための様々なリバースツールやテクニックが含まれています。
10ヶ月前
01.4K
Research Rabbit:使用本地LLM进行网页研究和报告撰写,自动深入用户指定主题并生成总结。

リサーチラビット:ネイティブのLLMを使用し、ユーザーが指定したトピックに自動的にドリルダウンし、サマリーを生成するWebリサーチとレポート作成。

はじめに Research Rabbitは、LLM(Large Language Model)ベースのウェブリサーチおよび要約アシスタントです。ユーザがリサーチトピックを提供すると、Research Rabbitは検索クエリを生成し、関連するウェブ結果を取得し、これらの結果を要約します...
4ヶ月前
01.3K
ComfyUI disty Flow:为 ComfyUI 提供友好的用户界面,简化工作流程

ComfyUI disty Flow: ワークフローを効率化するComfyUIのユーザーフレンドリーなインターフェース

概要 ComfyUI-disty-Flowは、ComfyUIにユーザーフレンドリーなインターフェースを提供するカスタムノードです。ComfyUI-disty-Flowは、ComfyUIにユーザーフレンドリーなインターフェースを提供するカスタムノードです。ワークフローの作成に代わるユーザーインターフェースを提供することで、ワークフローの実行を簡素化することを目的としています。
6ヶ月前
01.3K
Unsloth:高效微调和训练大语言模型的开源工具

Unsloth: 大規模言語モデルの効率的な微調整と学習のためのオープンソースツール

包括的な紹介 Unslothは、大規模言語モデル(LLM)の微調整と学習のための効率的なツールを提供するために設計されたオープンソースプロジェクトです。このプロジェクトは、Llama、Mistral、Phi、Gemmaなどの有名なモデルをサポートしています。
6ヶ月前
01.3K