Fish Speech:快速且高精度使用少样本克隆中英文语音

フィッシュ・スピーチ:少ないサンプル数で中国語と英語の音声を高速かつ高精度にクローニング

概要 フィッシュ・スピーチはフィッシュ・オーディオが開発したオープンソースの音声合成ツールです。このツールはVQ-GAN、Llama、VITSなどの最先端のAI技術に基づいており、テキストをリアルな音声に変換することができます。
4ヶ月前
01.5K
ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

ChatTTS:実際の人の話し声を模倣した音声生成モデル(ChatTTSワンクリックアクセラレーションパッケージ)

一般的な紹介 ChatTTSは対話シナリオ用に設計された生成音声モデルです。自然で表現力豊かな音声を生成し、多言語、複数話者をサポートし、対話型ダイアログに適しています。このモデルは、笑い、ポーズ、間投詞のようなきめ細かなリズムの特徴を予測し、制御することで、対話に適した音声を生成します。
4ヶ月前
01.5K
zChunk:基于Llama-70B的通用语义分块策略

zChunk: Llama-70Bに基づく一般的な意味的チャンキング戦略

包括的な紹介 zChunkは、ZeroEntropyによって開発された、一般的なセマンティック・チャンキングのソリューションを提供する新しいチャンキング戦略です。このストラテジーはLlama-70Bモデルに基づいており、チャンクの生成を促すことでドキュメントのチャンキングプロセスを最適化し、情報検索を高いレベルで維持することを保証します。
4ヶ月前
0663
口袋AI:手机中运行的离线AI助手,适配 DeepSeek-R1 (5.37GB)

Pocket AI:DeepSeek-R1 (5.37GB)に対応した、携帯電話で動作するオフラインのAIアシスタント。

ポケットAI(PocketPal AI中国語版)は、いつでもどこでもAIと会話できるように設計された強力なオフラインAIアシスタントです。スモール・ランゲージ・モデル(SLM)をベースにしており、インターネット接続のない携帯電話で動作し、特に中国のユーザー体験に適応しています。口...
4ヶ月前
0979
Unsloth:高效微调和训练大语言模型的开源工具

Unsloth: 大規模言語モデルの効率的な微調整と学習のためのオープンソースツール

包括的な紹介 Unslothは、大規模言語モデル(LLM)の微調整と学習のための効率的なツールを提供するために設計されたオープンソースプロジェクトです。このプロジェクトは、Llama、Mistral、Phi、Gemmaなどの有名なモデルをサポートしています。
4ヶ月前
01.1K
视频分析工具(Video Analyzer):分析视频内容并生成详细描述

ビデオアナライザー:ビデオコンテンツを分析し、詳細な説明を生成します。

Comprehensive Introduction Video Analyzerは、コンピュータ・ビジョン、音声転写、自然言語処理技術を組み合わせて、詳細なビデオ・コンテンツの説明を生成する、総合的なビデオ分析ツールです。このツールは、動画から主要なフレームを抽出し、音声コンテンツを書き起こします。
4ヶ月前
01.4K
CogVLM2:开源多模态模型,支持视频理解与多轮对话

CogVLM2: 映像理解と複数回の対話を支援するオープンソースのマルチモーダルモデル

包括的な紹介 CogVLM2は清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースのマルチモーダルモデルで、Llama3-8Bアーキテクチャをベースとしており、GPT-4Vに匹敵するか、それ以上の性能を提供することを目指している。このモデルは画像理解、多ラウンド対話、視覚...
4ヶ月前
0784
OpenHealthForAll:个人健康数据管理AI助手,上传检查报告定制健康计划

OpenHealthForAll:個人の健康データ管理のためのAIアシスタント、カスタマイズされた健康計画のための検査レポートのアップロード

概論 OpenHealthForAllは、ユーザーの個人的な健康データの管理と理解を支援するために設計されたオープンソースプロジェクトである。人工知能技術を活用することで、OpenHealthForAllはローカルで動作する健康アシスタントを提供し、ユーザーがより良く管理できるようにします。
4ヶ月前
0829
OpenAOE:大模型群聊框架:同时与多个大语言模型聊天

OpenAOE: 大規模モデルグループチャットフレームワーク: 複数の大規模言語モデルと同時にチャットする

包括的な紹介 OpenAOEは、オープンソースの大規模モデルグループチャットフレームワークです。OpenAOEを使えば、ユーザーは複数の大規模言語モデル(LLM)と同時に会話し、並列出力を得ることができます。このフレームワークは...
4ヶ月前
0695
基于RAG构建提供健康建议的小助手(实验项目)

健康アドバイスを提供するミニ・アシスタントのRAGベースの構築(パイロット・プロジェクト)

概論 LLM-RAG-Longevity-Coachは、Large Language Modelling (LLM)とRetrieval Augmented Generation (RAG)の技術に基づいたチャットボットで、ユーザーにパーソナライズされた健康と長寿のアドバイスを提供するように設計されている。このプロジェクトは、タイラー・バーレ...
4ヶ月前
0829
Maestro:简化主流开源视觉语言模型微调过程的工具

Maestro:主流のオープンソース視覚言語のモデルの微調整プロセスを簡素化するツール

包括的な紹介 MaestroはRoboflowによって開発されたツールで、マルチモーダルモデルのファインチューニングプロセスを簡素化、高速化し、誰でも独自の視覚マクロモデルをトレーニングできるようにします。F... などの一般的な視覚言語モデル(VLM)を微調整するためのレシピが用意されています。
4ヶ月前
0881
One-Prompt-One-Story:文本提示生成角色身份一致的图像

ワン・プロンプト・ワンストーリー:テキスト・プロンプトがキャラクターのアイデンティティと一貫したイメージを生み出す

综合介绍 One-Prompt-One-Story (1Prompt1Story) 是一个创新的文本到图像生成工具,旨在通过单一提示实现一致性图像生成。该项目由刘涛等人在ICLR 2025会议上提出...
4ヶ月前
0874