AnyText:生成和编辑多语言图像文本,高可控在图像中生成多行中文

AnyText:多言語の画像テキストを生成・編集し、画像内に複数行の中国語を生成することができます。

総合紹介 AnyTextは、拡散モデルに基づいて開発された画期的な多言語ビジュアルテキスト生成・編集ツールです。画像の中に自然で高品質な多言語テキストを生成し、柔軟なテキスト編集機能をサポートします。研究チームによって開発され、ICLR 2024で発表されました。
6ヶ月前
01.1K
AI Dev Gallery:Windows本地AI模型开发工具集,端侧模型集成到Windows应用

AI Dev Gallery: WindowsネイティブAIモデル開発ツールセット、Windowsアプリケーションへのエンドサイドモデルの統合

概論 AI Dev Galleryは、Windows開発者向けに設計されたマイクロソフトのAI開発ツールアプリケーション(現在パブリックプレビュー中)である。開発者がAI機能を簡単にWindo...
6ヶ月前
01.1K
Edge TTS Worker:使用Cloudflare部署微软语音合成API,兼容OpenAI 格式并封装Web界面

Edge TTS Worker: Cloudflare、OpenAI互換フォーマット、パッケージ化されたウェブインターフェースを使用したMicrosoft音声合成APIの展開

概要 Edge TTS Worker(edge-tsに依存)は、Microsoft Edge TTSサービスをOpenAI互換フォーマットでカプセル化し、Cloudflare Workerにデプロイされたプロキシサービスです。
6ヶ月前
01.2K
BetterWhisperX:自动语音识别与说话人分离,提供高精度单词级时间戳

BetterWhisperX:話者から切り離された自動音声認識により、高精度の単語レベルのタイムスタンプを提供

はじめに BetterWhisperXは、効率的で正確な自動音声認識(ASR)サービスを提供することに重点を置いたWhisperXプロジェクトの最適化バージョンです。WhisperXの改良版として、このプロジェクトはFederico ...
6ヶ月前
01.4K
OrionChat:集成多平台AI模型的简易网页聊天界面(免部署)

OrionChat:マルチプラットフォームAIモデルを統合したシンプルなWebチャットインタフェース(デプロイメント不要)

综合介绍 OrionChat是一个基于网页的AI聊天界面,它为用户提供了一个统一的平台来与多个主流AI模型进行交互。该项目支持包括Ollama(本地运行)、OpenAI GPT、Google Gemi...
6ヶ月前
01.2K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结

AI2SRT:ジェミニ・モデルを使用して、ワンクリックで短いナレーション付きビデオや長いビデオの要約ビデオを作成する。

综合介绍 AI2SRT是一个开源项目,利用GeminiAI大模型,为长视频一键生成解说短视频和视频总结,同时支持音视频转录字幕。该项目旨在简化视频内容创作过程,提供高效的字幕生成和翻译功能。用户可以通...
6ヶ月前
01.2K
AppAgent:利用多模态智能体自动操作智能手机

AppAgent:マルチモーダルインテリジェンスによるスマートフォンの自動操作

综合介绍 AppAgent 是一个基于大语言模型(LLM)的多模态代理框架,旨在操作智能手机应用程序。该框架通过简化的操作空间,模仿人类的交互方式,如点击和滑动,从而无需系统后端访问,扩大了其在不同应...
6ヶ月前
01.2K
Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器

Browser-Use:AIインテリジェントがブラウザを簡単に操作するためのインテリジェント・ウェブ・オートメーション・ツールの構築

包括的な紹介 Browser-Useは、言語モデル(LLM)がウェブサイトと自然に対話できるように特別に設計された、革新的なオープンソースのウェブ自動化ツールです。強力で柔軟なフレームワークを提供し、GPT-4、Claud...などの主流の言語モデルを幅広くサポートします。
6ヶ月前
01.9K