実験：ワードプレスのサイト全体のコンテンツをAIアシスタントの "知識ベース "に変換する

1.2K 0

一要素

チーフAIシェアリング・サークルでは、数多くの「実践的なコマンド」や様々な「AIツール」をまとめており、ウェブサイト上で次のように入力すると見ることができる。笑い草検索のためのマッチングは、必要なリソースを正確に見つけることができませんでした。このウェブサイトには優れたビデオツールの作成見つからないのは耐え難い。

ウェブサイトを開発する能力がないため、検索は外部の機能に頼るしかない：

検索エンジンに頼って "サイト内検索 "で解決するのは、少々面倒なようで、コンテンツが全体に含まれていない：

或者直接输入：site:sharenet.ai SEO

もちろん、私にはウェブサイトのコンテンツを直接セマンティック検索に変換し、それを利用するための優れたインターフェースを提供する能力はない：

ウェブサイトのコンテンツを簡単に検索できる知識ベースに変換する方法。

内容分析

AIツールやその使用方法は、ヘッダー部分にその内容の特徴が明確に記述されている。混乱これは検索の質に影響する。また、コンテンツには画像があり、読者にプレビューを提供するよう努めたい。

AIツールのコンテンツ例

コマンドの内容の使用例

検索戦略を考える

1.意味検索に参加するために、タイトルと内容が段落全体として混合される。

長所：充実した内容

短所：コンテンツが多すぎると検索が不正確になる

2.タイトルだけを取得し、タイトルに基づいて内容知識を引用する。

利点：正確な検索

短所：有効な検索範囲が狭い

3.タイトルと内容をビッグモデルに入力し、QAペアに分割する。

利点：有効サーチ範囲を大幅に拡大できる

デメリット：処理コストと時間がかかる。原文の重要な内容や構造が失われる。

追記：開発経験がなくても、DIFYプロジェクトのQAペアのバッチ生成を導入することができます。

4.ナレッジ・マッピング

不適切なコンテンツです。

私はインテリジェンスを編集するためのフリーでオープンなプラットフォームに頼るつもりだが、それもナレッジグラフをサポートしていない。

選択的検索2 はシンプルで効率的である。効果的な検索範囲は減少するが、連続的な反復によって段階的に最適化することができる。
を検索するセマンティクスに従う限り、コンテンツ主体は検索に関与する必要はない。キャプションこれにより、長いコンテクストを扱う際にラージモデルによって発生する例外の数が減り、URLを返すことでより完全な読み込みが可能になる。

検索ツールキャリア

セマンティック検索を実装するために使用される三者間プラットフォームはどれか？

MetaBase、Smart Spectrum、Buckle、Wenshinなど、ナレッジベースをサポートする無料のプラットフォームは数多く市場に出回っている。ここでは、検索用のQAペアのインポートをサポートしているプラットフォームを選ぶことにする。

QAペアの取得：質問Aをビッグモデルに取得し直すことで、質問Aに対応する回答Bを返し、Bを参照コンテンツとしてユーザーの質問に答える。

どのプラットフォームが優れているか、どの意味理解が優れているかはここでは考慮しない。

ユーザーはどこで使うのか？

メイン・プッシュはパブリックなので、ユーザーは公共の場で検索することができる。

Smart Spectrumも良いが、私はQAルールを処理するための操作手順がより明確なWenxin Intelligent Bodyを選ぶ。同時に、文信智能体は百度（バイドゥ）に公開して顧客獲得に利用できる。推薦図書キラートラフィックポータル：AIインテリジェントボディを使用して、長期的にウェブサイトと公開番号の外部トラフィックを獲得する

操作チュートリアル

1.WordPressからXMLファイルをエクスポートする

2.XMLからMDフォーマットへの変換

2.1 ダウンロードはこちらブログ2mdプロジェクト属解凍先ディレクトリ D: \222blog2md

2.2 blog2mdディレクトリの先頭でマウスの右ボタンをクリックし、SHELLターミナルを開く。

2.3 ほとんどの場合、依存関係をインストールする必要があるので、以下のコマンドを入力する。

安装命令：
npm install xml2js
验证命令：
npm list xml2js

2.4 エクスポートした XML ファイルに 111.xml という名前を付け、D:˶222blog2md ディレクトリに置き、以下のコマンドを実行します。

node index.js w 111.xml out

2.5 この時点で、D:◆222blog2md◆outディレクトリが生成されるので、入力後、生成された内容が正しいか確認する。

3.MD EXCEL形式に変換する

mdのコンテンツ・グリッドは構造化されているので、抽出するのに適している。ここではchatgptでレギュラーを書き、pythonで実行する。

我要提取：文件名（文件名就是URL，例如：https://sharenet.ai/anse/）、title、内容区域(---下方的内容)

3.1 pythonスクリプト実行後、カレントディレクトリにoutput.xlsxファイルが生成される。

スクリプトの内容

スクリプトファイルを保存し、名前を111.pyとし、スクリプトを任意のディレクトリに置く。

コマンドラインから実行する（デフォルトのコマンドラインでは111.ptを直接実行できないので、.\ を付加する必要があります)。

.\111.py

スクリプトファイルのコードは以下の通りです。111.py（CHATGPTで生成）として保存してください。

mdファイルを読み込むディレクトリ： folder_path = "D:⊖222⊖blog2md⊖out"
カレントディレクトリにEXCELを生成： output_file = "output.xlsx"

import os
import pandas as pd
import re
import html
def clean_content(content):
# 移除 Markdown 语法中的特殊字符
content = re.sub(r'[*_~`#]', '', content)
# 将 HTML 实体转换为对应字符
content = html.unescape(content)
# 移除可能导致 Excel 问题的字符
content = ''.join(char for char in content if ord(char) < 65536)
# 替换换行符为空格
content = content.replace('\n', ' ').replace('\r', '')
# 移除多余的空格
content = re.sub(r'\s+', ' ', content).strip()
return content
def md_to_excel(folder_path, output_file):
data = []
for filename in os.listdir(folder_path):
if filename.endswith(".md"):
file_path = os.path.join(folder_path, filename)
try:
with open(file_path, "r", encoding="utf-8") as file:
content = file.read()
# 使用正则表达式提取元数据
metadata_pattern = r"---\n(.*?)\n---"
metadata_match = re.search(metadata_pattern, content, re.DOTALL)
if metadata_match:
metadata = metadata_match.group(1)
title = re.search(r"title:\s*['\"](.*?)['\"]", metadata)
title = title.group(1) if title else ""
# 提取内容部分
content_pattern = r"---\n.*?\n---\n\n(.*)"
content_match = re.search(content_pattern, content, re.DOTALL)
text_content = content_match.group(1) if content_match else ""
# 清理内容
cleaned_content = clean_content(text_content)
# 获取文件名（不包含.md后缀）作为URL
url = os.path.splitext(filename)[0]
data.append({
"title": title,
"content": cleaned_content,
"url": url
})
except Exception as e:
print(f"Error processing file {filename}: {str(e)}")
# 将数据转换为DataFrame并保存为Excel文件
df = pd.DataFrame(data)
try:
df.to_excel(output_file, index=False, engine='openpyxl')
print(f"Successfully saved to {output_file}")
except Exception as e:
print(f"Error saving Excel file: {str(e)}")
# 尝试使用 CSV 格式保存
csv_file = output_file.rsplit('.', 1)[0] + '.csv'
df.to_csv(csv_file, index=False, encoding='utf-8-sig')
print(f"Saved as CSV instead: {csv_file}")
# 指定Markdown文件所在的目录和输出的Excel文件路径
folder_path = "D:\\222\\blog2md\\out"
output_file = "output.xlsx"
# 调用函数进行转换
md_to_excel(folder_path, output_file)

3.2 出力された.xlsxを知識ベースとして照合し、アップロードする。

ここでは、タイトルだけが残され、完全なURLは切り離される。

4.Manximのスマートボディによってアップロードされた知識ベース

4.1 リテラシー・マインド・インテリジェンス・ボディへのアクセスと知識ベースのアップロード

4.2 EXCELファイルのアップロード

4.3 カスタム検索カラム（これがWenshin Intelligenceを使う理由である。）

知識ベースを整理するためのヒントについては、こちらをお読みください：チュートリアル：（4）ドキュメントの処理と知識ベースへの同期

5.インテリジェンスを作成し、利用できるように公開する

5.1 インテリジェンシアの創造

ここでは、細かい設定にこだわらず、シンプルに構成していくことにしよう。インテリジェンスの作成開始

あなたは、複数の知識ベースの判断ロジックを追加し、インテリジェントなボディを作成するには、ローコードモードを使用しようとすることができ、結局のところ、サイトは多くのチャンネルを持っているさて、私はここで実証することはありませんが、ローコードの友人に興味が読むことができます：Wenxinインテリジェント・ボディ・チュートリアル：(V) インテリジェント・ボディのワークフローを振り付ける

5.2 インテリジェンシアの設定

異常を避けるためにナレッジ・ベース以外の機能はオフにし、その他の設定は微調整せずにデフォルトのままにしておく。

想起される知識ベースのヒット率は簡単にテストされるべきである。

5.3 出力のデバッグとプレビュー

5.4 出版インテリゲンチア

究極

最終的には、公共のAIツールを素早く調べることができるインテリジェントボディを、すべて無料で手に入れることができる！一方、ウェンシン・スマートボディの販売チャネル( Wenxinインテリジェントボディプラットフォーム：完全な流通チャネルと商業閉鎖の上に構築されたインテリジェントボディアプリケーション )、このツールは百度のホームページに公開され、ユーザーにアクセスを提供する。