国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目次
目次
ステップ2:抽出されたリンクからの削減
コードスニペット:
検索された生成パイプラインの実裝
ステップ1:環(huán)境のセットアップ
ステップ3:ドキュメントをより小さなチャンクに分割する
ステップ5:レトリーバーのセットアップ
キーテイクアウト
システムを構(gòu)築するのに役立ちます。
ホームページ テクノロジー周辺機(jī)器 AI 組織でのスマートな意思決定のためのRAGシステムを構(gòu)築します

組織でのスマートな意思決定のためのRAGシステムを構(gòu)築します

Mar 07, 2025 am 09:11 AM

今日のペースの速いビジネス環(huán)境では、組織には決定を促進(jìn)し、運(yùn)用を最適化し、競爭力を維持するデータが浸水しています。ただし、このデータから実用的な洞察を抽出することは、依然として重要なハードルのままです。 Agentic AIと統(tǒng)合された場合の検索総生成(RAG)システムは、関連する情報(bào)を取得するだけでなく、コンテキストアウェアの洞察をリアルタイムで処理して配信することにより、この課題に取り組みます。この組み合わせにより、企業(yè)はデータセットを自律的に照會(huì)し、製品機(jī)能、統(tǒng)合、および運(yùn)用に関する洞察を抽出するインテリジェントエージェントを作成できます。

RAGとエージェントAIを統(tǒng)合することにより、企業(yè)は意思決定を強(qiáng)化し、散在したデータを貴重なインテリジェンスに変換できます。このブログでは、エージェントAIを使用したRAGパイプラインを構(gòu)築するプロセスを調(diào)査し、組織でのスマートな意思決定を強(qiáng)化するための技術(shù)的な洞察とコード例を提供します。

學(xué)習(xí)目標(biāo)

    Pythonとスクレイピングツールを使用して複數(shù)のWebソースから関連するデータを自動(dòng)的に抽出およびスクレイする方法を?qū)Wび、會(huì)社のインテリジェンスプラットフォームの基礎(chǔ)を形成します。
  • AI駆動(dòng)型の手法を使用して、製品機(jī)能、統(tǒng)合、トラブルシューティングステップなどのキーポイントを抽出することにより、スクレイプされたデータを貴重で実用的な洞察に処理する方法を?qū)Wびます。
  • RAGをドキュメント取得および自然言語生成と統(tǒng)合する方法を?qū)Wび、広大なデータセットからコンテキスト認(rèn)識の回答を提供できるインテリジェントクエリシステムを構(gòu)築します。
  • データスクレイピング、知識抽出、リアルタイムクエリ処理を組み合わせたエージェントAIシステムを構(gòu)築する方法を理解し、ビジネスが実用的な洞察を自律的に抽出できるようにします。
  • クラウドプラットフォームと分散アーキテクチャを使用して、このようなシステムをスケーリングして展開する方法を理解し、大きなデータセットと高クエリ負(fù)荷を効果的に処理できるようにします。
  • この記事は、

データサイエンスブログの一部として公開されました。

目次

  • BFSを使用したデータ抽出とデータのスクレイピング
  • AIエージェントによる情報(bào)抽出の自動(dòng)データ抽出
  • 會(huì)社のインテリジェンスのための堅(jiān)牢なRAGシステムを構(gòu)築する最初のステップは、必要なデータを収集することです。データはさまざまなWebソースから生じる可能性があるため、効率的に削除して整理することが重要です。関連するページを発見して収集するための効果的な手法の1つは、幅広い検索(BFS)です。 BFSは、メインページから始まるリンクを再帰的に発見し、検索をより深いレベルに徐々に拡大するのに役立ちます。これにより、システムを不必要なデータで圧倒することなく、関連するすべてのページを収集することが保証されます。 このセクションでは、BFSを使用してWebサイトからリンクを抽出する方法を説明し、その後、それらのページからコンテンツを削除します。 BFSを使用して、Webサイトを體系的に通過し、データを収集し、RAGパイプラインで処理するための意味のあるデータセットを作成します。
  • ステップ1:BFSを使用したリンク抽出
  • 開始するには、特定のWebサイトから関連するすべてのリンクを収集する必要があります。 BFSを使用して、ホームページのリンクを探索できます。そこから、他のページのリンクを指定された深さまで再帰的に進(jìn)みます。この方法により、製品機(jī)能、統(tǒng)合、その他の重要な詳細(xì)など、関連する企業(yè)データが含まれる可能性のあるすべての必要なページをキャプチャできます。
  • 以下のコードは、BFSを使用して開始URLからのリンク抽出を?qū)g行します。メインページを取得することから始まり、すべてのリンク(< a>タグをHREF屬性を使用して抽出し、次のリンクに従って後続のページに従い、特定の深さ制限に基づいて検索を再帰的に拡張します。
  • これがリンク抽出を?qū)g行するコードです:

URLを追跡するためのキューを維持し、対応する深さとともに訪問し、効率的なトラバーサルを確保します。訪問されたセットは、同じURLを複數(shù)回再訪するのを防ぐために使用されます。各URLについて、BeautifulSoupを使用してHTMLを解析し、すべてのリンク(HREF屬性を持つタグ)を抽出します。このプロセスでは、BFSトラバーサルを使用し、各URLのコンテンツを再帰的に取得し、リンクを抽出し、深さ制限に達(dá)するまでさらに探索します。このアプローチにより、冗長性なしにWebを効率的に探索することが保証されます。

output

このコードは、指定された深さまで、ウェブサイトから抽出されたリンクのリストを出力します。

出力は、システムが最初のWebサイトから1500リンクを見つけて収集したことを示しています。リンクされたページは3の深さまでです。https://www.example.comを?qū)g際のターゲットURLに置き換えます。以下は、元のコードの出力スクリーンショットです。機(jī)密情報(bào)は、完全性を維持するためにマスクされています

ステップ2:抽出されたリンクからの削減

BFSを使用して関連するリンクを抽出したら、次のステップはこれらのページからコンテンツをスクレイプすることです。 RAGシステムの構(gòu)造化されたデータセットを構(gòu)築するのに役立つ製品機(jī)能、統(tǒng)合、その他の関連データなどの重要な情報(bào)を探します。 このステップでは、抽出されたリンクのリストをループし、ページのタイトルやそのメインコンテンツなどのキーコンテンツをスクレイプします。このコードを調(diào)整して、必要に応じて追加のデータポイントを削減できます(製品機(jī)能、価格設(shè)定、またはFAQ情報(bào)など)。

リスト內(nèi)の各URLについて、HTTPリクエストを送信してページのコンテンツを取得し、BeautifulSoupを使用してタイトルとメインコンテンツを抽出します。抽出されたデータを辭書のリストに保存します。それぞれにURL、タイトル、コンテンツが含まれています。最後に、スクレイプされたデータをJSONファイルに保存し、ラグパイプラインでの後で処理できるようにします。このプロセスにより、関連するデータの効率的な収集と保存が保証され、さらに使用します。

output

このコードの出力は、リンクから削られたデータを含む保存されたJSONファイル(Scraped_data.json)になります。データ構(gòu)造の例は次のようになる可能性があります:
import requests
from bs4 import BeautifulSoup
from collections import deque

# Function to extract links using BFS
def bfs_link_extraction(start_url, max_depth=3):
    visited = set()  # To track visited links
    queue = deque([(start_url, 0)])  # Queue to store URLs and current depth
    all_links = []

    while queue:
        url, depth = queue.popleft()

        if depth > max_depth:
            continue

        # Fetch the content of the URL
        try:
            response = requests.get(url)
            soup = BeautifulSoup(response.content, 'html.parser')

            # Extract all links in the page
            links = soup.find_all('a', href=True)
            for link in links:
                full_url = link['href']
                if full_url.startswith('http') and full_url not in visited:
                    visited.add(full_url)
                    queue.append((full_url, depth + 1))
                    all_links.append(full_url)
        except requests.exceptions.RequestException as e:
            print(f"Error fetching {url}: {e}")

    return all_links

# Start the BFS from the homepage
start_url = 'https://www.example.com'  # Replace with the actual homepage URL
all_extracted_links = bfs_link_extraction(start_url)
print(f"Extracted {len(all_extracted_links)} links.")

このJSONファイルには、スクレイプした各ページのURL、タイトル、およびコンテンツが含まれています。この構(gòu)造化されたデータは、生成の埋め込みやRAGシステムへの質(zhì)問回答など、さらなる処理に使用できるようになりました。以下は、元のコードの出力スクリーンショットです。機(jī)密情報(bào)は、完全性を維持するためにマスクされています

AIエージェントを使用した情報(bào)抽出の自動(dòng)化

Extracted 1500 links.
前のセクションでは、幅広い検索(BFS)戦略を使用して、リンクをスクレイピングして生のWebコンテンツを収集するプロセスについて説明しました。必要なデータが削られたら、この生のコンテンツから実用的な洞察を整理および抽出するための堅(jiān)牢なシステムが必要です。これは、エージェントAIが次のように介入します。削られたデータを処理することにより、情報(bào)を意味のあるセクションに自動(dòng)的に構(gòu)成します。 このセクションでは、エージェントAIが削り取られたデータから関連する製品情報(bào)を抽出する方法に焦點(diǎn)を當(dāng)て、利害関係者の消費(fèi)の準(zhǔn)備ができていることを確認(rèn)します。データのロードから処理まで、最終的に結(jié)果を構(gòu)造化された形式で保存するまで、関連する重要な手順を分類します。

ステップ1:スクレイプされたデータの読み込み

このプロセスの最初のステップは、生の削り取ったコンテンツをシステムにロードすることです。前に見たように、スクレイプされたデータはJSON形式で保存され、各エントリにはURLと関連するコンテンツが含まれています。このデータがAIが処理するための適切な形式であることを確認(rèn)する必要があります。

組織でのスマートな意思決定のためのRAGシステムを構(gòu)築しますコードスニペット:

import requests
from bs4 import BeautifulSoup
from collections import deque

# Function to extract links using BFS
def bfs_link_extraction(start_url, max_depth=3):
    visited = set()  # To track visited links
    queue = deque([(start_url, 0)])  # Queue to store URLs and current depth
    all_links = []

    while queue:
        url, depth = queue.popleft()

        if depth > max_depth:
            continue

        # Fetch the content of the URL
        try:
            response = requests.get(url)
            soup = BeautifulSoup(response.content, 'html.parser')

            # Extract all links in the page
            links = soup.find_all('a', href=True)
            for link in links:
                full_url = link['href']
                if full_url.startswith('http') and full_url not in visited:
                    visited.add(full_url)
                    queue.append((full_url, depth + 1))
                    all_links.append(full_url)
        except requests.exceptions.RequestException as e:
            print(f"Error fetching {url}: {e}")

    return all_links

# Start the BFS from the homepage
start_url = 'https://www.example.com'  # Replace with the actual homepage URL
all_extracted_links = bfs_link_extraction(start_url)
print(f"Extracted {len(all_extracted_links)} links.")

ここでは、Pythonの組み込みJSONライブラリを使用して、データセット全體をメモリにロードします。データセット內(nèi)の各エントリには、ソースのURLとText_Contentフィールドが含まれています。これには、RAW SCRAPEDテキストが保持されます。このコンテンツは、次のステップで処理するものです。

ステップ2:生のテキストコンテンツの抽出

次に、データセットを繰り返して、各エントリに関連するtext_contentを抽出します。これにより、必要なコンテンツを含む有効なエントリのみを使用することが保証されます。プロセスの整合性を維持するために、無効または不完全なエントリがスキップされます。

コードスニペット:

この時(shí)點(diǎn)で、input_text変數(shù)には、さらに処理するためにAIモデルに送信する生のテキストコンテンツが含まれています。各エントリを処理する前に必要なキーの存在を確保することが重要です。

ステップ3:処理のためにAIエージェントにデータを送信します
Extracted 1500 links.

生のコンテンツを抽出した後、構(gòu)造化された抽出のためにエージェントAIモデルに送信します。 GROQ APIと対話して、事前定義されたプロンプトに基づいて構(gòu)造化された洞察を要求します。 AIモデルはコンテンツを処理し、製品機(jī)能、統(tǒng)合、トラブルシューティング手順などの重要な側(cè)面をカバーする整理された情報(bào)を返します。

コードスニペット:

ここで、コードはGROQへのAPI呼び出しを開始し、メッセージペイロードの一部として入力_Textと命令を送信します。システムメッセージは、実行する正確なタスクについてAIモデルに指示され、ユーザーメッセージは処理するコンテンツを提供します。生成された出力のランダム性と長さを制御するために、溫度、MAX_TOKENS、およびTOP_Pパラメーターを使用します。 API呼び出し構(gòu)成:

import json

# Function to scrape and extract data from the URLs
def scrape_data_from_links(links):
    scraped_data = []

    for link in links:
        try:
            response = requests.get(link)
            soup = BeautifulSoup(response.content, 'html.parser')

            # Example: Extract 'title' and 'content' (modify according to your needs)
            title = soup.find('title').get_text()
            content = soup.find('div', class_='content').get_text()  # Adjust selector

            # Store the extracted data
            scraped_data.append({
                'url': link,
                'title': title,
                'content': content
            })
        except requests.exceptions.RequestException as e:
            print(f"Error scraping {link}: {e}")

    return scraped_data

# Scrape data from the extracted links
scraped_contents = scrape_data_from_links(all_extracted_links)

# Save scraped data to a JSON file
with open('/content/scraped_data.json', 'w') as outfile:
    json.dump(scraped_contents, outfile, indent=4)

print("Data scraping complete.")

モデル:

使用するモデルを指定します。この場合、テキストデータを処理し、応答を生成できるように言語モデルが選択されます。
  • 溫度: 応答の創(chuàng)造性を制御します。より高い値はより創(chuàng)造的な反応につながりますが、値が低いとそれらはより決定的になります。
  • max_tokens:生成された応答の最大長を設(shè)定します
  • top_p:
  • トークン選択の累積確率分布を決定し、応答の多様性を制御します。 ステップ4:結(jié)果の処理と収集
  • AIモデルがコンテンツを処理すると、構(gòu)造化された情報(bào)のチャンクを返します。これらのチャンクを収集して連結(jié)して結(jié)果を完全に作成し、データが失われず、最終出力が完了したことを確認(rèn)します。
  • コードスニペット:
    import requests
    from bs4 import BeautifulSoup
    from collections import deque
    
    # Function to extract links using BFS
    def bfs_link_extraction(start_url, max_depth=3):
        visited = set()  # To track visited links
        queue = deque([(start_url, 0)])  # Queue to store URLs and current depth
        all_links = []
    
        while queue:
            url, depth = queue.popleft()
    
            if depth > max_depth:
                continue
    
            # Fetch the content of the URL
            try:
                response = requests.get(url)
                soup = BeautifulSoup(response.content, 'html.parser')
    
                # Extract all links in the page
                links = soup.find_all('a', href=True)
                for link in links:
                    full_url = link['href']
                    if full_url.startswith('http') and full_url not in visited:
                        visited.add(full_url)
                        queue.append((full_url, depth + 1))
                        all_links.append(full_url)
            except requests.exceptions.RequestException as e:
                print(f"Error fetching {url}: {e}")
    
        return all_links
    
    # Start the BFS from the homepage
    start_url = 'https://www.example.com'  # Replace with the actual homepage URL
    all_extracted_links = bfs_link_extraction(start_url)
    print(f"Extracted {len(all_extracted_links)} links.")
    このコードスニペットは、各チャンクから

    PM_POINTS変數(shù)にコンテンツを連結(jié)し、完全な構(gòu)造化された洞察セットをもたらします。これらの洞察を、利害関係者がさらなる分析のために簡単に消費(fèi)または使用できる形式で抽出します。以下は、元のコードの出力スクリーンショットで、整合性を維持するために機(jī)密情報(bào)がマスクされています。 ステップ5:データの整合性の取り扱いと維持エラー

    処理中、不完全なコンテンツやネットワークの問題など、エラーに遭遇する可能性が常にあります。エラー処理メカニズムを使用することにより、すべての有効なエントリに対してプロセスがスムーズに継続するようにします。

    コードスニペット:

    このTry-Exectectブロックは、エラーをキャッチおよびログに記録し、システムが他のエントリの処理を継続するようにします。特定のエントリが問題を引き起こす場合、システムは全體的なプロセスを停止せずにレビューのためにマークします。

    ステップ6:処理されたデータの保存
    Extracted 1500 links.

    AIがコンテンツを処理し、構(gòu)造化された洞察を返すと、最後のステップはこのデータを後で使用するために保存することです。構(gòu)造化された結(jié)果をJSONファイルに書き戻し、すべてのエントリがさらに分析のために保存されている獨(dú)自の情報(bào)を確保するようにします。

    コードスニペット:

    このコードは、処理されたデータを効率的に保存し、後で簡単にアクセスできるようになります。それはそれぞれの構(gòu)造化されたポイントで各エントリを保存し、抽出された情報(bào)の検索と分析を簡単にします。 output 上記のコードを?qū)g行した後、処理されたJSONファイルには、各エントリの抽出されたポイントが含まれます。 Fields PM_POINTSは、製品機(jī)能、統(tǒng)合、トラブルシューティングの手順などに関連する構(gòu)造化された情報(bào)を保持し、ワークフローへのさらなる分析または統(tǒng)合の準(zhǔn)備ができています。

    以下は、元のコードの出力スクリーンショットです。機(jī)密情報(bào)は、完全性を維持するためにマスクされています
    import json
    
    # Function to scrape and extract data from the URLs
    def scrape_data_from_links(links):
        scraped_data = []
    
        for link in links:
            try:
                response = requests.get(link)
                soup = BeautifulSoup(response.content, 'html.parser')
    
                # Example: Extract 'title' and 'content' (modify according to your needs)
                title = soup.find('title').get_text()
                content = soup.find('div', class_='content').get_text()  # Adjust selector
    
                # Store the extracted data
                scraped_data.append({
                    'url': link,
                    'title': title,
                    'content': content
                })
            except requests.exceptions.RequestException as e:
                print(f"Error scraping {link}: {e}")
    
        return scraped_data
    
    # Scrape data from the extracted links
    scraped_contents = scrape_data_from_links(all_extracted_links)
    
    # Save scraped data to a JSON file
    with open('/content/scraped_data.json', 'w') as outfile:
        json.dump(scraped_contents, outfile, indent=4)
    
    print("Data scraping complete.")

    検索された生成パイプラインの実裝

    前のセクションでは、Webページからのデータ抽出とJSONなどの構(gòu)造化された形式に変換することに焦點(diǎn)を當(dāng)てました。また、関連するデータを抽出およびクリーニングする手法を?qū)g裝し、より深い分析の準(zhǔn)備ができたデータセットを生成できるようにしました。

    その上で、このセクションでは、ドキュメントの検索と言語モデルの生成を組み合わせて抽出された情報(bào)に基づいて質(zhì)問に答えることを組み合わせた検索された生成(RAG)パイプラインを?qū)g裝します。
    [
        {
            "url": "https://www.example.com/page1",
            "title": "Page 1 Title",
            "content": "This is the content of the first page. It contains 
            information about integrations and features."
        },
        {
            "url": "https://www.example.com/page2",
            "title": "Page 2 Title",
            "content": "Here we describe the functionalities of the product. 
            It includes various use cases and capabilities."
        }
    ]
    以前にスクレイプおよび処理した構(gòu)造化されたデータを統(tǒng)合することにより、このラグパイプラインは、最も関連性の高いドキュメントチャンクを取得するだけでなく、そのコンテキストに基づいて正確で洞察に満ちた応答を生成します。

    ステップ1:環(huán)境のセットアップ

    最初に、RAGパイプラインに必要なすべての依存関係をインストールしましょう。

    import requests
    from bs4 import BeautifulSoup
    from collections import deque
    
    # Function to extract links using BFS
    def bfs_link_extraction(start_url, max_depth=3):
        visited = set()  # To track visited links
        queue = deque([(start_url, 0)])  # Queue to store URLs and current depth
        all_links = []
    
        while queue:
            url, depth = queue.popleft()
    
            if depth > max_depth:
                continue
    
            # Fetch the content of the URL
            try:
                response = requests.get(url)
                soup = BeautifulSoup(response.content, 'html.parser')
    
                # Extract all links in the page
                links = soup.find_all('a', href=True)
                for link in links:
                    full_url = link['href']
                    if full_url.startswith('http') and full_url not in visited:
                        visited.add(full_url)
                        queue.append((full_url, depth + 1))
                        all_links.append(full_url)
            except requests.exceptions.RequestException as e:
                print(f"Error fetching {url}: {e}")
    
        return all_links
    
    # Start the BFS from the homepage
    start_url = 'https://www.example.com'  # Replace with the actual homepage URL
    all_extracted_links = bfs_link_extraction(start_url)
    print(f"Extracted {len(all_extracted_links)} links.")
    これらのパッケージは、Langchain內(nèi)のドキュメント処理、ベクトル化、およびOpenAIモデルを統(tǒng)合するために重要です。 JQは軽量のJSONプロセッサであり、Langchainは言語モデルパイプラインを構(gòu)築するためのコアフレームワークとして機(jī)能します。 Langchain-Openaiは、GPTなどのOpenaiモデルの統(tǒng)合を促進(jìn)し、Langchain-Chromaはドキュメントの埋め込みを管理するためのクロマベースのベクターストアを提供します。 さらに、Sente-Transformersを使用して、事前に訓(xùn)練されたトランスモデルを使用してテキスト埋め込みを生成し、効率的なドキュメントの処理と取得を可能にします。

    ステップ2:抽出されたデータのロード

    次に、JSONLoaderを使用して前のセクションで抽出および処理された構(gòu)造化データをロードします。たとえば、このデータは、特定のトピックや質(zhì)問に関連するキー価値ペアを使用して、構(gòu)造化されたJSONとしてWebページから削られた可能性があります。

    このステップでは、以前に抽出されたデータ(おそらく製品機(jī)能、統(tǒng)合、および機(jī)能が含まれている)は、さらなる処理のためにロードされます。

    ステップ3:ドキュメントをより小さなチャンクに分割する

    生データが揃ったので、recursiveCharacterTextSplitterを使用してドキュメントを小さなチャンクに分割します。これにより、言語モデルのトークン限界を超える?yún)g一のチャンクが保証されます。

    Extracted 1500 links.
    recursiveCharacterTextSplitterは、ドキュメントをより小さなセグメントに分割し、より良いコンテキスト理解のためにチャンクオーバーラップが保存されるようにします。 Chunk_sizeパラメーターは各チャンクのサイズを決定し、Chunk_Overlapは隣接するチャンク全體で重要な情報(bào)が保持されることを保証します。さらに、ADD_START_INDEXは、インデックスを含めることにより、ドキュメントの注文を維持し、各チャンクが元のドキュメントで発生した場所を簡単に追跡できるようにするのに役立ちます。

    ステップ4:ドキュメントチャンクの埋め込みを生成

    次に、Sentencetransformerを使用して、テキストの各塊を埋め込みに変換します。これらの埋め込みは、高次元のベクトル空間におけるテキストの意味を表しています。これは、関連文書の検索と取得に役立ちます。

    SentenceTransformerは、テキストチャンクの埋め込みを生成するために使用され、セマンティック情報(bào)をキャプチャする密なベクトル表現(xiàn)を作成します。関數(shù)embed_documentsは複數(shù)のドキュメントを処理し、埋め込みを返しますが、embed_Queryはユーザークエリの埋め込みを生成します。ベクターストアであるChromaは、これらの埋め込みを管理し、類似性に基づいて効率的な検索を可能にし、高速かつ正確なドキュメントまたはクエリマッチングを可能にします。

    ステップ5:レトリーバーのセットアップ

    今度はレトリバーを構(gòu)成します。このコンポーネントは、ユーザーのクエリに基づいて、最も関連性の高いテキストのチャンクを検索します。クエリに対して最も類似したドキュメントのチャンクをトップKを取得します。

    import requests
    from bs4 import BeautifulSoup
    from collections import deque
    
    # Function to extract links using BFS
    def bfs_link_extraction(start_url, max_depth=3):
        visited = set()  # To track visited links
        queue = deque([(start_url, 0)])  # Queue to store URLs and current depth
        all_links = []
    
        while queue:
            url, depth = queue.popleft()
    
            if depth > max_depth:
                continue
    
            # Fetch the content of the URL
            try:
                response = requests.get(url)
                soup = BeautifulSoup(response.content, 'html.parser')
    
                # Extract all links in the page
                links = soup.find_all('a', href=True)
                for link in links:
                    full_url = link['href']
                    if full_url.startswith('http') and full_url not in visited:
                        visited.add(full_url)
                        queue.append((full_url, depth + 1))
                        all_links.append(full_url)
            except requests.exceptions.RequestException as e:
                print(f"Error fetching {url}: {e}")
    
        return all_links
    
    # Start the BFS from the homepage
    start_url = 'https://www.example.com'  # Replace with the actual homepage URL
    all_extracted_links = bfs_link_extraction(start_url)
    print(f"Extracted {len(all_extracted_links)} links.")
      レトリーバーは類似性検索を使用して、ベクターストアから最も関連性の高いチャンクを見つけます。
    • パラメーターk = 6は、クエリに最も関連する上位6チャンクを返すことを意味します。
    • ステップ6:プロンプトテンプレートの作成
    次に、言語モデルの入力をフォーマットするプロンプトテンプレートを作成します。このテンプレートには、コンテキスト(取得されたチャンク)とユーザーのクエリの両方が含まれており、提供されたコンテキストのみに基づいて回答を生成するようにモデルを?qū)Г蓼埂?

    ChatPromptTemplateは、特定のコンテキストのみに基づいて答えが必要であることを強(qiáng)調(diào)する方法でモデルの入力をフォーマットします。

    {コンテキスト}は関連するテキストチャンクに置き換えられ、{質(zhì)問}はユーザーのクエリに置き換えられます。
    Extracted 1500 links.
      ステップ7:言語モデルのセットアップ
    • このステップでは、OpenAI GPTモデルを初期化します。このモデルは、レトリバーが提供する構(gòu)造化されたコンテキストに基づいて回答を生成します。
    • Chatopenaiモデルを初期化します。これにより、プロンプトを処理して回答を生成します。
    効率的な処理のために、より複雑なタスクには大きなモデルを使用できますが、より小さなモデル「GPT-4O-MINI」を使用します。

    ステップ8:ラグパイプラインの構(gòu)築

    ここでは、すべてのコンポーネント(Retriver、Prompt、LLM)をまとまりのあるRagパイプラインに統(tǒng)合します。このパイプラインは、クエリを取得し、関連するコンテキストを取得し、モデルを通過し、応答を生成します。
    import json
    
    # Function to scrape and extract data from the URLs
    def scrape_data_from_links(links):
        scraped_data = []
    
        for link in links:
            try:
                response = requests.get(link)
                soup = BeautifulSoup(response.content, 'html.parser')
    
                # Example: Extract 'title' and 'content' (modify according to your needs)
                title = soup.find('title').get_text()
                content = soup.find('div', class_='content').get_text()  # Adjust selector
    
                # Store the extracted data
                scraped_data.append({
                    'url': link,
                    'title': title,
                    'content': content
                })
            except requests.exceptions.RequestException as e:
                print(f"Error scraping {link}: {e}")
    
        return scraped_data
    
    # Scrape data from the extracted links
    scraped_contents = scrape_data_from_links(all_extracted_links)
    
    # Save scraped data to a JSON file
    with open('/content/scraped_data.json', 'w') as outfile:
        json.dump(scraped_contents, outfile, indent=4)
    
    print("Data scraping complete.")
    • runnablepassthroughは、ク??エリがプロンプトに直接渡されるようにします。
    • stroutputparserは、モデルからの出力を文字列形式にクリーニングおよびフォーマットするために使用されます。
    • ステップ9:RAGパイプラインのテスト

    最後に、さまざまなユーザークエリでパイプラインをテストします。クエリごとに、システムは関連するドキュメントチャンクを取得し、言語モデルに渡し、応答を生成します。

    システムは各クエリを繰り返し、パイプラインを呼び出し、生成された答えを印刷します。
    [
        {
            "url": "https://www.example.com/page1",
            "title": "Page 1 Title",
            "content": "This is the content of the first page. It contains 
            information about integrations and features."
        },
        {
            "url": "https://www.example.com/page2",
            "title": "Page 2 Title",
            "content": "Here we describe the functionalities of the product. 
            It includes various use cases and capabilities."
        }
    ]
    クエリごとに、モデルは取得したコンテキストを処理し、コンテキストに基づいた回答を提供します。
      以下は、元のコードからのRAG出力のスクリーンショットです。機(jī)密情報(bào)は、完全性を維持するためにマスクされています
    • Webスクレイピング、データ抽出、および高度な検索の高度発電(RAG)技術(shù)を組み合わせることにより、會(huì)社のインテリジェンスのための強(qiáng)力でスケーラブルなフレームワークを作成しました。リンクを抽出してデータを削減する最初のステップにより、Webから関連する最新の情報(bào)を収集することが保証されます。 2番目のセクションでは、特定の製品関連の詳細(xì)の特定に焦點(diǎn)を當(dāng)て、データを効率的に分類および処理しやすくすることに焦點(diǎn)を當(dāng)てています。

      最後に、RAGを活用することで、膨大なデータセットからコンテキスト情報(bào)を取得および合成することにより、複雑なクエリに動(dòng)的に応答することができます。これらのコンポーネントは、企業(yè)に関する実用的な洞察を収集、処理、提供できるエージェントプラットフォームの構(gòu)築に使用できる包括的なセットアップを形成します。このフレームワークは、高度なインテリジェンスシステムを開発するための基盤として機(jī)能し、組織が競爭力のある分析を自動(dòng)化し、市場動(dòng)向を監(jiān)視し、業(yè)界について情報(bào)を提供できるようにすることができます。

      展開とスケーリング

      會(huì)社のインテリジェンスシステムが構(gòu)築されたら、次のステップは、生産用に展開してスケーリングすることです。柔軟性とスケーラビリティを得るために、AWSやGCPなどのクラウドプラットフォームにシステムを展開したり、データプライバシーが優(yōu)先事項(xiàng)である場合はオンプレミスソリューションを選択できます。システムをよりユーザーフレンドリーにするには、ユーザーがプラットフォームと対話し、洞察を簡単に取得できる簡単なAPIまたはUIの構(gòu)築を検討してください。システムがより大きなデータセットとより高いクエリ負(fù)荷の処理を開始するため、効率的にスケーリングすることが不可欠です。

      これは、分散ベクトルストアを活用して検索プロセスを最適化し、パイプラインが重い使用法でも応答性が高く速く維持されるようにすることで実現(xiàn)できます。適切なインフラストラクチャと最適化手法が整っていると、エージェントプラットフォームは大規(guī)模な操作をサポートし、リアルタイムの洞察を可能にし、會(huì)社のインテリジェンスの競爭力を維持することができます。

      結(jié)論

      今日のデータ駆動(dòng)型の世界では、構(gòu)造化されていない企業(yè)データから実用的な洞察を抽出することが重要です。検索された生成(RAG)システムは、データのスクレイピング、ポインター抽出、およびインテリジェントクエリを組み合わせて、企業(yè)インテリジェンスの強(qiáng)力なプラットフォームを作成します。重要な情報(bào)を整理し、リアルタイムでコンテキスト固有の応答を可能にすることにより、RAGシステムは組織でのスマートな意思決定を強(qiáng)化し、企業(yè)がデータに包まれた適応可能な意思決定を支援します。

      このスケーラブルなソリューションは、ニーズとともに成長し、正確性を維持しながら、複雑なクエリとより大きなデータセットを処理します。適切なインフラストラクチャを備えたこのAI駆動(dòng)型プラットフォームは、よりスマートな運(yùn)用の基礎(chǔ)となり、組織がデータを活用し、競爭力を維持し、組織でのスマートな意思決定を通じてイノベーションを推進(jìn)できるようになります。

      キーテイクアウト

      • リンク抽出とWebスクレイピングは、最小限の労力で複數(shù)のソースからの自動(dòng)で効率的なデータ収集を可能にすることにより、企業(yè)のインテリジェンスを強(qiáng)化します。
      • キーデータポイントの抽出は、構(gòu)造化されていないコンテンツを整理された実用的な知識に変換し、AI主導(dǎo)の洞察のための會(huì)社のインテリジェンスを強(qiáng)化します。 ラグとカスタムベクトルストアと最適化されたレトリバーを組み合わせることで、より良い意思決定のためのインテリジェントでコンテキスト対応の応答が可能になります。
      • クラウドベースのソリューションと分散ベクトルストアは、効率的なスケーリング、パフォーマンスの損失なしに大きなデータセットとクエリの負(fù)荷を処理します。
      • RAGパイプラインはリアルタイムクエリを処理し、知識ベースから直接正確で需要のある洞察を提供します。
      • ボーナス:
      • ここで説明するすべてのコードは、次のリンクで利用可能になります。合計(jì)4つのノートブックが利用可能で、各ノートブックに自明の名前が付いています。エンタープライズを探索し、開発し、革命を起こしてください!
      • よくある質(zhì)問

      q1。?このセットアップで検索された生成(RAG)を使用する目的は何ですか? RAGは、情報(bào)検索と生成AIを組み合わせることにより、AIモデルがコンテキストを意識した応答を提供する能力を高めます。大規(guī)模なデータセットをよりスマートにクエリすることができ、基本的なキーワード検索を?qū)g行するだけでなく、正確で関連する回答を簡単に取得できます。?ブログに記載されているシステムを構(gòu)築するには、どのツールとライブラリが必要ですか?使用される主要なツールとライブラリには、Python、WebスクレイピングのためのBeautifulSoup、ドキュメント検索の管理のためのLangchain、自然言語処理のためのOpenaiモデル、およびベクトル化されたドキュメントを保存するためのChromaが含まれます。これらのコンポーネントは、包括的な企業(yè)インテリジェンスプラットフォームを作成するために連攜しています。?このシステムでは、ポインター抽出プロセスはどのように機(jī)能しますか?ポインター抽出には、製品機(jī)能、統(tǒng)合、トラブルシューティングのヒントなど、削られたコンテンツから特定の情報(bào)を特定することが含まれます。データは、プロンプト駆動(dòng)型システムを使用して処理され、情報(bào)を構(gòu)造化された実用的な洞察に整理します。これは、AIモデルとカスタムプロンプトの組み合わせを使用して達(dá)成されます。?RAGおよびAIエージェントは會(huì)社のインテリジェンスをどのように改善しますか? RAGおよびAIエージェントは、データの取得、処理、分析を自動(dòng)化することにより、會(huì)社のインテリジェンスを強(qiáng)化し、ビジネスがリアルタイムで実用的な洞察を抽出できるようにします。なぜデータスクレイピングが會(huì)社の知性にとって重要であるのですか?データスクレイピングは、情報(bào)に基づいた意思決定のために複數(shù)のソースから貴重な情報(bào)を収集および構(gòu)築することにより、強(qiáng)力な

      企業(yè)インテリジェンス

      システムを構(gòu)築するのに役立ちます。

      この記事に示されているメディアは、Analytics Vidhyaが所有しておらず、著者の裁量で使用されています。

以上が組織でのスマートな意思決定のためのRAGシステムを構(gòu)築しますの詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國語 Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國語版

SublimeText3 中國語版

中國語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

トップ7ノートブックルムの代替 トップ7ノートブックルムの代替 Jun 17, 2025 pm 04:32 PM

GoogleのNoteBookLMは、Gemini 2.5を搭載したスマートAIノートテイキングツールであり、ドキュメントの要約に優(yōu)れています。ただし、ソースキャップ、クラウド依存、最近の「発見」機(jī)能など、ツールの使用にはまだ制限があります。

採用から利點(diǎn)まで:2025年にエンタープライズLLMを形作る10のトレンド 採用から利點(diǎn)まで:2025年にエンタープライズLLMを形作る10のトレンド Jun 20, 2025 am 11:13 AM

エンタープライズAIランドスケープを再構(gòu)築する10の説得力のある傾向があります。LLMSORGANIZATIONSへの財(cái)政的コミットメントは、LLMSへの投資を大幅に増加させており、72%が今年の支出が増加することを期待しています?,F(xiàn)在、ほぼ40%a

AI投資家は停滯していますか? AIベンダーと購入、構(gòu)築、またはパートナーになる3つの戦略的なパス AI投資家は停滯していますか? AIベンダーと購入、構(gòu)築、またはパートナーになる3つの戦略的なパス Jul 02, 2025 am 11:13 AM

投資は活況を呈していますが、資本だけでは十分ではありません。評価が上昇し、獨(dú)特の衰退があるため、AIに焦點(diǎn)を當(dāng)てたベンチャーファンドの投資家は、優(yōu)位性を獲得するために購入、構(gòu)築、またはパートナーの重要な決定を下す必要がありますか?各オプションを評価する方法とpr

生成AIの止められない成長(AI Outlookパート1) 生成AIの止められない成長(AI Outlookパート1) Jun 21, 2025 am 11:11 AM

開示:私の會(huì)社であるTirias Researchは、IBM、Nvidia、およびこの記事で述べた他の企業(yè)に相談しました。成長ドライバー生成AI採用の急増は、最も楽観的な予測でさえ予測できるよりも劇的でした。次に、a

これらのスタートアップは、企業(yè)がAI検索の概要に登場するのを支援しています これらのスタートアップは、企業(yè)がAI検索の概要に登場するのを支援しています Jun 20, 2025 am 11:16 AM

AIのおかげで、それらの日は番號が付けられています。 1つのスタッドによると、Googleのようなサイトでの検索の60%がユーザーがリンクをクリックしていないため、旅行サイトKayakやEdtech Company Cheggなどの企業(yè)の検索トラフィックが減少しています。

新しいギャラップレポート:AI文化の準(zhǔn)備が新しいマインドセットを要求します 新しいギャラップレポート:AI文化の準(zhǔn)備が新しいマインドセットを要求します Jun 19, 2025 am 11:16 AM

広範(fàn)囲にわたる採用と感情的な準(zhǔn)備のギャップは、人間が成長しているデジタルコンパニオンの配列にどのように関與しているかについて不可欠な何かを明らかにしています。アルゴリズムが毎日のライブに織り込む共存の段階に入っています

AGIとAIのスーパーインテリジェンスは、人間の天井の仮定の障壁に急激に衝突するでしょう AGIとAIのスーパーインテリジェンスは、人間の天井の仮定の障壁に急激に衝突するでしょう Jul 04, 2025 am 11:10 AM

それについて話しましょう。 革新的なAIブレークスルーのこの分析は、さまざまなインパクトのあるAIの複雑さの特定と説明など、最新のAIで進(jìn)行中のForbes列のカバレッジの一部です(こちらのリンクを參照)。 アギに向かっています

Ciscoは、Cisco Live U.S. 2025でそのエージェントAIジャーニーをチャートします Ciscoは、Cisco Live U.S. 2025でそのエージェントAIジャーニーをチャートします Jun 19, 2025 am 11:10 AM

私が最も重要だと思ったものと、Ciscoがその野心をさらに実現(xiàn)するための現(xiàn)在の取り組みにどのように構(gòu)築されるかを詳しく見てみましょう。

See all articles