国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
介紹
學(xué)習(xí)目標(biāo)
目錄
涉及的關(guān)鍵步驟
擴(kuò)展10個(gè)文檔的關(guān)鍵挑戰(zhàn)
性能考慮
工具管理
指數(shù)效率
實(shí)施代碼處理10個(gè)文檔
文檔收集
工具設(shè)置
通過(guò)工具檢索增強(qiáng)代理抹布
建造代理
工具檢索
代理設(shè)置
查詢(xún)11個(gè)文檔
結(jié)果和績(jī)效見(jiàn)解
性能指標(biāo)
可伸縮性分析
結(jié)論
關(guān)鍵要點(diǎn)
常見(jiàn)問(wèn)題
首頁(yè) 科技週邊 人工智慧 縮放多文件代理抹布來(lái)處理10個(gè)文檔

縮放多文件代理抹布來(lái)處理10個(gè)文檔

Apr 09, 2025 am 09:44 AM

介紹

在我以前的博客文章中,使用LlamainDex構(gòu)建多文件代理抹布,我演示瞭如何創(chuàng)建一個(gè)可以使用LlamainDex在三個(gè)文檔上處理和查詢(xún)的檢索型生成一代(RAG)系統(tǒng)。儘管這是一個(gè)有力的開(kāi)始,但現(xiàn)實(shí)世界中的應(yīng)用程序通常需要能夠處理更大的文檔語(yǔ)料庫(kù)。

該博客將著重於將該系統(tǒng)從三個(gè)文檔擴(kuò)展到11及以後。我們將研究代碼,擴(kuò)展的挑戰(zhàn)以及如何構(gòu)建可以從較大的來(lái)源中動(dòng)態(tài)檢索信息的有效代理。

學(xué)習(xí)目標(biāo)

  • 了解使用LlamainDex的10多個(gè)文檔到超過(guò)10個(gè)文檔,了解縮放多文檔的代理抹布系統(tǒng)。
  • 了解如何構(gòu)建和集成基於工具的查詢(xún)機(jī)制以增強(qiáng)抹布模型。
  • 了解在有效檢索相關(guān)文檔和工具中使用vectorStoreIndex和ObjectIndex的使用。
  • 實(shí)現(xiàn)一個(gè)動(dòng)態(tài)代理,能夠通過(guò)從大量文檔中檢索相關(guān)論文來(lái)回答複雜查詢(xún)。
  • 將抹布系統(tǒng)擴(kuò)展到多個(gè)文檔時(shí),確定挑戰(zhàn)和最佳實(shí)踐。

本文作為數(shù)據(jù)科學(xué)博客馬拉鬆的一部分發(fā)表。

目錄

  • 介紹
  • 涉及的關(guān)鍵步驟
  • 擴(kuò)展10個(gè)文檔的關(guān)鍵挑戰(zhàn)
  • 實(shí)施代碼處理10個(gè)文檔
  • 通過(guò)工具檢索增強(qiáng)代理抹布
  • 查詢(xún)11個(gè)文檔
  • 結(jié)果和績(jī)效見(jiàn)解
  • 結(jié)論
  • 常見(jiàn)問(wèn)題

涉及的關(guān)鍵步驟

在上一個(gè)博客中,我介紹了代理抹布的概念 - 一種方法,我們將信息檢索與生成模型結(jié)合在一起,以使用相關(guān)的外部文檔回答用戶(hù)查詢(xún)。我們使用LlamainDex構(gòu)建了一個(gè)簡(jiǎn)單的多檔案代理抹布,可以在三個(gè)文檔中查詢(xún)。

涉及的關(guān)鍵步驟:

  • 文檔攝入:使用SimpleDirectoryReader將文檔加載並分成塊。
  • 索引創(chuàng)建:利用矢量storeIndex進(jìn)行語(yǔ)義搜索和摘要以進(jìn)行摘要。
  • 代理設(shè)置:將OpenAI的API集成以通過(guò)從文檔中檢索相關(guān)的信息來(lái)回答查詢(xún)。

儘管此設(shè)置在少量文檔中效果很好,但我們?cè)诳蓴U(kuò)展性方面遇到了挑戰(zhàn)。隨著我們超越三個(gè)文檔的擴(kuò)展,出現(xiàn)了工具管理,性能開(kāi)銷(xiāo)和較慢的查詢(xún)響應(yīng)等問(wèn)題。這篇文章解決了這些挑戰(zhàn)。

擴(kuò)展10個(gè)文檔的關(guān)鍵挑戰(zhàn)

擴(kuò)展到11個(gè)或更多文檔引入了幾個(gè)複雜性:

性能考慮

跨多個(gè)文檔查詢(xún)會(huì)增加計(jì)算負(fù)載,尤其是在內(nèi)存使用和響應(yīng)時(shí)間方面。當(dāng)系統(tǒng)處理大量文檔時(shí),確保快速準(zhǔn)確的響應(yīng)將成為主要挑戰(zhàn)。

工具管理

每個(gè)文檔都與自己的檢索和摘要工具配對(duì),這意味著系統(tǒng)需要一種強(qiáng)大的機(jī)制來(lái)有效地管理這些工具。

指數(shù)效率

使用11個(gè)文檔,使用VectorStoreIndex變得更加複雜。索引越大,系統(tǒng)需要篩選以找到相關(guān)信息,可能會(huì)增加查詢(xún)時(shí)間。我們將討論LlamainDex如何通過(guò)其索引技術(shù)有效地應(yīng)對(duì)這些挑戰(zhàn)。

實(shí)施代碼處理10個(gè)文檔

讓我們研究實(shí)施,以將我們的代理抹布從三個(gè)文檔擴(kuò)展到11個(gè)文檔。

文檔收集

這是我們將要合作的11篇論文:

  • metagpt
  • Longlora
  • Loft-Q
  • SWE板凳
  • 自我rag
  • Zipformer
  • Finetune公平擴(kuò)散
  • 知識(shí)卡
  • Metra
  • VR-MCL

第一步是下載論文。這是自動(dòng)化以下的Python代碼:

 urls = [
    “ https://openreview.net/pdf?id=vtmbagcn7o”,
    “ https://openreview.net/pdf?id=6pmjorfdak”,
    “ https://openreview.net/pdf?id=lzpwwpady4”,
    “ https://openreview.net/pdf?id=vtf8ynqm66”,
    “ https://openreview.net/pdf?id=hsyw5go0v8”,
    “ https://openreview.net/pdf?id=9wd9kwssyt”,
    “ https://openreview.net/pdf?id=yv6fd7lykf”,
    “ https://openreview.net/pdf?id=hnrb5yhoyu”,
    “ https://openreview.net/pdf?id=wbwtoyizik”,
    “ https://openreview.net/pdf?id=c5pwl0soay”,
    “ https://openreview.net/pdf?id=tpd2ag1h0d”
這是給出的

論文= [
    “ metagpt.pdf”,
    “ longlora.pdf”,
    “ loftq.pdf”,
    “ swebench.pdf”,
    “ selfrag.pdf”,
    “ zipformer.pdf”,
    “ values.pdf”,
    “ finetune_fair_diffusion.pdf”,
    “知識(shí)_card.pdf”,
    “ Metra.pdf”,
    “ vr_mcl.pdf”
這是給出的

#下載論文
對(duì)於URL,郵政紙(URL,紙):
    !

工具設(shè)置

下載文檔後,下一步是創(chuàng)建查詢(xún)和總結(jié)每個(gè)文檔所需的工具。

來(lái)自llama_index.core導(dǎo)入simpledirectoryReader,vectorstoreIndex,summaryIndex
來(lái)自llama_index.core.node_parser import stonencesplitter
來(lái)自llama_index.core.tools import functionTool,queryenginetool
來(lái)自llama_index.core.core.vector_stores導(dǎo)入元數(shù)據(jù),濾波器條件
從輸入導(dǎo)入列表,可選

def get_doc_tools(
    file_path:str,
    名稱(chēng):str,,
) - > str:
    “”“從文檔獲取矢量查詢(xún)和摘要查詢(xún)工具。”“”

    #加載文檔
    documents = simperedirectoryReader(input_files = [file_path])。 load_data()
    splitter = sensencesplitter(chunk_size = 1024)
    nodes = splitter.get_nodes_from_documents(文檔)
    vector_index = vectorstoreIndex(節(jié)點(diǎn))
    
    def vector_query(
        查詢(xún):str, 
        page_numbers:可選[list [str]] =無(wú)
    ) - > str:
        ”“”用於通過(guò)給定論文回答問(wèn)題。
    
        如果您對(duì)論文有特定的問(wèn)題,有用。
        始終將page_numbers留為無(wú),除非您要搜索特定頁(yè)面。
    
        args:
            查詢(xún)(str):要嵌入的字符串查詢(xún)。
            page_numbers(可選[list [str]]):通過(guò)一組頁(yè)過(guò)濾。沒(méi)有離開(kāi) 
                如果我們想執(zhí)行矢量搜索
                在所有頁(yè)面上。否則,通過(guò)指定頁(yè)面的集合過(guò)濾。
        
        ”“”
    
        page_numbers = page_numbers或[]
        metadata_dicts = [
            {“鍵”:“ page_label”,“ value”:p in page_numbers中的p
        這是給出的
        
        query_engine = vector_index.as_query_engine(
            samelity_top_k = 2,
            過(guò)濾器= metadatafilters.from_dicts(
                metadata_dicts,
                條件= filterCondition.or
            )
        )
        響應(yīng)= query_engine.query(query)
        返迴響應(yīng)
        
    
    vector_query_tool = functionTool.from_defaults(
        name = f“ vector_tool_ {name}”,
        fn = vector_query
    )
    
    summary_index = summaryIndex(節(jié)點(diǎn))
    summary_query_engine = summary_index.as_query_engine(
        response_mode =“ tree_summarize”,
        use_async = true,
    )
    summary_tool = queryenginetool.from_defaults(
        name = f“ summary_tool_ {name}”,
        query_engine = summary_query_engine,
        描述=((
            f“對(duì){名稱(chēng)}有關(guān)的摘要問(wèn)題有用”
        ),
    )

    返回vector_query_tool,summary_tool

此功能為每個(gè)文檔生成向量和摘要查詢(xún)工具,從而使系統(tǒng)可以有效地處理查詢(xún)並生成摘要。

通過(guò)工具檢索增強(qiáng)代理抹布

現(xiàn)在,我們將通過(guò)工具檢索增強(qiáng)代理抹布。

建造代理

接下來(lái),我們需要擴(kuò)展代理商,能夠從所有11個(gè)文檔中檢索和管理工具。

來(lái)自u(píng)tils import get_doc_tools
從pathlib導(dǎo)入路徑

paper_to_tools_dict = {}
紙中的紙:
    打印(f“獲取紙的工具:{paper}”)
    vector_tool,summary_tool = get_doc_tools(紙,路徑(PAPE).stem)
    Paper_to_tools_dict [Paper] = [vector_tool,summary_tool]

all_tools = [t paper_to_tools_dict [paper]的紙張中的紙張中的紙張

輸出看起來(lái)如下:

縮放多文件代理抹布來(lái)處理10個(gè)文檔

工具檢索

下一步是在這些工具上創(chuàng)建一個(gè)“對(duì)象”索引,並構(gòu)建一個(gè)可以動(dòng)態(tài)地提取給定查詢(xún)的相關(guān)工具的檢索系統(tǒng)。

來(lái)自llama_index.core導(dǎo)入vectorstoreindex
來(lái)自llama_index.core.objects import objectIndex

obj_index = objectIndex.from_objects(
    all_tools,
    index_cls = vectorstoreIndex,
)
obj_retriever = obj_index.as_retriever(samelity_top_k = 3)

現(xiàn)在,系統(tǒng)可以根據(jù)查詢(xún)檢索最相關(guān)的工具。

讓我們看看一個(gè)例子:

工具= obj_retriever.trieve(
    “告訴我METAGPT和SWE-BENCH中使用的EDAT數(shù)據(jù)集”
)

#retrieves 3個(gè)對(duì)象,讓我們看看第三個(gè)對(duì)象
打?。üぞ遊2] .metadata)

縮放多文件代理抹布來(lái)處理10個(gè)文檔

代理設(shè)置

現(xiàn)在,我們將工具回收器集成到代理跑步者中,以確保它動(dòng)態(tài)選擇響應(yīng)每個(gè)查詢(xún)的最佳工具。

來(lái)自llama_index.core.agent intimpt functionCallingAgentWorker
來(lái)自llama_index.core.gagent Import Agentrunner

agent_worker = functionCallingAgentWorker.from_tools(
    tool_retriever = obj_retriever,
    llm = llm, 
    system_prompt =“”“ \
您是旨在回答一組給定論文的疑問(wèn)的代理商。
請(qǐng)始終使用提供的工具來(lái)回答問(wèn)題。不要依靠先驗(yàn)知識(shí)。 \

”“”,
    冗長(zhǎng)= true
)
代理= AgentRunner(Agent_worker)

查詢(xún)11個(gè)文檔

讓我們看看系統(tǒng)跨多個(gè)文檔查詢(xún)時(shí)的性能。我們將同時(shí)查詢(xún)METAGPT和SWE BENCEN紙張以比較其評(píng)估數(shù)據(jù)集。

響應(yīng)= Agent.Query(“告訴我METAGPT中使用的評(píng)估數(shù)據(jù)集並將其與SWE-Bench進(jìn)行比較”)
打?。╯tr(響應(yīng)))

輸出:

縮放多文件代理抹布來(lái)處理10個(gè)文檔

讓我們看看其他例子

響應(yīng)= agent.query(Query)(
    “比較並對(duì)比洛拉論文(Longlora,Loftq)。首先在每篇論文中分析該方法?!?)
打?。╯tr(響應(yīng)))

輸出:

縮放多文件代理抹布來(lái)處理10個(gè)文檔

結(jié)果和績(jī)效見(jiàn)解

現(xiàn)在,我們將探討以下結(jié)果和績(jī)效見(jiàn)解:

性能指標(biāo)

當(dāng)縮放到11個(gè)文檔時(shí),性能仍然很強(qiáng),但是與3檔案設(shè)置相比,我們觀察到查詢(xún)時(shí)間增加了約15-20%。但是,總體檢索準(zhǔn)確性保持一致。

可伸縮性分析

由於LlamainDex的有效分解和索引,該系統(tǒng)具有高度可擴(kuò)展的。通過(guò)仔細(xì)管理工具,我們能夠處理11個(gè)文檔,其開(kāi)銷(xiāo)最少??梢詳U(kuò)展這種方法以支持更多文檔,從而在現(xiàn)實(shí)世界應(yīng)用程序中進(jìn)一步增長(zhǎng)。

結(jié)論

從三個(gè)文檔擴(kuò)展到11個(gè)文檔是建立強(qiáng)大的抹布系統(tǒng)的重要里程碑。這種方法利用LlamainDex來(lái)管理大量文檔,同時(shí)保持系統(tǒng)的性能和響應(yīng)能力。

我鼓勵(lì)您嘗試使用LlamainDex擴(kuò)展自己的檢索型生成系統(tǒng),並分享您的結(jié)果。隨時(shí)在此處查看我以前的博客以開(kāi)始!

在GitHub上查看完整的代碼和資源。

關(guān)鍵要點(diǎn)

  • 可以使用有效的索引方法(如VectorStoreEndex和ObjectIndex)來(lái)擴(kuò)展檢索功能的生成(RAG)系統(tǒng),以處理更多文檔。
  • 通過(guò)將特定工具分配給文檔(向量搜索,摘要工具),代理可以利用專(zhuān)門(mén)的方法來(lái)檢索信息,從而提高響應(yīng)準(zhǔn)確性。
  • 使用AgentRunner與工具檢索使用,使代理可以根據(jù)查詢(xún)智能選擇和應(yīng)用正確的工具,從而使系統(tǒng)更加靈活和自適應(yīng)。
  • 即使處理大量文檔,抹布系統(tǒng)也可以通過(guò)動(dòng)態(tài)檢索和應(yīng)用工具來(lái)維持響應(yīng)性和準(zhǔn)確性,而不是蠻力搜索所有內(nèi)容。
  • 在擴(kuò)展抹布系統(tǒng)以確保性能和準(zhǔn)確性時(shí),優(yōu)化分塊,工具分配和索引策略至關(guān)重要。

常見(jiàn)問(wèn)題

Q1。多文檔代理抹布系統(tǒng)中處理3個(gè)文檔與10個(gè)文檔的處理有什麼區(qū)別?

A.處理3個(gè)文檔需要更簡(jiǎn)單的索引和檢索過(guò)程。隨著文檔數(shù)量的增加(例如,至10),您需要更複雜的檢索機(jī)制,例如ObjectIndex和工具檢索,以保持性能和準(zhǔn)確性。

Q2。 vectorStoreIndex和ObjectIndex如何促進(jìn)擴(kuò)展破布系統(tǒng)?

答:VectorStoreIndex有助於基於相似性有效地檢索文檔塊,而ObjectIndex允許您存儲(chǔ)和檢索與不同文檔關(guān)聯(lián)的工具。他們一起有助於有效地管理大規(guī)模文檔集。

Q3。為什麼基於工具的檢索在擴(kuò)展到多個(gè)文檔時(shí)很重要?

A.基於工具的檢索使系統(tǒng)能夠?qū)?zhuān)用工具(例如,矢量搜索或摘要)應(yīng)用於每個(gè)文檔,與以相同方式處理所有文檔相比,提高了答案的準(zhǔn)確性並減少了計(jì)算時(shí)間。

Q4。如何修改此設(shè)置以處理更多文檔(例如20)?

答:要處理更多文檔,您可以使用分佈式計(jì)算技術(shù)微調(diào)索引來(lái)優(yōu)化檢索過(guò)程,並可能引入更高級(jí)的過(guò)濾機(jī)制,以在應(yīng)用工具之前縮小文檔集範(fàn)圍。

Q5。有效地?cái)U(kuò)展多文檔代理抹布系統(tǒng)的關(guān)鍵策略是什麼?

A.縮放多文件代理抹布系統(tǒng)有效地涉及優(yōu)化數(shù)據(jù)檢索方法,實(shí)施有效的索引策略,並利用先進(jìn)的語(yǔ)言模型來(lái)提高查詢(xún)準(zhǔn)確性。利用諸如LlamainDex之類(lèi)的工具可以通過(guò)促進(jìn)多個(gè)文檔管理並確保及時(shí)訪問(wèn)相關(guān)信息來(lái)顯著改善系統(tǒng)的性能。

本文所示的媒體不由Analytics Vidhya擁有,並由作者酌情使用。

以上是縮放多文件代理抹布來(lái)處理10個(gè)文檔的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門(mén)話題

前7個(gè)筆記本替代品 前7個(gè)筆記本替代品 Jun 17, 2025 pm 04:32 PM

Google的NotebookLM是由Gemini 2.5提供動(dòng)力的智能AI筆記工具,它在匯總文檔方面表現(xiàn)出色。但是,它在工具使用方面仍然有局限性,例如源蓋,雲(yún)依賴(lài)性和最近的“發(fā)現(xiàn)”功能

從採(cǎi)用到優(yōu)勢(shì):2025年塑造企業(yè)LLM的10個(gè)趨勢(shì) 從採(cǎi)用到優(yōu)勢(shì):2025年塑造企業(yè)LLM的10個(gè)趨勢(shì) Jun 20, 2025 am 11:13 AM

以下是重塑企業(yè)AI景觀的十種引人注目的趨勢(shì)。對(duì)LLMSorganizations的財(cái)務(wù)承諾正在大大增加其在LLMS的投資,其中72%的人預(yù)計(jì)他們的支出今年會(huì)增加。目前,近40%a

AI投資者停滯不前? 3條購(gòu)買(mǎi),建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購(gòu)買(mǎi),建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨(dú)特性的衰落,以AI為中心的風(fēng)險(xiǎn)投資的投資者必須做出關(guān)鍵決定:購(gòu)買(mǎi),建立或合作夥伴才能獲得優(yōu)勢(shì)?這是評(píng)估每個(gè)選項(xiàng)和PR的方法

生成AI的不可阻擋的增長(zhǎng)(AI Outlook第1部分) 生成AI的不可阻擋的增長(zhǎng)(AI Outlook第1部分) Jun 21, 2025 am 11:11 AM

披露:我的公司Tirias Research已向IBM,NVIDIA和本文提到的其他公司諮詢(xún)。 Growth驅(qū)動(dòng)力的生成AI採(cǎi)用的激增比最樂(lè)觀的預(yù)測(cè)更具戲劇性。然後,

新蓋洛普?qǐng)?bào)告:AI文化準(zhǔn)備就緒需要新的心態(tài) 新蓋洛普?qǐng)?bào)告:AI文化準(zhǔn)備就緒需要新的心態(tài) Jun 19, 2025 am 11:16 AM

廣泛採(cǎi)用和情感準(zhǔn)備之間的差距揭示了人類(lèi)如何與越來(lái)越多的數(shù)字伴侶互動(dòng)。我們正在進(jìn)入共存階段,算法編織到我們的日?,F(xiàn)場(chǎng)

這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 Jun 20, 2025 am 11:16 AM

由於AI,那些日子是編號(hào)的。根據(jù)一個(gè)螺柱,搜索企業(yè)諸如Travel網(wǎng)站皮劃艇和Edtech Company Chegg之類(lèi)的企業(yè)正在下降,部分原因是60%的網(wǎng)站搜索不會(huì)導(dǎo)致用戶(hù)單擊任何鏈接。

AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟?lèi)天花板的假設(shè)障礙 AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟?lèi)天花板的假設(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來(lái)談?wù)劇? 對(duì)創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識(shí)別和解釋各種有影響力的AI複雜性(請(qǐng)參閱此處的鏈接)。 前往Agi和

思科在美國(guó)2025 思科在美國(guó)2025 Jun 19, 2025 am 11:10 AM

讓我們仔細(xì)研究一下我發(fā)現(xiàn)的最重要的東西,以及思科如何以其目前的努力來(lái)進(jìn)一步實(shí)現(xiàn)其野心。

See all articles