国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁(yè) 科技週邊 人工智慧 網(wǎng)絡(luò)用LLMS刮擦

網(wǎng)絡(luò)用LLMS刮擦

Mar 14, 2025 am 10:29 AM

利用LLM的力量來(lái)增強(qiáng)網(wǎng)絡(luò)刮擦

網(wǎng)絡(luò)刮擦仍然是一種提取在線(xiàn)信息的關(guān)鍵技術(shù),賦予開(kāi)發(fā)人員能夠收集跨不同領(lǐng)域的數(shù)據(jù)。大型語(yǔ)言模型(LLM)等大型語(yǔ)言模型(例如Chatgroq)顯著放大了網(wǎng)絡(luò)刮擦功能,從而提高了靈活性和準(zhǔn)確性。本文演示瞭如何與Web刮擦工具一起有效利用LLM,以從網(wǎng)頁(yè)獲得結(jié)構(gòu)化數(shù)據(jù)。

網(wǎng)絡(luò)用LLMS刮擦

關(guān)鍵學(xué)習(xí)目標(biāo):

  • 將LLMS(例如Chatgroq)與Web刮擦工具集成在一起。
  • 使用Playwright和LLM從網(wǎng)頁(yè)中提取結(jié)構(gòu)化數(shù)據(jù)。
  • 為L(zhǎng)LM驅(qū)動(dòng)的Web刮擦配置環(huán)境。
  • 處理並將Web內(nèi)容轉(zhuǎn)換為結(jié)構(gòu)化格式(例如,Markdown)。
  • 自動(dòng)化和縮放網(wǎng)絡(luò)刮擦以進(jìn)行有效的數(shù)據(jù)提取。

目錄:

  • 建立您的開(kāi)發(fā)環(huán)境
  • 提取Web內(nèi)容作為Markdown
  • 配置大型語(yǔ)言模型(LLM)
  • 刮擦著陸頁(yè)
  • 刮車(chē)清單
  • 結(jié)論
  • 常見(jiàn)問(wèn)題

設(shè)置您的開(kāi)發(fā)環(huán)境:

在開(kāi)始之前,請(qǐng)確保正確配置您的環(huán)境。安裝必要的庫(kù):

 !
!
!
!
!劇作家安裝鉻

此代碼段更新PIP,安裝用於瀏覽器自動(dòng)化的劇作家,HTML2Text用於HTML-TO-TO-MARKDOWN轉(zhuǎn)換,Langchain-Groq用於LLM集成,並為劇作家下載Chromium。

導(dǎo)入基本模塊:

導(dǎo)入所需的模塊:

導(dǎo)入
來(lái)自Pprint Import Pprint
從輸入導(dǎo)入列表,可選

導(dǎo)入html2Text
導(dǎo)入NEST_ASYNCIO
導(dǎo)入大熊貓作為pd
從Google.Colab導(dǎo)入U(xiǎn)serData
來(lái)自langchain_groq導(dǎo)入changroq
來(lái)自playwright.async_api導(dǎo)入async_playwright
來(lái)自Pydantic Import Basemodel,field
從TQDM導(dǎo)入TQDM

nest_asyncio.apply()

獲取Web內(nèi)容作為Markdown:

最初的刮擦步驟涉及檢索Web內(nèi)容。劇作家有助於加載網(wǎng)頁(yè)並提取其HTML:

 USER_AGENT =“ Mozilla/5.0(Macintosh; Intel Mac OS X 10_15_7)AppleWebkit/537.36(Khtml,像Gecko)Chrome/128.0.0.0.0.0 Safari/537.36
playwright =等待async_playwright()。start()
瀏覽器=等待playwright.chromium.launch()

context =等待瀏覽器.new_context(user_agent = user_agent)

page =等待context.new_page()
等待page.goto(“ https://playwright.dev/”)
content =等待頁(yè)面.content()

等待瀏覽器。close()
等待playwright.stop()
打印(內(nèi)容) 

網(wǎng)絡(luò)用LLMS刮擦

該代碼使用劇作家獲取網(wǎng)頁(yè)的HTML內(nèi)容。設(shè)置自定義用戶(hù)代理,瀏覽器導(dǎo)航到URL,並提取HTML。然後將瀏覽器關(guān)閉以免費(fèi)資源。

要簡(jiǎn)化處理,請(qǐng)使用HTML2Text將HTML轉(zhuǎn)換為Markdown:

 markdown_converter = html2text.html2text()
markdown_converter.ignore_links = false
markdown_content = markdown_converter.handle(content)
打?。╩arkdown_content) 

網(wǎng)絡(luò)用LLMS刮擦

設(shè)置大型語(yǔ)言模型(LLMS):

為結(jié)構(gòu)化數(shù)據(jù)提取配置LLM。我們將使用Chatgroq:

型號(hào)=“ Llama-3.1-70B反相”

llm = chatgroq(溫度= 0,model_name = model,api_key = userdata.get(“ groq_api_key”))

system_prompt =“”“”
您是專(zhuān)家文字提取器。您從網(wǎng)頁(yè)內(nèi)容中提取信息。
始終提取數(shù)據(jù)而無(wú)需更改數(shù)據(jù)和任何其他輸出。
”“”

def create_scrape_prompt(page_content:str) - > str:
    返回f“”
從下面的網(wǎng)頁(yè)中提取信息:

{page_content}

 <code>""".strip()</code>

這為Chatgroq設(shè)置了特定模型,系統(tǒng)提示指導(dǎo)LLM準(zhǔn)確提取信息。

(其餘部分,刮擦著陸頁(yè),刮擦汽車(chē)清單,結(jié)論和常見(jiàn)問(wèn)題,遵循與上述部分相似的代碼解釋和圖像包容性的模式。由於長(zhǎng)度,我在這裡省略了它們。但是,我在這裡省略了它們。但是,結(jié)構(gòu)和樣式將與已經(jīng)提供的示例保持一致。

完整的代碼(包括省略的部分)將非常廣泛。這種響應(yīng)提供了對(duì)初始設(shè)置和第一個(gè)主要步驟的詳細(xì)說(shuō)明,以證明整體方法和樣式。如果您需要詳細(xì)闡述的特定部分,請(qǐng)告訴我。

以上是網(wǎng)絡(luò)用LLMS刮擦的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線(xiàn)上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門(mén)話(huà)題

AI投資者停滯不前? 3條購(gòu)買(mǎi),建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購(gòu)買(mǎi),建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨(dú)特性的衰落,以AI為中心的風(fēng)險(xiǎn)投資的投資者必須做出關(guān)鍵決定:購(gòu)買(mǎi),建立或合作夥伴才能獲得優(yōu)勢(shì)?這是評(píng)估每個(gè)選項(xiàng)和PR的方法

AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟?lèi)天花板的假設(shè)障礙 AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟?lèi)天花板的假設(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來(lái)談?wù)劇? 對(duì)創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識(shí)別和解釋各種有影響力的AI複雜性(請(qǐng)參閱此處的鏈接)。 前往Agi和

構(gòu)建您的第一個(gè)LLM應(yīng)用程序:初學(xué)者的教程 構(gòu)建您的第一個(gè)LLM應(yīng)用程序:初學(xué)者的教程 Jun 24, 2025 am 10:13 AM

您是否曾經(jīng)嘗試過(guò)建立自己的大型語(yǔ)言模型(LLM)應(yīng)用程序?有沒(méi)有想過(guò)人們?nèi)绾翁岣咦约旱腖LM申請(qǐng)來(lái)提高生產(chǎn)率? LLM應(yīng)用程序已被證明在各個(gè)方面都有用

Kimi K2:最強(qiáng)大的開(kāi)源代理模型 Kimi K2:最強(qiáng)大的開(kāi)源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時(shí)候破壞了Genai行業(yè)的大量開(kāi)源中國(guó)模型嗎??jī)嵐蹹eepSeek佔(zhàn)據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

未來(lái)預(yù)測(cè)從AI到AGI的道路上的大規(guī)模情報(bào)爆炸 未來(lái)預(yù)測(cè)從AI到AGI的道路上的大規(guī)模情報(bào)爆炸 Jul 02, 2025 am 11:19 AM

讓我們來(lái)談?wù)劇? 對(duì)創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識(shí)別和解釋各種有影響力的AI複雜性(請(qǐng)參閱此處的鏈接)。對(duì)於那些讀者

AMD繼續(xù)在AI中建立動(dòng)力,還有很多工作要做 AMD繼續(xù)在AI中建立動(dòng)力,還有很多工作要做 Jun 28, 2025 am 11:15 AM

總體而言,我認(rèn)為該活動(dòng)對(duì)於展示AMD如何向客戶(hù)和開(kāi)發(fā)人員移動(dòng)球非常重要。在SU下,AMD的M.O.要製定明確,雄心勃勃的計(jì)劃並對(duì)他們執(zhí)行。她的“說(shuō)/do”比率很高。公司做

Grok 4 vs Claude 4:哪個(gè)更好? Grok 4 vs Claude 4:哪個(gè)更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競(jìng)賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車(chē)型Grok 4和Claude 4。這兩種模型處?kù)对O(shè)計(jì)理念和部署平臺(tái)的相反端,但他們卻在

推理模型的思想鏈可能無(wú)法長(zhǎng)期解決 推理模型的思想鏈可能無(wú)法長(zhǎng)期解決 Jul 02, 2025 am 11:18 AM

例如,如果您向模型提出一個(gè)問(wèn)題,例如:“(x)人在(x)公司做什麼?”您可能會(huì)看到一個(gè)看起來(lái)像這樣的推理鏈,假設(shè)系統(tǒng)知道如何檢索必要的信息:找到有關(guān)CO的詳細(xì)信息

See all articles