国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 web前端 js教程 如何使用 Puppeteer 進行網(wǎng)頁抓?。撼鯇W者友好指南

如何使用 Puppeteer 進行網(wǎng)頁抓取:初學者友好指南

Jan 08, 2025 am 12:46 AM

How to Web Scrape with Puppeteer: A Beginner-Friendly Guide

網(wǎng)絡抓取是從網(wǎng)站收集數(shù)據(jù)的極其強大的工具。借助 Puppeteer(Google 的 Node.js 無頭瀏覽器庫),您可以自動執(zhí)行頁面導航、單擊按鈕和提取信息的過程,同時模仿人類瀏覽行為。本指南將以簡單、清晰且可操作的方式引導您了解使用 Puppeteer 進行網(wǎng)頁抓取的基本知識。

什么是傀儡師?

Puppeteer 是一個 Node.js 庫,可讓您控制 Google Chrome(或 Chromium)的無頭版本。無頭瀏覽器在沒有圖形用戶界面 (GUI) 的情況下運行,使其速度更快,非常適合抓取等自動化任務。但是,如果您需要直觀地查看正在發(fā)生的情況,Puppeteer 也可以在完整瀏覽器模式下運行。

為什么選擇 Puppeteer 進行網(wǎng)頁抓?。?

靈活性:Puppeteer 可以輕松處理動態(tài)網(wǎng)站和單頁應用程序 (SPA)。
JavaScript 支持:它在頁面上執(zhí)行 JavaScript,這對于抓取現(xiàn)代網(wǎng)絡應用程序至關重要。
自動化能力:您可以執(zhí)行填寫表格、單擊按鈕甚至截屏等任務。

將代理與 Puppeteer 一起使用

抓取網(wǎng)站時,代理對于避免 IP 禁令和訪問地理限制內(nèi)容至關重要。代理充當您的抓取工具和目標網(wǎng)站之間的中介,掩蓋您的真實 IP 地址。對于 Puppeteer,您可以通過將代理作為啟動參數(shù)傳遞來輕松集成代理:

javascript
復制代碼
const browser = wait puppeteer.launch({
args: ['--proxy-server=your-proxy-server:port']
});
代理對于擴展抓取工作特別有用。輪換代理可確保每個請求都來自不同的 IP,從而減少檢測到的機會。住宅代理以其真實性而聞名,非常適合繞過機器人防御,而數(shù)據(jù)中心代理速度更快、價格更便宜。選擇符合您的抓取需求的類型,并始終測試性能以確??煽啃浴?/p>

設置 Puppeteer

開始抓取之前,您需要設置 Puppeteer。讓我們深入了解分步過程:
第 1 步:安裝 Node.js 和 Puppeteer
安裝Node.js:從官網(wǎng)下載并安裝Node.js。
設置 Puppeteer:打開終端并運行以下命令:
重擊
復制代碼
npm install puppeteer

這將安裝 Puppeteer 和 Chromium,它控制的瀏覽器。
第 2 步:編寫你的第一個 Puppeteer 腳本
創(chuàng)建一個新的 JavaScript 文件 scraper.js。這將容納您的抓取邏輯。讓我們編寫一個簡單的腳本來打開網(wǎng)頁并提取其標題:
javascript
復制代碼
const puppeteer = require('puppeteer');

(async () => {
const browser = wait puppeteer.launch();
const page = wait browser.newPage();

// 導航到網(wǎng)站
等待 page.goto('https://example.com');

// 提取標題
const title = wait page.title();
console.log(頁面標題: ${title});

等待 browser.close();
})();

使用以下命令運行腳本:
重擊
復制代碼
節(jié)點 scraper.js

您剛剛編寫了第一個 Puppeteer scraper!

用于抓取的核心 Puppeteer 功能

現(xiàn)在您已經(jīng)掌握了基礎知識,讓我們來探索一些用于抓取的關鍵 Puppeteer 功能。

  1. 導航至頁面
    page.goto(url) 方法允許您打開任何 URL。如果需要,添加超時設置等選項:
    javascript
    復制代碼
    wait page.goto('https://example.com', { timeout: 60000 });

  2. 選擇元素
    使用 CSS 選擇器來精確定位頁面上的元素。 Puppeteer 提供了如下方法:
    第一個匹配的 page.$(selector)
    page.$$(選擇器) 適用于所有匹配
    示例:
    javascript
    復制代碼
    const 元素=await page.$('h1');
    const text = wait page.evaluate(el => el.textContent, element);
    console.log(標題: ${text});

  3. 與元素互動
    模擬用戶交互,例如點擊和鍵入:
    javascript
    復制代碼
    等待 page.click('#submit-button');
    wait page.type('#search-box', 'Puppeteer scraping');

  4. 等待元素
    網(wǎng)頁以不同的速度加載。 Puppeteer 允許您在繼續(xù)操作之前等待元素:
    javascript
    復制代碼
    等待 page.waitForSelector('#dynamic-content');

  5. 截圖
    可視化調(diào)試或將數(shù)據(jù)保存為圖像很容易:
    javascript
    復制代碼
    wait page.screenshot({ path: 'screenshot.png', fullPage: true });

處理動態(tài)內(nèi)容

當今許多網(wǎng)站使用 JavaScript 動態(tài)加載內(nèi)容。 Puppeteer 在這里大放異彩,因為它執(zhí)行 JavaScript,允許您抓取頁面源代碼中可能不可見的內(nèi)容。
示例:提取動態(tài)數(shù)據(jù)
javascript
復制代碼
等待 page.goto('https://news.ycombinator.com');
等待 page.waitForSelector('.storylink');

const headers = wait page.$$eval('.storylink', links => links.map(link => link.textContent));
console.log('頭條新聞:', 頭條新聞);

處理驗證碼和機器人檢測

一些網(wǎng)站采取了阻止機器人的措施。 Puppeteer 可以幫助繞過簡單的檢查:
使用隱身模式:安裝 puppeteer-extra 插件:
重擊
復制代碼
npm install puppeteer-extra puppeteer-extra-plugin-stealth
將其添加到您的腳本中:
javascript
復制代碼
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());

模仿人類行為:隨機化鼠標移動和打字速度等動作,以顯得更加人性化。
輪換用戶代理:根據(jù)每個請求更改瀏覽器的用戶代理:
javascript
復制代碼
wait page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64)');

保存抓取的數(shù)據(jù)

提取數(shù)據(jù)后,您可能想要保存它。以下是一些常見的格式:
JSON:
javascript
復制代碼
const fs = require('fs');
const data = { name: 'Puppeteer', type: 'library' };
fs.writeFileSync('data.json', JSON.stringify(data, null, 2));

CSV:使用像 csv-writer 這樣的庫:
重擊
復制代碼
npm 安裝 csv-writer
javascript
復制代碼
const createCsvWriter = require('csv-writer').createObjectCsvWriter;

const csvWriter = createCsvWriter({
路徑: 'data.csv',
標題:[
{ id: '姓名', title: '姓名' },
{ id: '類型', title: '類型' }
]
});

const 記錄 = [{ name: 'Puppeteer', type: 'library' }];
csvWriter.writeRecords(records).then(() => console.log('CSV 文件已寫入。'));
道德網(wǎng)絡抓取實踐
在抓取網(wǎng)站之前,請記住這些道德準則:
檢查服務條款:始終確保網(wǎng)站允許抓取。
尊重速率限制:避免在短時間內(nèi)發(fā)送太多請求。使用 setTimeout 或 Puppeteer 的 page.waitForTimeout() 來間隔請求:
javascript
復制代碼
等待頁面.waitForTimeout(2000); // 等待2秒

避免敏感數(shù)據(jù):切勿抓取個人或私人信息。

常見問題故障排除

頁面無法正確加載:嘗試添加更長的超時或啟用完整瀏覽器模式:
javascript
復制代碼
const browser = wait puppeteer.launch({ headless: false });

選擇器不起作用:使用瀏覽器開發(fā)人員工具(Ctrl Shift C)檢查網(wǎng)站以確認選擇器。
被驗證碼阻止:使用隱身插件并模仿人類行為。

常見問題 (FAQ)

  1. Puppeteer 免費嗎? 是的,Puppeteer 是開源的并且可以免費使用。
  2. Puppeteer 可以抓取大量 JavaScript 的網(wǎng)站嗎? 絕對地! Puppeteer 執(zhí)行 JavaScript,非常適合抓取動態(tài)網(wǎng)站。
  3. 網(wǎng)頁抓取合法嗎? 這取決于。在抓取之前請務必檢查網(wǎng)站的服務條款。
  4. Puppeteer 可以繞過驗證碼嗎? Puppeteer 可以處理基本的驗證碼挑戰(zhàn),但高級挑戰(zhàn)可能需要第三方工具。

以上是如何使用 Puppeteer 進行網(wǎng)頁抓取:初學者友好指南的詳細內(nèi)容。更多信息請關注PHP中文網(wǎng)其他相關文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻,版權歸原作者所有,本站不承擔相應法律責任。如您發(fā)現(xiàn)有涉嫌抄襲侵權的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅動的應用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機

Video Face Swap

Video Face Swap

使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

Java vs. JavaScript:清除混亂 Java vs. JavaScript:清除混亂 Jun 20, 2025 am 12:27 AM

Java和JavaScript是不同的編程語言,各自適用于不同的應用場景。Java用于大型企業(yè)和移動應用開發(fā),而JavaScript主要用于網(wǎng)頁開發(fā)。

JavaScript評論:簡短說明 JavaScript評論:簡短說明 Jun 19, 2025 am 12:40 AM

JavascriptconcommentsenceenceEncorenceEnterential gransimenting,reading and guidingCodeeXecution.1)單inecommentsareusedforquickexplanations.2)多l(xiāng)inecommentsexplaincomplexlogicorprovideDocumentation.3)

如何在JS中與日期和時間合作? 如何在JS中與日期和時間合作? Jul 01, 2025 am 01:27 AM

JavaScript中的日期和時間處理需注意以下幾點:1.創(chuàng)建Date對象有多種方式,推薦使用ISO格式字符串以保證兼容性;2.獲取和設置時間信息可用get和set方法,注意月份從0開始;3.手動格式化日期需拼接字符串,也可使用第三方庫;4.處理時區(qū)問題建議使用支持時區(qū)的庫,如Luxon。掌握這些要點能有效避免常見錯誤。

為什么要將標簽放在的底部? 為什么要將標簽放在的底部? Jul 02, 2025 am 01:22 AM

PlacingtagsatthebottomofablogpostorwebpageservespracticalpurposesforSEO,userexperience,anddesign.1.IthelpswithSEObyallowingsearchenginestoaccesskeyword-relevanttagswithoutclutteringthemaincontent.2.Itimprovesuserexperiencebykeepingthefocusonthearticl

JavaScript與Java:開發(fā)人員的全面比較 JavaScript與Java:開發(fā)人員的全面比較 Jun 20, 2025 am 12:21 AM

JavaScriptIspreferredforredforwebdevelverment,而Javaisbetterforlarge-ScalebackendsystystemsandSandAndRoidApps.1)JavascriptexcelcelsincreatingInteractiveWebexperienceswebexperienceswithitswithitsdynamicnnamicnnamicnnamicnnamicnemicnemicnemicnemicnemicnemicnemicnemicnddommanipulation.2)

JavaScript:探索用于高效編碼的數(shù)據(jù)類型 JavaScript:探索用于高效編碼的數(shù)據(jù)類型 Jun 20, 2025 am 12:46 AM

javascripthassevenfundaMentalDatatypes:數(shù)字,弦,布爾值,未定義,null,object和symbol.1)numberSeadUble-eaduble-ecisionFormat,forwidevaluerangesbutbecautious.2)

什么是在DOM中冒泡和捕獲的事件? 什么是在DOM中冒泡和捕獲的事件? Jul 02, 2025 am 01:19 AM

事件捕獲和冒泡是DOM中事件傳播的兩個階段,捕獲是從頂層向下到目標元素,冒泡是從目標元素向上傳播到頂層。1.事件捕獲通過addEventListener的useCapture參數(shù)設為true實現(xiàn);2.事件冒泡是默認行為,useCapture設為false或省略;3.可使用event.stopPropagation()阻止事件傳播;4.冒泡支持事件委托,提高動態(tài)內(nèi)容處理效率;5.捕獲可用于提前攔截事件,如日志記錄或錯誤處理。了解這兩個階段有助于精確控制JavaScript響應用戶操作的時機和方式。

Java和JavaScript有什么區(qū)別? Java和JavaScript有什么區(qū)別? Jun 17, 2025 am 09:17 AM

Java和JavaScript是不同的編程語言。1.Java是靜態(tài)類型、編譯型語言,適用于企業(yè)應用和大型系統(tǒng)。2.JavaScript是動態(tài)類型、解釋型語言,主要用于網(wǎng)頁交互和前端開發(fā)。

See all articles