国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
;元素,通常包含新聞網(wǎng)站上的文章標題。
首頁 后端開發(fā) Python教程 簡化網(wǎng)頁抓?。菏褂?BeautifulSoup 提取文章標題

簡化網(wǎng)頁抓?。菏褂?BeautifulSoup 提取文章標題

Dec 20, 2024 pm 01:23 PM

Web Scraping Simplified: Extracting Article Titles with BeautifulSoup

簡化網(wǎng)頁抓取:使用 BeautifulSoup 提取文章標題

介紹

網(wǎng)絡(luò)抓取對于需要高效地從網(wǎng)絡(luò)收集數(shù)據(jù)的開發(fā)人員來說是一項基本技能。在本教程中,我們將演練一個簡單的 Python 腳本,使用 BeautifulSoup(一個用于解析 HTML 和 XML 的強大庫)從新聞網(wǎng)站中抓取文章標題。

在本教程結(jié)束時,您將擁有一個腳本,只需幾行代碼即可從網(wǎng)頁中提取并顯示文章標題!


先決條件

在深入研究代碼之前,請確保您的系統(tǒng)上安裝了 Python。您還需要以下庫:

  1. 請求:發(fā)出 HTTP 請求并獲取網(wǎng)頁內(nèi)容。
  2. BeautifulSoup (bs4):從 HTML 中解析和提取數(shù)據(jù)。

您可以使用 pip 安裝這些庫:

pip install requests beautifulsoup4

?問題

假設(shè)您想跟蹤 BBC 新聞等網(wǎng)站的最新新聞。您可以使用 Python 自動執(zhí)行此任務(wù)并抓取文章標題以進行分析或顯示,而不是手動訪問該網(wǎng)站。


守則

這是用于抓取文章標題的完整 Python 腳本:

import requests
from bs4 import BeautifulSoup

def fetch_article_titles(url):
    try:
        # Step 1: Send an HTTP GET request to fetch the webpage
        response = requests.get(url)
        response.raise_for_status()  # Ensure the request was successful

        # Step 2: Parse the webpage content with BeautifulSoup
        soup = BeautifulSoup(response.text, "html.parser")

        # Step 3: Use a CSS selector to find all article titles
        titles = []
        for heading in soup.select("h3"):  # Most news sites use <h3> tags for article titles
            titles.append(heading.get_text(strip=True))  # Extract and clean the text

        return titles
    except requests.exceptions.RequestException as e:
        print(f"Error fetching the webpage: {e}")
        return []
    except Exception as e:
        print(f"Error during parsing: {e}")
        return []

# Example usage: Fetching titles from BBC News
url = "https://www.bbc.com/news"
titles = fetch_article_titles(url)

# Print the article titles
print("Latest Article Titles:")
for i, title in enumerate(titles, 1):
    print(f"{i}. {title}")


它是如何運作的

  1. 提出請求

    • 我們使用requests.get方法來獲取目標網(wǎng)頁的內(nèi)容。
    • raise_for_status 方法可確保盡早捕獲任何 HTTP 錯誤(如 404 或 500)。
  2. 解析內(nèi)容:

    • BeautifulSoup 庫解析 HTML 內(nèi)容,使使用 CSS 選擇器輕松導航和提取元素。
  3. 提取標題

    • soup.select 方法獲取所有

      ;元素,通常包含新聞網(wǎng)站上的文章標題。

    • get_text 方法從每個元素中提取干凈的文本。

示例輸出

運行腳本時,您將獲得一個干凈的文章標題列表:

Latest Article Titles:
1. Israel-Gaza conflict: Latest updates
2. Global markets fall amid economic uncertainty
3. AI advancements raise ethical questions
4. Football: Premier League results
...

自定義腳本

您可以修改此腳本以抓取其他類型的內(nèi)容或定位不同的網(wǎng)站。您可以嘗試以下一些調(diào)整:

  • 更改 CSS 選擇器:
    如果目標網(wǎng)站具有不同的結(jié)構(gòu),請將“h3”替換為更具體的選擇器(例如“div.article-title”)。

  • 抓取額外數(shù)據(jù):
    通過選擇相關(guān)的 HTML 元素和屬性來提取 URL、發(fā)布日期或摘要。


道德抓取的技巧

  1. 尊重網(wǎng)站的服務(wù)條款
    請務(wù)必檢查網(wǎng)站的 robots.txt 文件或使用條款,以確保允許抓取。

  2. 限制您的請求
    通過使用 time.sleep 方法在請求之間添加延遲來避免服務(wù)器過載。

  3. 優(yōu)雅地處理變化
    網(wǎng)站可以改變其結(jié)構(gòu),從而破壞您的腳本。始終準備好調(diào)試和更新您的代碼。


結(jié)論

僅用幾行 Python 代碼,我們就構(gòu)建了一個簡單但功能強大的腳本來從新聞網(wǎng)站抓取文章標題。 BeautifulSoup 可以輕松導航和提取所需的數(shù)據(jù),而 requests 則處理 HTTP 交互。

網(wǎng)絡(luò)抓取可以釋放大量機會,從監(jiān)控趨勢到自動化數(shù)據(jù)收集。請記住負責任地刮擦!

以上是簡化網(wǎng)頁抓?。菏褂?BeautifulSoup 提取文章標題的詳細內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻,版權(quán)歸原作者所有,本站不承擔相應法律責任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動的應用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機

Video Face Swap

Video Face Swap

使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

什么是動態(tài)編程技術(shù),如何在Python中使用它們? 什么是動態(tài)編程技術(shù),如何在Python中使用它們? Jun 20, 2025 am 12:57 AM

動態(tài)規(guī)劃(DP)通過將復雜問題分解為更簡單的子問題并存儲其結(jié)果以避免重復計算,來優(yōu)化求解過程。主要方法有兩種:1.自頂向下(記憶化):遞歸分解問題,使用緩存存儲中間結(jié)果;2.自底向上(表格化):從基礎(chǔ)情況開始迭代構(gòu)建解決方案。適用于需要最大/最小值、最優(yōu)解或存在重疊子問題的場景,如斐波那契數(shù)列、背包問題等。在Python中,可通過裝飾器或數(shù)組實現(xiàn),并應注意識別遞推關(guān)系、定義基準情況及優(yōu)化空間復雜度。

如何使用插座在Python中執(zhí)行網(wǎng)絡(luò)編程? 如何使用插座在Python中執(zhí)行網(wǎng)絡(luò)編程? Jun 20, 2025 am 12:56 AM

Python的socket模塊是網(wǎng)絡(luò)編程的基礎(chǔ),提供低級網(wǎng)絡(luò)通信功能,適用于構(gòu)建客戶端和服務(wù)器應用。要設(shè)置基本TCP服務(wù)器,需使用socket.socket()創(chuàng)建對象,綁定地址和端口,調(diào)用.listen()監(jiān)聽連接,并通過.accept()接受客戶端連接。構(gòu)建TCP客戶端需創(chuàng)建socket對象后調(diào)用.connect()連接服務(wù)器,再使用.sendall()發(fā)送數(shù)據(jù)和.recv()接收響應。處理多個客戶端可通過1.線程:每次連接啟動新線程;2.異步I/O:如asyncio庫實現(xiàn)無阻塞通信。注意事

如何在Python中切片列表? 如何在Python中切片列表? Jun 20, 2025 am 12:51 AM

Python列表切片的核心答案是掌握[start:end:step]語法并理解其行為。1.列表切片的基本格式為list[start:end:step],其中start是起始索引(包含)、end是結(jié)束索引(不包含)、step是步長;2.省略start默認從0開始,省略end默認到末尾,省略step默認為1;3.獲取前n項用my_list[:n],獲取后n項用my_list[-n:];4.使用step可跳過元素,如my_list[::2]取偶數(shù)位,負step值可反轉(zhuǎn)列表;5.常見誤區(qū)包括end索引不

如何使用DateTime模塊在Python中使用日期和時間? 如何使用DateTime模塊在Python中使用日期和時間? Jun 20, 2025 am 12:58 AM

Python的datetime模塊能滿足基本的日期和時間處理需求。1.可通過datetime.now()獲取當前日期和時間,也可分別提取.date()和.time()。2.能手動創(chuàng)建特定日期時間對象,如datetime(year=2025,month=12,day=25,hour=18,minute=30)。3.使用.strftime()按格式輸出字符串,常見代碼包括%Y、%m、%d、%H、%M、%S;用strptime()將字符串解析為datetime對象。4.利用timedelta進行日期運

Python類中的多態(tài)性 Python類中的多態(tài)性 Jul 05, 2025 am 02:58 AM

多態(tài)是Python面向?qū)ο缶幊讨械暮诵母拍?,指“一種接口,多種實現(xiàn)”,允許統(tǒng)一處理不同類型的對象。1.多態(tài)通過方法重寫實現(xiàn),子類可重新定義父類方法,如Animal類的speak()方法在Dog和Cat子類中有不同實現(xiàn)。2.多態(tài)的實際用途包括簡化代碼結(jié)構(gòu)、增強可擴展性,例如圖形繪制程序中統(tǒng)一調(diào)用draw()方法,或游戲開發(fā)中處理不同角色的共同行為。3.Python實現(xiàn)多態(tài)需滿足:父類定義方法,子類重寫該方法,但不要求繼承同一父類,只要對象實現(xiàn)相同方法即可,這稱為“鴨子類型”。4.注意事項包括保持方

我如何寫一個簡單的'你好,世界!” Python的程序? 我如何寫一個簡單的'你好,世界!” Python的程序? Jun 24, 2025 am 12:45 AM

"Hello,World!"程序是用Python編寫的最基礎(chǔ)示例,用于展示基本語法并驗證開發(fā)環(huán)境是否正確配置。1.它通過一行代碼print("Hello,World!")實現(xiàn),運行后會在控制臺輸出指定文本;2.運行步驟包括安裝Python、使用文本編輯器編寫代碼、保存為.py文件、在終端執(zhí)行該文件;3.常見錯誤有遺漏括號或引號、誤用大寫Print、未保存為.py格式以及運行環(huán)境錯誤;4.可選工具包括本地文本編輯器 終端、在線編輯器(如replit.com)

Python中有哪些元素,它們與列表有何不同? Python中有哪些元素,它們與列表有何不同? Jun 20, 2025 am 01:00 AM

TuplesinPythonareimmutabledatastructuresusedtostorecollectionsofitems,whereaslistsaremutable.Tuplesaredefinedwithparenthesesandcommas,supportindexing,andcannotbemodifiedaftercreation,makingthemfasterandmorememory-efficientthanlists.Usetuplesfordatain

如何在Python中產(chǎn)生隨機字符串? 如何在Python中產(chǎn)生隨機字符串? Jun 21, 2025 am 01:02 AM

要生成隨機字符串,可以使用Python的random和string模塊組合。具體步驟為:1.導入random和string模塊;2.定義字符池如string.ascii_letters和string.digits;3.設(shè)定所需長度;4.調(diào)用random.choices()生成字符串。例如代碼包括importrandom與importstring、設(shè)置length=10、characters=string.ascii_letters string.digits并執(zhí)行''.join(random.c

See all articles