


Verwenden Sie Selenium, um Webseiten zu lesen, für die eine Mitgliederanmeldung erforderlich ist
Dec 08, 2024 am 10:22 AMEs ist eine sehr h?ufige Anforderung, einen Crawler zum Lesen von Webseiteninhalten zu verwenden. Es kann jedoch vorkommen, dass Sie sich vor dem Crawlen des Inhalts bei Ihrem Konto anmelden Bücher ist ein Beispiel hierfür. Sie sehen das folgende Chatfenster:
Da Cookies zum Aufzeichnen von Anmeldeinformationen nach der Anmeldung bei einem Konto verwendet werden, k?nnen wir uns zum Lesen einer solchen Webseite zun?chst manuell anmelden und dann das Cookie in eine Datei exportieren. Wenn Sie sp?ter Selen zum Crawlen der Webseite verwenden, fügen Sie die exportierten Cookies erneut hinzu, organisieren Sie die Webseite neu und der Webinhalt kann normal gelesen werden.
Cookies exportieren
Bitte ?ffnen Sie mit Selenium zuerst die Webseite, die Sie lesen m?chten. Hier ist ein Blog als Beispiel:
>>> from selenium import webdriver >>> driver = webdriver.Edge() >>> driver.get('https://www.books.com.tw')
Zu diesem Zeitpunkt melden Sie sich bitte gem?? den normalen Verfahren als Mitglied an und installieren Sie dann das cookie_editor-Plug-in:
Bitte denken Sie daran, zurück zur Homepage des Blogs zu wechseln und das Plug-in zu verwenden, um alle Cookies im JSON-Format zu exportieren:
Der Cookie-Inhalt wird in die Zwischenablage kopiert. Bitte fügen Sie ihn in einen Texteditor ein und archivieren Sie ihn selbst.
Cookies erneut hinzufügen
Dann schlie?en Sie Selenium und ?ffnen es wieder:
>>> from selenium import webdriver >>> driver = webdriver.Edge() >>> driver.get('https://www.books.com.tw')
Um Cookies hinzuzufügen, müssen Sie sich auf einer Webseite in derselben Domain wie das Cookie befinden. Denken Sie also daran, zuerst den Blog zu ?ffnen, um auf die Webseite zuzugreifen. Anschlie?end k?nnen Sie die Datei, in der das Cookie gespeichert ist, ?ffnen und in ein Python-W?rterbuch laden:
>>> import json >>> with open('cookies.json') as f: ... cookies = json.load(f)
Fügen Sie die Cookies einzeln wieder hinzu:
>>> for cookie in cookies: ... driver.add_cookie(cookie)
An dieser Stelle sollte die folgende Fehlermeldung angezeigt werden:
Traceback (most recent call last): File "<stdin>", line 3, in <module> File "C:\Users\meebo\code\python\poetry_env\py310\.venv\lib\site-packages\selenium\webdriver\remote\webdriver.py", line 670, in add_cookie assert cookie_dict["sameSite"] in ["Strict", "Lax", "None"] AssertionError
Dies liegt daran, dass in den vom Cookie-Editor exportierten Daten das sameSite-Attribut Null verwendet, um ?no_restriction“ darzustellen, was bedeutet, dass es keine Einschr?nkung gibt und es sich um dieselbe Website handeln muss, Selenium jedoch nur ?Strict“ und ?Lax“ erkennt ", ?Keine“ Diese drei Einschr?nkungen werden daher als Fehler diagnostiziert. Wir müssen die JSON-Datei manuell ?ndern und alle sameSite-Attributwerte auf ?Keine“ ?ndern (beachten Sie, dass es sich um Zeichenfolgen handelt). Bitte überprüfen Sie auch, ob die Dom?ne vorhanden ist nicht ?.books.com.“ tw“ Cookie-L?schung:
[ { "domain": ".books.com.tw", "expirationDate": 1767941747.633402, "hostOnly": false, "httpOnly": false, "name": "_ga_TR763QQ559", "path": "/", "sameSite": null, "secure": false, "session": false, "storeId": null, "value": "GS1.1.1733381542.1.1.1733381747.0.0.0" }, ... { "domain": ".books.com.tw", "expirationDate": 1748933733, "hostOnly": false, "httpOnly": false, "name": "__eoi", "path": "/", "sameSite": "no_restriction", "secure": true, "session": false, "storeId": null, "value": "ID=7f42c4647467b5fb:T=1733381733:RT=1733381733:S=AA-AfjbpJCe1kw2klEX0xW55n9CY" }, ... ]
Nach der ?nderung laden Sie die Cookies neu und fügen sie hinzu. Es treten keine Fehler auf.
Aktualisieren Sie die Webseite, damit Cookies wirksam werden
Nach dem Hinzufügen von Cookies ist der angezeigte Bildschirm immer noch der eines nicht angemeldeten Bildschirms:
Die Seite muss aktualisiert werden, damit das Cookie wirksam wird:
>>> driver.refresh()
Was Sie sehen, ist die Seite, auf der Sie sich als Mitglied anmelden k?nnen:
Auf diese Weise k?nnen Sie Selen zum Lesen von Seiten verwenden, für die eine Mitgliederanmeldung erforderlich ist.
Als letztes müssen Sie daran erinnern, dass Cookies gültig sind. Wenn Sie sich nach einer gewissen Zeit nicht mehr mit dem zuvor gespeicherten Cookie anmelden k?nnen, befolgen Sie einfach die oben genannten Schritte, um das Cookie erneut zu erhalten.
Das obige ist der detaillierte Inhalt vonVerwenden Sie Selenium, um Webseiten zu lesen, für die eine Mitgliederanmeldung erforderlich ist. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Hei?e KI -Werkzeuge

Undress AI Tool
Ausziehbilder kostenlos

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem v?llig kostenlosen KI-Gesichtstausch-Tool aus!

Hei?er Artikel

Hei?e Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Der Schlüssel zum Umgang mit der API -Authentifizierung besteht darin, die Authentifizierungsmethode korrekt zu verstehen und zu verwenden. 1. Apikey ist die einfachste Authentifizierungsmethode, die normalerweise in den Anforderungsheader- oder URL -Parametern platziert ist. 2. BasicAuth verwendet Benutzername und Kennwort für die Basis64 -Codierungsübertragung, die für interne Systeme geeignet ist. 3.. OAuth2 muss das Token zuerst über Client_id und Client_secret erhalten und dann das BearerToken in den Anforderungsheader bringen. V. Kurz gesagt, die Auswahl der entsprechenden Methode gem?? dem Dokument und das sichere Speichern der Schlüsselinformationen ist der Schlüssel.

Assert ist ein Inssertion -Tool, das in Python zum Debuggen verwendet wird, und wirft einen Assertionerror aus, wenn der Zustand nicht erfüllt ist. Die Syntax ist eine geltende Bedingung sowie optionale Fehlerinformationen, die für die interne Logiküberprüfung geeignet sind, z. B. Parameterprüfung, Statusbest?tigung usw., k?nnen jedoch nicht für die Sicherheits- oder Benutzereingabeprüfung verwendet werden und sollten in Verbindung mit klaren Eingabeaufforderungen verwendet werden. Es ist nur zum Hilfsdebuggen in der Entwicklungsphase verfügbar, anstatt die Ausnahmebehandlung zu ersetzen.

TypHintsinpythonsolvetheProblemofAmbiguityAndpotentialbugsindynamicalpedCodeByAllowingDevelopstospecifyexpectypes

Eine gemeinsame Methode, um zwei Listen gleichzeitig in Python zu durchqueren, besteht darin, die Funktion ZIP () zu verwenden, die mehrere Listen in der Reihenfolge und die kürzeste ist. Wenn die Listenl?nge inkonsistent ist, k?nnen Sie iTertools.zip_longest () verwenden, um die l?ngste zu sein und die fehlenden Werte auszufüllen. In Kombination mit Enumerate () k?nnen Sie den Index gleichzeitig erhalten. 1.zip () ist pr?gnant und praktisch, geeignet für die Iteration gepaarte Daten; 2.zip_longest () kann den Standardwert beim Umgang mit inkonsistenten L?ngen einfüllen. 3.Enumerate (ZIP ()) kann w?hrend des Durchlaufens Indizes erhalten und die Bedürfnisse einer Vielzahl komplexer Szenarien erfüllen.

INPYTHON, ITERATORATORSAROBJECTSHATALWOULOUPING ThroughCollections Byimplementing__iter __ () und __Next __ (). 1) IteratorsworkviATheiterProtocol, verwendete __iter __ () toreturn thiteratorand__Next __ () torethentexteemtemuntemuntilstoperationSaised.2) und

Um moderne und effiziente APIs mit Python zu schaffen, wird Fastapi empfohlen. Es basiert auf Eingabeaufforderungen an Standardpython -Typ und kann automatisch Dokumente mit ausgezeichneter Leistung generieren. Nach der Installation von Fastapi und ASGI Server Uvicorn k?nnen Sie Schnittstellencode schreiben. Durch das Definieren von Routen, das Schreiben von Verarbeitungsfunktionen und die Rückgabe von Daten kann schnell APIs erstellt werden. Fastapi unterstützt eine Vielzahl von HTTP -Methoden und bietet automatisch generierte Swaggerui- und Redoc -Dokumentationssysteme. URL -Parameter k?nnen durch Pfaddefinition erfasst werden, w?hrend Abfrageparameter durch Einstellen von Standardwerten für Funktionsparameter implementiert werden k?nnen. Der rationale Einsatz pydantischer Modelle kann dazu beitragen, die Entwicklungseffizienz und Genauigkeit zu verbessern.

Um die API zu testen, müssen Sie Pythons Anfragebibliothek verwenden. In den Schritten werden die Bibliothek installiert, Anfragen gesendet, Antworten überprüfen, Zeitüberschreitungen festlegen und erneut werden. Installieren Sie zun?chst die Bibliothek über PipinstallRequests. Verwenden Sie dann Requests.get () oder Requests.Post () und andere Methoden zum Senden von GET- oder Post -Anfragen. überprüfen Sie dann die Antwort. Fügen Sie schlie?lich Zeitüberschreitungsparameter hinzu, um die Zeitüberschreitungszeit festzulegen, und kombinieren Sie die Wiederholungsbibliothek, um eine automatische Wiederholung zu erreichen, um die Stabilit?t zu verbessern.

In Python sind Variablen, die in einer Funktion definiert sind, lokale Variablen und sind nur innerhalb der Funktion gültig. Extern definiert sind globale Variablen, die überall gelesen werden k?nnen. 1. lokale Variablen werden zerst?rt, wenn die Funktion ausgeführt wird. 2. Die Funktion kann auf globale Variablen zugreifen, kann jedoch nicht direkt ge?ndert werden, sodass das globale Schlüsselwort erforderlich ist. 3. Wenn Sie die ?u?eren Funktionsvariablen in verschachtelten Funktionen ?ndern m?chten, müssen Sie das nichtlokale Schlüsselwort verwenden. 4.. Variablen mit demselben Namen beeinflussen sich in verschiedenen Bereichen nicht gegenseitig; 5. Global muss bei der Modifizierung globaler Variablen deklariert werden, ansonsten werden ungebundener Fehler aufgeworfen. Das Verst?ndnis dieser Regeln hilft bei der Vermeidung von Fehler und zum Schreiben zuverl?ssigerer Funktionen.
