


Comment travailler avec les fichiers PDF en Java à l'aide d'Apache PDFBox?
Jul 10, 2025 pm 12:45 PMApache PDFBox est un outil courant pour traiter les fichiers PDF en Java, en prenant en charge la création, la lecture, la fusion et l'ajout de filigranes. 1. Créez PDF: utilisez PDDocument et PDPageContentStream pour ajouter des pages et écrire des contenus; 2. Lire le contenu: extraire le texte via PDFTextStripper, mais le fichier numérisé ne peut pas être reconnu; 3. Fermer des fichiers: utilisez PDFMergerutility pour ajouter plusieurs fichiers source et fusionner les sorties; 4. Ajouter un filigrane: créer des couches transparentes après le chargement du document et dessiner du texte de filigrane ou des images sur la page spécifiée. Assurez-vous de fermer l'objet de document une fois l'opération terminée pour éviter les fuites de mémoire.
Le traitement des fichiers PDF est une exigence commune en Java, en particulier lors de la génération de rapports, de la manipulation de documents ou de l'extraction de contenu. Apache PDFBox est une bibliothèque puissante et open source qui peut être utilisée pour créer, manipuler et extraire le contenu PDF. Voici quelques méthodes de mise en ?uvre des opérations courantes.

Créer un nouveau fichier PDF
Si vous devez générer un PDF à partir de zéro, PDFBox fournit une prise en charge de l'API de base.
-
Ajoutez d'abord des dépendances (exemple maven):
<dépendance> <proupId> org.apache.pdfbox </rombandid> <ArtefactId> PDFBOX </ ArfactId> <version> 2.0.27 </ version> </Dependance>
étapes de base pour créer et écrire du contenu:
- Créez un objet de document à l'aide de
PDDocument
. - Ajoutez une page et écrivez du texte ou des graphiques via
PDPageContentStream
. - Enfin, n'oubliez pas de fermer le flux et les documents pour éviter la fuite des ressources.
Exemple d'extrait de code:

PDDocument document = new pdDocument (); Pdpage page = new pdpage (); document.addpage (page); try (pdpageContentsTream Contentsstream = new PdpageContentsTream (document, page)) { ContentStream.begIntext (); ContentStream.setfont (pdtype1font.helvetica_bold, 12); ContentStream.NewLineatOffset (50, 700); ContentStream.showText ("Hello, pdfbox!"); ContentStream.endText (); } document.save ("output.pdf"); document.close ();
Lire le contenu d'un fichier PDF existant
L'extraction du contenu texte dans PDF est une autre tache courante, comme faire une recherche de mots clés ou une extraction de données.
Cette tache peut être facilement accomplie à l'aide de la classe PDFTextStripper
:
PDDocument document = pdDocument.load (nouveau fichier ("input.pdf")); PdftextStripper stripper = new pdftextStripper (); String text = stripper.getText (document); System.out.println (texte); document.close ();
Remarque: Certains PDF se présentent sous forme de numérisation ou d'images. Ces fichiers ne peuvent pas extraire directement du texte et nécessitent une assistance technique OCR.
Fusionner plusieurs fichiers PDF
Parfois, vous devez synthétiser plusieurs PDF en un seul, PDFMergerUtility
de PDFBOX peut le faire.
L'utilisation est à peu près la suivante:
- Créez
PDFMergerUtility
. - Ajoutez plusieurs sources d'entrée.
- Définissez la cible de sortie.
- Appelez la méthode
mergeDocuments()
à fusionner.
Exemple:
PdfMergerUtility Merger = new PdfMergerUtility (); Merger.addsource ("file1.pdf"); Merger.Addsource ("File2.pdf"); Merger.setDestinationFileName ("Merged_Output.pdf"); Merge.Mergedocuments (null);
Ajouter une page de filigrane ou de signature
L'ajout d'un filigrane ou la fixation d'une page de signature au PDF peut être réalisé en recouvrant un nouveau calque.
Idées de base:
- Chargez le document d'origine.
- Créez une nouvelle couche transparente.
- Dessinez du texte ou de l'image de filigrane sur ce calque.
- Recouvrez le calque sur chaque page ou sur une page spécifiée.
Cette partie est un peu plus compliquée et implique l'utilisation de PDPageContentStream
et PDImageXObject
. Si vous ajoutez simplement des filigranes de texte, vous pouvez ajouter du texte translucide en haut de chaque page de la même manière pour créer un PDF.
Fondamentalement, ces opérations communes. PDFBox a de nombreuses fonctions, mais ce qui précède est les scénarios les plus courants rencontrés. Lorsque je l'utilise pour la première fois, je peux sentir que le nom de la classe est un peu déroutant, mais je me familiariserai après l'avoir essayé plusieurs fois. Il convient de noter que n'oubliez pas de fermer l'objet de document après l'opération, sinon il entra?nera facilement une fuite de mémoire.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

La différence entre le hashmap et le hashtable se reflète principalement dans la sécurité des threads, la prise en charge de la valeur nul et les performances. 1. En termes de sécurité des threads, le hashtable est en filetage et ses méthodes sont principalement des méthodes synchrones, tandis que HashMAP n'effectue pas de traitement de synchronisation, qui n'est pas un filetage; 2. En termes de support de valeur nulle, HashMap permet une clé nul et plusieurs valeurs nulles, tandis que le hashtable ne permet pas les clés ou les valeurs nulles, sinon une nulpointerexception sera lancée; 3. En termes de performances, le hashmap est plus efficace car il n'y a pas de mécanisme de synchronisation et le hashtable a une faible performance de verrouillage pour chaque opération. Il est recommandé d'utiliser à la place ConcurrentHashMap.

StaticMethodsinInterfaceswereintrocedInjava8TollowutilityfonctionwithIntheInterface self.beforejava8, telfunctionsrequuresepatehelperclasses, leadstodisorganizedCode.now, staticmethodsprovidethrekeyefits: 1) ils sont en train

Le compilateur JIT optimise le code à travers quatre méthodes: méthode en ligne, détection et compilation de points chauds, spéculation et dévigtualisation de type et élimination redondante. 1. La méthode en ligne réduit les frais généraux d'appel et inserte fréquemment appelées petites méthodes directement dans l'appel; 2. Détection de points chauds et exécution de code haute fréquence et optimiser de manière centralisée pour économiser des ressources; 3. Type Speculations collecte les informations de type d'exécution pour réaliser des appels de déviptualisation, améliorant l'efficacité; 4. Les opérations redondantes éliminent les calculs et les inspections inutiles en fonction de la suppression des données opérationnelles, améliorant les performances.

Java utilise des classes de wrapper car les types de données de base ne peuvent pas participer directement aux opérations orientées objet, et les formulaires d'objets sont souvent nécessaires dans les besoins réels; 1. Les classes de collecte ne peuvent stocker que des objets, tels que les listes, l'utilisation de la boxe automatique pour stocker des valeurs numériques; 2. Les génériques ne prennent pas en charge les types de base et les classes d'emballage doivent être utilisées comme paramètres de type; 3. Les classes d'emballage peuvent représenter les valeurs nulles pour distinguer les données non définies ou manquantes; 4. Les cours d'emballage fournissent des méthodes pratiques telles que la conversion de cha?nes pour faciliter l'analyse et le traitement des données, donc dans les scénarios où ces caractéristiques sont nécessaires, les classes de packaging sont indispensables.

Les blocs d'initialisation d'instance sont utilisés dans Java pour exécuter la logique d'initialisation lors de la création d'objets, qui sont exécutés avant le constructeur. Il convient aux scénarios où plusieurs constructeurs partagent le code d'initialisation, l'initialisation du champ complexe ou les scénarios d'initialisation de classe anonyme. Contrairement aux blocs d'initialisation statiques, il est exécuté à chaque fois qu'il est instancié, tandis que les blocs d'initialisation statiques ne s'exécutent qu'une seule fois lorsque la classe est chargée.

Le mode d'usine est utilisé pour encapsuler la logique de création d'objets, ce qui rend le code plus flexible, facile à entretenir et à couplé de manière lache. La réponse principale est: en gérant de manière centralisée la logique de création d'objets, en cachant les détails de l'implémentation et en soutenant la création de plusieurs objets liés. La description spécifique est la suivante: Le mode d'usine remet la création d'objets à une classe ou une méthode d'usine spéciale pour le traitement, en évitant directement l'utilisation de newClass (); Il convient aux scénarios où plusieurs types d'objets connexes sont créés, la logique de création peut changer et les détails d'implémentation doivent être cachés; Par exemple, dans le processeur de paiement, Stripe, PayPal et d'autres instances sont créés par le biais d'usines; Son implémentation comprend l'objet renvoyé par la classe d'usine en fonction des paramètres d'entrée, et tous les objets réalisent une interface commune; Les variantes communes incluent des usines simples, des méthodes d'usine et des usines abstraites, qui conviennent à différentes complexités.

Injava, thefinalkeywordpreventsavariable'svaluefrombeingchangedafterAsssignment, mais cetsbehaviDiffersFortimitives et objectreferences.forprimitivevariables, finalMakeShevalueConstant, AsinfininTMax_peed = 100; whitereSsignmentCausAnesanerror.ForobjectRe

Il existe deux types de conversion: implicite et explicite. 1. La conversion implicite se produit automatiquement, comme la conversion INT en double; 2. La conversion explicite nécessite un fonctionnement manuel, comme l'utilisation de (int) MyDouble. Un cas où la conversion de type est requise comprend le traitement de l'entrée des utilisateurs, les opérations mathématiques ou le passage de différents types de valeurs entre les fonctions. Les problèmes qui doivent être notés sont les suivants: transformer les nombres à virgule flottante en entiers tronqueront la partie fractionnaire, transformer les grands types en petits types peut entra?ner une perte de données, et certaines langues ne permettent pas la conversion directe de types spécifiques. Une bonne compréhension des règles de conversion du langage permet d'éviter les erreurs.
