国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

ホームページ バックエンド開(kāi)発 C++ iTextSharp を使用して PDF から書式設(shè)定されたテキストを抽出する方法

iTextSharp を使用して PDF から書式設(shè)定されたテキストを抽出する方法

Jan 11, 2025 am 10:46 AM

How to Extract Text with Formatting from PDFs Using iTextSharp?

iTextSharp を使用して書式設(shè)定されたテキストを抽出する

紹介:

iTextSharp は PDF ドキュメントを操作および生成するための強(qiáng)力なライブラリですが、目的の形式でテキストを抽出することが難しい場(chǎng)合があります。この記事では、iTextSharp を使用して PDF からテキストと書式情報(bào)を抽出する方法を説明します。

カスタム抽出戦略:

書式設(shè)定されたテキストを抽出するには、カスタムの ITextExtractionStrategy 実裝を作成できます。このポリシーは、テキスト レンダリング情報(bào)の処理方法を定義します。

コードスニペット:

次のコードは、ベースライン、フォント名、フォント サイズの変更を追跡し、適切なスタイルで HTML を生成するカスタム戦略を定義します。

<code>public class TextWithFontExtractionStategy : iTextSharp.text.pdf.parser.ITextExtractionStrategy
{
    // ... (此處省略)

    public void RenderText(iTextSharp.text.pdf.parser.TextRenderInfo renderInfo)
    {
        // 確定字體屬性
        string curFont = renderInfo.GetFont().PostscriptFontName;
        if (renderInfo.GetTextRenderMode() == (int)TextRenderMode.FillThenStrokeText)
        {
            curFont += "-Bold";
        }

        // 檢查基線、字體或字體大小的變化
        Vector curBaseline = renderInfo.GetBaseline().GetStartPoint();
        Single curFontSize = renderInfo.GetAscentLine().GetEndPoint()[Vector.I2] - curBaseline[Vector.I2];
        if ((this.lastBaseLine == null) || (curBaseline[Vector.I2] != lastBaseLine[Vector.I2]) ||
            (curFontSize != lastFontSize) || (curFont != lastFont))
        {
            // 生成帶有更新樣式的HTML span
            result.AppendFormat("</code>

使用法:

カスタム戦略を使用するには、テキストを抽出するときにそれを指定できます:

<code>PdfReader reader = new PdfReader("MyDocument.pdf");
TextWithFontExtractionStategy strategy = new TextWithFontExtractionStategy();
string textWithFormatting = PdfTextExtractor.GetTextFromPage(reader, 1, strategy);</code>

出力:

textWithFormatting 変數(shù)には、フォントやフォント サイズなどの書式設(shè)定情報(bào)を反映する HTML タグを含む抽出されたテキストが含まれます。

結(jié)論:

このカスタム抽出戦略を使用すると、希望の形式で PDF テキストを抽出できます。これは、PDF ドキュメント內(nèi)のテキストとスタイルを正確に再現(xiàn)するために使用できる強(qiáng)力なツールです。

以上がiTextSharp を使用して PDF から書式設(shè)定されたテキストを抽出する方法の詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國(guó)語(yǔ) Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見(jiàn)つけた場(chǎng)合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無(wú)料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無(wú)料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡(jiǎn)単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無(wú)料のコードエディター

SublimeText3 中國(guó)語(yǔ)版

SublimeText3 中國(guó)語(yǔ)版

中國(guó)語(yǔ)版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開(kāi)発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開(kāi)発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

c多型:関數(shù)は一種の多型を過(guò)負(fù)荷にしていますか? c多型:関數(shù)は一種の多型を過(guò)負(fù)荷にしていますか? Jun 20, 2025 am 12:05 AM

はい、関數(shù)の過(guò)負(fù)荷はCの多型形態(tài)であり、特に時(shí)間の多型をコンパイルします。 1。関數(shù)の過(guò)負(fù)荷により、同じ名前が異なるパラメーターリストを持つ複數(shù)の関數(shù)が許可されます。 2。コンパイラは、提供されたパラメーターに基づいてコンパイル時(shí)間に呼び出す関數(shù)を決定します。 3.ランタイムの多型とは異なり、機(jī)能過(guò)負(fù)荷は実行時(shí)に余分なオーバーヘッドがなく、実裝が簡(jiǎn)単ですが、柔軟性が低くなります。

Cのさまざまな種類の多型は何ですか?説明した Cのさまざまな種類の多型は何ですか?説明した Jun 20, 2025 am 12:08 AM

Cには、コンパイルタイム多型とランタイム多型の2つの主要な多型タイプがあります。 1.コンピレーション時(shí)間の多型は、関數(shù)の過(guò)負(fù)荷とテンプレートを通じて実裝され、高い効率を提供しますが、コード膨満につながる可能性があります。 2。ランタイムの多型は、仮想関數(shù)と継承を通じて実裝され、柔軟性を提供しますが、パフォーマンスオーバーヘッドを提供します。

C:多型は本當(dāng)に便利ですか? C:多型は本當(dāng)に便利ですか? Jun 20, 2025 am 12:01 AM

はい、Cの多型は非常に便利です。 1)新しいタイプを簡(jiǎn)単に追加できる柔軟性を提供します。 2)コードの再利用を促進(jìn)し、重複を減らします。 3)メンテナンスを簡(jiǎn)素化し、コードの拡張と適応が容易になります。パフォーマンスとメモリ管理の課題にもかかわらず、その利點(diǎn)は複雑なシステムで特に重要です。

C Destructors:一般的なエラー C Destructors:一般的なエラー Jun 20, 2025 am 12:12 AM

c Destructorscanleadtoseveralcommonerrors.toavoidhem:1)preventdobledeletionbysettingpointerstonullptrorusings.2)handleExceptionSeptionsEnterstructorsbyCatchingingthem.3)usevirtualDestructorurcorurcorurcorructorsinbaseclasseClassessoperproperpolymorphictedestruction.4

c Pythonを知っている人のためのチュートリアル c Pythonを知っている人のためのチュートリアル Jul 01, 2025 am 01:11 AM

Pythonの移籍を研究する人は、最も直接的な混亂を抱えています。なぜPythonのように書くことができないのですか?構(gòu)文はより複雑ですが、基礎(chǔ)となる制御機(jī)能とパフォーマンスの利點(diǎn)を提供します。 1。構(gòu)文構(gòu)造の観點(diǎn)から、Cはインデントの代わりに巻き毛のブレース{}を使用してコードブロックを整理し、可変型を明示的に宣言する必要があります。 2。タイプシステムとメモリ管理の観點(diǎn)から、Cには自動(dòng)ガベージ収集メカニズムがなく、メモリを手動(dòng)で管理し、リリースのリリースに注意を払う必要があります。 RAIIテクノロジーは、リソース管理を支援できます。 3。関數(shù)とクラスの定義では、Cは修飾子、コンストラクター、デストラクタを明示的にアクセスし、オペレーターの過(guò)負(fù)荷などの高度な機(jī)能をサポートする必要があります。 4。標(biāo)準(zhǔn)ライブラリに関しては、STLは強(qiáng)力なコンテナとアルゴリズムを提供しますが、一般的なプログラミングのアイデアに適応する必要があります。 5

Cの多型:例を備えた包括的なガイド Cの多型:例を備えた包括的なガイド Jun 21, 2025 am 12:11 AM

Cの多型は、ランタイム多型とコンパイル時(shí)間の多型に分けられます。 1.ランタイムの多型は仮想関數(shù)を通じて実裝され、正しい方法を?qū)g行時(shí)に動(dòng)的に呼び出すことができます。 2。コンパイル時(shí)間の多型は、関數(shù)の過(guò)負(fù)荷とテンプレートを通じて実裝され、より高いパフォーマンスと柔軟性を提供します。

Cの多型のさまざまな形態(tài)は何ですか? Cの多型のさまざまな形態(tài)は何ですか? Jun 20, 2025 am 12:21 AM

C MolymorphismsCompile-Time、Runtime、andTemplatePolymorphism.1)Compile-TimepolymorphismusEssondoperatorover overloading forefficiency.2)runtimepolymorphismploysvirtualFunctionsforfibility.3)TemplatePolateMismorphismablePhismeNableencenericProgrommingfo

c多型:コーディングスタイル c多型:コーディングスタイル Jun 19, 2025 am 12:25 AM

c多形は、compile-timeandruntimepolymorphismの組み合わせ、forbothefficiencyandflexibility.toharnesitspowerstyly:1)usesmartpointerslikestd :: unique_ptrformemorymanagement、2)sureseclaseshavevirtulirvirtulaructors、3)

See all articles