成人无码午夜在线观看,国产96在线

ホームページ

バックエンド開発

Python チュートリアル

DSPy を使用して AI 生成テキストを検出するための OpenAI の GPT-mini の最適化

Linda Hamilton

Nov 24, 2024 am 06:46 AM

AI が生成したテキストの検出はホットな話題となっており、研究者や実務(wù)家がその実現(xiàn)可能性と倫理的影響について議論しています。モデルがより洗練されるにつれて、人間が書いたテキストと AI が生成したテキストを區(qū)別することは、刺激的な課題であると同時に重要なニーズとなっています。

この投稿では、139 萬のテキストサンプルの魅力的なデータセットを使用して、DSPy の最適化機能を利用して、このタスクのために OpenAI の GPT-4o-mini を微調(diào)整する方法を検討します。最後には、DSPy を使用して基本的な AI テキスト検出器を?qū)g裝、評価、最適化する方法がわかります。手動のプロンプトエンジニアリングは必要ありません。

データセットの読み込み

まず、データセットをロードしましょう。このデータセットには、人間が書いたもの、またはさまざまな人間および LLM ソースから AI が生成したものとしてラベル付けされたテキストサンプルが含まれています。始めるには、Python 3 と DSPy およびハグ顔データセットライブラリがインストールされていることを確認してください。

pip install dspy datasets

データセットのサイズは約 2GB であるため、インターネットの速度によっては、この手順に數(shù)分かかる場合があります。

トレーニングとテストのためにデータセットを均等にロードして分割するコードは次のとおりです:

from datasets import load_dataset

# Load the dataset
ds = load_dataset("artem9k/ai-text-detection-pile", split="train")

# For simplicity, we’ll do an even split of data for testing and training
NUM_EXAMPLES = 80  # Adjust this to experiment with dataset size
ds = ds.train_test_split(test_size=NUM_EXAMPLES, train_size=NUM_EXAMPLES)

ヒント: NUM_EXAMPLES を調(diào)整して、より大きなデータセットを試したり、最適化を?qū)g行する際のコストを削減したりできます。

モデルのセットアップ

次に、OpenAI の GPT-4o-mini を使用して、基本的な DSPy 予測子を作成します。 GPT-4o-mini は OpenAI の GPT-4o モデルの軽量バージョンであり、実験のコスト効率が高くなります。 DSPy は、構(gòu)造化された入出力マッピングを定義する シグネチャ を使用してこのプロセスを簡素化します。

コードを?qū)g行する前に、「YOUR_API_KEY」を OpenAI API キーに置き換えます。

import dspy
from typing import Literal

# Initialize the OpenAI GPT-4o-mini model
lm = dspy.LM('openai/gpt-4o-mini', api_key="YOUR_API_KEY")
dspy.configure(lm=lm, experimental=True)

# Define the AI text detector signature
class DetectAiText(dspy.Signature):
    """Classify text as written by human or by AI."""
    text: str = dspy.InputField()
    source: Literal['ai', 'human'] = dspy.OutputField()

# Create a basic predictor
detector = dspy.Predict(DetectAiText)

ここでは迅速なエンジニアリングを行っていないことに注意してください。代わりに、DSPy を利用して入力と出力の関係を自動的に処理します。

いくつかのサンプル入力を使用して「検出器」をテストできます。

print(detector(text="Hello world (this definitely wasn't written by AI)"))

予測は出力の「ソース」フィールドに表示されます。

検出器の評価

基本的な検出器ができたので、DSPy の評価ツールを使用してそのパフォーマンスを評価しましょう。このために、モデルがテキストのソース (人間または AI) を正しく予測しているかどうかをチェックする簡単な指標を定義します。

評価を設(shè)定して実行するコードは次のとおりです:

from dspy.evaluate import Evaluate

# Define a simple evaluation metric
def validate_text_source(example: dspy.Example, pred, trace=None) -> int:
    return 1 if example.source.lower() == pred.source.lower() else 0

# Transform the dataset into DSPy-compatible "Example" objects
dspy_trainset = [
    dspy.Example(source=x['source'], text=x['text']).with_inputs('text') for x in ds['train']
]
dspy_devset = [
    dspy.Example(source=x['source'], text=x['text']).with_inputs('text') for x in ds['test']
]

# Evaluate the detector
evaluator = Evaluate(devset=dspy_devset, num_threads=12)  # Adjust threads based on your system
evaluator(detector, metric=validate_text_source)

最初のテストでは、76% ～ 81% の精度を達成しました。データセットのランダムなサンプリングにより結(jié)果が異なる場合があることに注意してください。

Optimizing OpenAI’s GPT-mini to Detect AI-Generated Text Using DSPy

DSPy による最適化

DSPy の真の力は、その最適化機能にあります。 MIPROv2 オプティマイザーを使用すると、プロンプトを手動で調(diào)整することなく検出器のパフォーマンスを向上させることができます。オプティマイザーは、少數(shù)のショットの例、動的なテンプレート、自己教師ありの手法を使用してこのプロセスを自動化します。

オプティマイザーを設(shè)定して実行する方法は次のとおりです:

pip install dspy datasets

注: 「ライト」プリセットを使用した 1 回の最適化実行のコストは、通常、80 例のデータセットで 0.50 ドル未満です。

結(jié)果と反復

最適化を?qū)g行した後、パフォーマンスが大幅に向上することがわかりました。最初の実行では、ベースラインの 76% ～ 81% と比較して、91.25% の精度を達成しました。その後の実行は 81.2% から 91.25% の範囲であり、最小限の労力で一貫した改善が実証されました。

Optimizing OpenAI’s GPT-mini to Detect AI-Generated Text Using DSPy

さらに使用するために最適化されたモデルをロードするには:

from datasets import load_dataset

# Load the dataset
ds = load_dataset("artem9k/ai-text-detection-pile", split="train")

# For simplicity, we’ll do an even split of data for testing and training
NUM_EXAMPLES = 80  # Adjust this to experiment with dataset size
ds = ds.train_test_split(test_size=NUM_EXAMPLES, train_size=NUM_EXAMPLES)

次の方法でさらに反復できます:

オプティマイザーの自動パラメータ (軽、中、重) を調(diào)整するか、ハイパーパラメータを自分で設(shè)定します。
トレーニングと評価用のデータセットのサイズを増やします。
より高度な、または更新された LLM を使用したテスト。

結(jié)論

わずか數(shù)ステップで、DSPy が実際のユースケース向けに LLM 最適化を簡素化する方法を?qū)g証しました。手動によるプロンプトエンジニアリングを一切行わずに、AI が生成したテキストの検出において目に見える改善を達成しました。このモデルは完璧ではありませんが、DSPy の柔軟性により継続的な反復が可能であり、スケーラブルな AI 開発にとって貴重なツールとなっています。

DSPy のドキュメントをよく読み、他のオプティマイザーや LLM パターンを試してみることを強くお勧めします。

完全なコードは GitHub で入手できます。

質(zhì)問はありますか？コメント?教えてください。DSPy で何を構(gòu)築するか楽しみにしています!

LinkedIn | で私を見つけることができます。 EES の CTO 兼パートナー。

以上がDSPy を使用して AI 生成テキストを検出するための OpenAI の GPT-mini の最適化の詳細內(nèi)容です。詳細については、PHP 中國語 Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明

この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當する法的責任を負いません。盜作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

8638

Java チュートリアル

1783

CakePHP チュートリアル

1728

Laravel チュートリアル

1579

PHP チュートリアル

1443

Related knowledge

Pythonの不適格またはPytestフレームワークは、自動テストをどのように促進しますか？ Jun 19, 2025 am 01:10 AM

Pythonの不適格でPytestは、自動テストの書き込み、整理、および実行を簡素化する2つの広く使用されているテストフレームワークです。 1.両方とも、テストケースの自動発見をサポートし、明確なテスト構(gòu)造を提供します。 pytestはより簡潔で、テスト\ _から始まる関數(shù)が必要です。 2。それらはすべて組み込みのアサーションサポートを持っています：Unittestはアサートエクイアル、アサートトルー、およびその他の方法を提供しますが、Pytestは拡張されたアサートステートメントを使用して障害の詳細を自動的に表示します。 3.すべてがテストの準備とクリーニングを処理するためのメカニズムを持っています：un

Pythonは、NumpyやPandasなどのライブラリとのデータ分析と操作にどのように使用できますか？ Jun 19, 2025 am 01:04 AM

pythonisidealfordataanalysisduetonumpyandpandas.1）numpyexcelsatnumericalcompitations withfast、多次元路面およびベクトル化された分離likenp.sqrt（）

動的なプログラミング技術(shù)とは何ですか？また、Pythonでそれらを使用するにはどうすればよいですか？ Jun 20, 2025 am 12:57 AM

動的プログラミング（DP）は、複雑な問題をより単純なサブ問題に分解し、結(jié)果を保存して繰り返し計算を回避することにより、ソリューションプロセスを最適化します。主な方法は2つあります。1。トップダウン（暗記）：問題を再帰的に分解し、キャッシュを使用して中間結(jié)果を保存します。 2。ボトムアップ（表）：基本的な狀況からソリューションを繰り返し構(gòu)築します。フィボナッチシーケンス、バックパッキングの問題など、最大/最小値、最適なソリューション、または重複するサブ問題が必要なシナリオに適しています。Pythonでは、デコレータまたはアレイを通じて実裝でき、再帰的な関係を特定し、ベンチマークの狀況を定義し、空間の複雑さを最適化することに注意する必要があります。

__iter__と__next__を使用してPythonにカスタムイテレーターを?qū)g裝するにはどうすればよいですか？ Jun 19, 2025 am 01:12 AM

カスタムイテレーターを?qū)g裝するには、クラス內(nèi)の__iter__および__next__メソッドを定義する必要があります。 __iter__メソッドは、ループなどの反復環(huán)境と互換性があるように、通常は自己の反復オブジェクト自體を返します。 __next__メソッドは、各反復の値を制御し、シーケンスの次の要素を返し、アイテムがもうない場合、停止例外をスローする必要があります。 statusステータスを正しく追跡する必要があり、無限のループを避けるために終了條件を設(shè)定する必要があります。 fileファイルラインフィルタリングなどの複雑なロジック、およびリソースクリーニングとメモリ管理に注意を払ってください。 simple単純なロジックについては、代わりにジェネレーター関數(shù)の収率を使用することを検討できますが、特定のシナリオに基づいて適切な方法を選択する必要があります。

Pythonプログラミング言語とそのエコシステムの新たな傾向または將來の方向性は何ですか？ Jun 19, 2025 am 01:09 AM

Pythonの將來の傾向には、パフォーマンスの最適化、より強力なタイププロンプト、代替ランタイムの増加、およびAI/MLフィールドの継続的な成長が含まれます。第一に、CPYTHONは最適化を続け、スタートアップのより速い時間、機能通話の最適化、および提案された整數(shù)操作を通じてパフォーマンスを向上させ続けています。第二に、タイプのプロンプトは、コードセキュリティと開発エクスペリエンスを強化するために、言語とツールチェーンに深く統(tǒng)合されています。第三に、PyscriptやNuitkaなどの代替のランタイムは、新しい機能とパフォーマンスの利點を提供します。最後に、AIとデータサイエンスの分野は拡大し続けており、新興図書館はより効率的な開発と統(tǒng)合を促進します。これらの傾向は、Pythonが常に技術(shù)の変化に適応し、その主要な位置を維持していることを示しています。

ソケットを使用してPythonでネットワークプログラミングを?qū)g行するにはどうすればよいですか？ Jun 20, 2025 am 12:56 AM

Pythonのソケットモジュールは、クライアントおよびサーバーアプリケーションの構(gòu)築に適した低レベルのネットワーク通信機能を提供するネットワークプログラミングの基礎(chǔ)です?；镜膜蔜CPサーバーを設(shè)定するには、Socket.Socket（）を使用してオブジェクトを作成し、アドレスとポートをバインドし、.listen（）を呼び出して接続をリッスンし、.accept（）を介してクライアント接続を受け入れる必要があります。 TCPクライアントを構(gòu)築するには、ソケットオブジェクトを作成し、.connect（）を呼び出してサーバーに接続する必要があります。次に、.sendall（）を使用してデータと.recv（）を送信して応答を受信します。複數(shù)のクライアントを処理するには、1つを使用できます。スレッド：接続するたびに新しいスレッドを起動します。 2。非同期I/O：たとえば、Asyncioライブラリは非ブロッキング通信を?qū)g現(xiàn)できます。注意すべきこと

Pythonクラスの多型 Jul 05, 2025 am 02:58 AM

Pythonオブジェクト指向プログラミングのコアコンセプトであるPythonは、「1つのインターフェイス、複數(shù)の実裝」を指し、異なるタイプのオブジェクトの統(tǒng)一処理を可能にします。 1。多型は、メソッドの書き換えを通じて実裝されます。サブクラスは、親クラスの方法を再定義できます。たとえば、Animal ClassのSOCK（）方法は、犬と貓のサブクラスに異なる実裝を持っています。 2.多型の実用的な用途には、グラフィカルドローイングプログラムでdraw（）メソッドを均一に呼び出すなど、コード構(gòu)造を簡素化し、スケーラビリティを向上させる、ゲーム開発における異なる文字の共通の動作の処理などが含まれます。 3. Pythonの実裝多型を満たす必要があります：親クラスはメソッドを定義し、子クラスはメソッドを上書きしますが、同じ親クラスの継承は必要ありません。オブジェクトが同じ方法を?qū)g裝する限り、これは「アヒル型」と呼ばれます。 4.注意すべきことには、メンテナンスが含まれます

Pythonでリストをスライスするにはどうすればよいですか？ Jun 20, 2025 am 12:51 AM

Pythonリストスライスに対するコアの答えは、[start：end：step]構(gòu)文をマスターし、その動作を理解することです。 1.リストスライスの基本形式はリスト[start：end：step]です。ここで、開始は開始インデックス（含まれています）、endはend index（含まれていません）、ステップはステップサイズです。 2。デフォルトで開始を省略して、0から開始を開始し、デフォルトで終了して終了し、デフォルトでステップを1に省略します。 3。my_list[：n]を使用して最初のnアイテムを取得し、my_list [-n：]を使用して最後のnアイテムを取得します。 4.ステップを使用して、my_list [:: 2]などの要素をスキップして、均一な數(shù)字と負のステップ値を取得できます。 5.一般的な誤解には、終了インデックスが含まれません

See all articles

国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

DSPy を使用して AI 生成テキストを検出するための OpenAI の GPT-mini の最適化

データセットの読み込み

モデルのセットアップ

検出器の評価

DSPy による最適化

結(jié)果と反復

結(jié)論

ホットAIツール

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中國語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック