成年av网站18禁,国产9 9在线 | 中文,成人伊人青草久久综合网

首頁

後端開發(fā)

Python教學(xué)

優(yōu)化 OpenAI 的 GPT-mini 以使用 DSPy 檢測(cè) AI 產(chǎn)生的文本

Linda Hamilton

Nov 24, 2024 am 06:46 AM

檢測(cè)人工智慧產(chǎn)生的文本已成為一個(gè)熱門話題，研究人員和從業(yè)者對(duì)其可行性和倫理影響進(jìn)行了爭(zhēng)論。隨著模型變得越來越複雜，區(qū)分人類編寫的文本和人工智慧生成的文本既成為一項(xiàng)令人興奮的挑戰(zhàn)，也成為一項(xiàng)迫切的需求。

在這篇文章中，我們將探索如何利用 DSPy 的最佳化功能，使用包含 139 萬個(gè)文字樣本的迷人資料集來微調(diào) OpenAI 的 GPT-4o-mini 以完成此任務(wù)。最後，您將了解如何使用 DSPy 實(shí)作、評(píng)估和最佳化基本的 AI 文字偵測(cè)器，而無需手動(dòng)提示工程。

資料集載入

首先，讓我們載入資料集，其中包含標(biāo)記為人類編寫或人工智慧從各種人類和法學(xué)碩士來源產(chǎn)生的文字樣本。首先，請(qǐng)確保您已安裝 Python 3，以及 DSPy 和擁抱臉部資料集庫(kù)：

pip install dspy datasets

資料集大小約為 2GB，因此根據(jù)您的網(wǎng)路速度，此步驟可能需要幾分鐘。

以下是均勻載入和分割資料集以進(jìn)行訓(xùn)練和測(cè)試的程式碼：

from datasets import load_dataset

# Load the dataset
ds = load_dataset("artem9k/ai-text-detection-pile", split="train")

# For simplicity, we’ll do an even split of data for testing and training
NUM_EXAMPLES = 80  # Adjust this to experiment with dataset size
ds = ds.train_test_split(test_size=NUM_EXAMPLES, train_size=NUM_EXAMPLES)

提示：您可以調(diào)整 NUM_EXAMPLES 來試驗(yàn)更大的資料集或降低執(zhí)行最佳化時(shí)的成本。

模型設(shè)定

接下來，我們將使用 OpenAI 的 GPT-4o-mini 建立一個(gè)基本的 DSPy 預(yù)測(cè)器。 GPT-4o-mini 是 OpenAI GPT-4o 模型的輕量級(jí)版本，使其實(shí)驗(yàn)成本高效。 DSPy 透過使用簽章（定義結(jié)構(gòu)化輸入輸出映射）來簡(jiǎn)化此過程。

在執(zhí)行程式碼之前將「YOUR_API_KEY」替換為您的 OpenAI API 金鑰：

import dspy
from typing import Literal

# Initialize the OpenAI GPT-4o-mini model
lm = dspy.LM('openai/gpt-4o-mini', api_key="YOUR_API_KEY")
dspy.configure(lm=lm, experimental=True)

# Define the AI text detector signature
class DetectAiText(dspy.Signature):
    """Classify text as written by human or by AI."""
    text: str = dspy.InputField()
    source: Literal['ai', 'human'] = dspy.OutputField()

# Create a basic predictor
detector = dspy.Predict(DetectAiText)

請(qǐng)注意，我們?cè)谶@裡沒有進(jìn)行任何提示工程。相反，我們依賴 DSPy 來處理這個(gè)問題，以及自動(dòng)的輸入輸出關(guān)係。

您可以使用一些範(fàn)例輸入來測(cè)試「?jìng)蓽y(cè)器」：

print(detector(text="Hello world (this definitely wasn't written by AI)"))

預(yù)測(cè)將出現(xiàn)在輸出的「來源」欄位中。

評(píng)估探測(cè)器

現(xiàn)在我們有了一個(gè)基本的偵測(cè)器，讓我們使用 DSPy 的評(píng)估工具來評(píng)估其效能。為此，我們將定義一個(gè)簡(jiǎn)單的指標(biāo)來檢查模型是否正確預(yù)測(cè)文字的來源（人類或人工智慧）。

這是設(shè)定和運(yùn)行評(píng)估的程式碼：

from dspy.evaluate import Evaluate

# Define a simple evaluation metric
def validate_text_source(example: dspy.Example, pred, trace=None) -> int:
    return 1 if example.source.lower() == pred.source.lower() else 0

# Transform the dataset into DSPy-compatible "Example" objects
dspy_trainset = [
    dspy.Example(source=x['source'], text=x['text']).with_inputs('text') for x in ds['train']
]
dspy_devset = [
    dspy.Example(source=x['source'], text=x['text']).with_inputs('text') for x in ds['test']
]

# Evaluate the detector
evaluator = Evaluate(devset=dspy_devset, num_threads=12)  # Adjust threads based on your system
evaluator(detector, metric=validate_text_source)

在最初的測(cè)試中，我的準(zhǔn)確率達(dá)到了 76%–81%。請(qǐng)注意，由於資料集的隨機(jī)採(cǎi)樣，結(jié)果可能會(huì)有所不同。

Optimizing OpenAI’s GPT-mini to Detect AI-Generated Text Using DSPy

使用 DSPy 進(jìn)行最佳化

DSPy 的真正強(qiáng)大之處在於它的最佳化能力。透過使用 MIPROv2 優(yōu)化器，我們可以提高檢測(cè)器的性能，而無需手動(dòng)調(diào)整提示。優(yōu)化器使用少量範(fàn)例、動(dòng)態(tài)模板和自我監(jiān)督技術(shù)自動(dòng)執(zhí)行此過程。

以下是設(shè)定和運(yùn)行最佳化器的方法：

pip install dspy datasets

注意：對(duì)於 80 個(gè)範(fàn)例的資料集，使用「light」預(yù)設(shè)運(yùn)行單次最佳化的成本通常低於 0.50 美元。

結(jié)果和迭代

運(yùn)行優(yōu)化後，我觀察到效能顯著提升。與基線的 76%–81% 相比，我的第一次運(yùn)行的準(zhǔn)確率達(dá)到了 91.25%。隨後的運(yùn)行範(fàn)圍在 81.2% 和 91.25% 之間，證明了以最小的努力實(shí)現(xiàn)了一致的改進(jìn)。

Optimizing OpenAI’s GPT-mini to Detect AI-Generated Text Using DSPy

載入最佳化模型以供進(jìn)一步使用：

from datasets import load_dataset

# Load the dataset
ds = load_dataset("artem9k/ai-text-detection-pile", split="train")

# For simplicity, we’ll do an even split of data for testing and training
NUM_EXAMPLES = 80  # Adjust this to experiment with dataset size
ds = ds.train_test_split(test_size=NUM_EXAMPLES, train_size=NUM_EXAMPLES)

您可以透過以下方式進(jìn)一步迭代：

調(diào)整優(yōu)化器的自動(dòng)參數(shù)（輕、中、重），或自行設(shè)定超參數(shù)。
增加訓(xùn)練和評(píng)估的資料集大小。
使用更高級(jí)或更新的法學(xué)碩士進(jìn)行測(cè)試。

結(jié)論

只需幾個(gè)步驟，我們就示範(fàn)了 DSPy 如何簡(jiǎn)化現(xiàn)實(shí)用例的 LLM 最佳化。在沒有任何手動(dòng)提示工程的情況下，我們?cè)跈z測(cè)人工智慧生成的文字方面取得了顯著的進(jìn)展。雖然該模型並不完美，但 DSPy 的靈活性允許持續(xù)迭代，使其成為可擴(kuò)展 AI 開發(fā)的寶貴工具。

我強(qiáng)烈建議通讀 DSPy 的文檔並嘗試其他優(yōu)化器和 LLM 模式。

完整程式碼可在 GitHub 上取得。

有問題嗎？評(píng)論？讓我知道，我期待看到您使用 DSPy 建立的內(nèi)容！

你可以在 LinkedIn 上找到我 |技術(shù)長(zhǎng)兼合夥人@EES。

以上是優(yōu)化 OpenAI 的 GPT-mini 以使用 DSPy 檢測(cè) AI 產(chǎn)生的文本的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本網(wǎng)站聲明

本文內(nèi)容由網(wǎng)友自願(yuàn)投稿，版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容，請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序，用於創(chuàng)建逼真的裸體照片

熱工具

熱門話題

gmail信箱登陸入口在哪裡

8641

Java教學(xué)

1787

CakePHP 教程

1730

Laravel 教程

1581

PHP教程

1448

Related knowledge

Python的UNITDEST或PYTEST框架如何促進(jìn)自動(dòng)測(cè)試？ Jun 19, 2025 am 01:10 AM

Python的unittest和pytest是兩種廣泛使用的測(cè)試框架，它們都簡(jiǎn)化了自動(dòng)化測(cè)試的編寫、組織和運(yùn)行。 1.二者均支持自動(dòng)發(fā)現(xiàn)測(cè)試用例並提供清晰的測(cè)試結(jié)構(gòu)：unittest通過繼承TestCase類並以test\_開頭的方法定義測(cè)試；pytest則更為簡(jiǎn)潔，只需以test\_開頭的函數(shù)即可。 2.它們都內(nèi)置斷言支持：unittest提供assertEqual、assertTrue等方法，而pytest使用增強(qiáng)版的assert語句，能自動(dòng)顯示失敗詳情。 3.均具備處理測(cè)試準(zhǔn)備與清理的機(jī)制：un

如何將Python用於數(shù)據(jù)分析和與Numpy和Pandas等文庫(kù)進(jìn)行操作？ Jun 19, 2025 am 01:04 AM

pythonisidealfordataanalysisionduetonumpyandpandas.1）numpyExccelSatnumericalComputationswithFast，多dimensionalArraysAndRaysAndOrsAndOrsAndOffectorizedOperationsLikenp.sqrt（）

什麼是動(dòng)態(tài)編程技術(shù)，如何在Python中使用它們？ Jun 20, 2025 am 12:57 AM

動(dòng)態(tài)規(guī)劃（DP）通過將復(fù)雜問題分解為更簡(jiǎn)單的子問題並存儲(chǔ)其結(jié)果以避免重複計(jì)算，來優(yōu)化求解過程。主要方法有兩種：1.自頂向下（記憶化）：遞歸分解問題，使用緩存存儲(chǔ)中間結(jié)果；2.自底向上（表格化）：從基礎(chǔ)情況開始迭代構(gòu)建解決方案。適用於需要最大/最小值、最優(yōu)解或存在重疊子問題的場(chǎng)景，如斐波那契數(shù)列、背包問題等。在Python中，可通過裝飾器或數(shù)組實(shí)現(xiàn)，並應(yīng)注意識(shí)別遞推關(guān)係、定義基準(zhǔn)情況及優(yōu)化空間複雜度。

如何使用__ITER__和__NEXT __在Python中實(shí)現(xiàn)自定義迭代器？ Jun 19, 2025 am 01:12 AM

要實(shí)現(xiàn)自定義迭代器，需在類中定義__iter__和__next__方法。 ①__iter__方法返回迭代器對(duì)象自身，通常為self，以兼容for循環(huán)等迭代環(huán)境；②__next__方法控制每次迭代的值，返回序列中的下一個(gè)元素，當(dāng)無更多項(xiàng)時(shí)應(yīng)拋出StopIteration異常；③需正確跟蹤狀態(tài)並設(shè)置終止條件，避免無限循環(huán)；④可封裝複雜邏輯如文件行過濾，同時(shí)注意資源清理與內(nèi)存管理；⑤對(duì)簡(jiǎn)單邏輯可考慮使用生成器函數(shù)yield替代，但需結(jié)合具體場(chǎng)景選擇合適方式。

Python編程語言及其生態(tài)系統(tǒng)的新興趨勢(shì)或未來方向是什麼？ Jun 19, 2025 am 01:09 AM

Python的未來趨勢(shì)包括性能優(yōu)化、更強(qiáng)的類型提示、替代運(yùn)行時(shí)的興起及AI/ML領(lǐng)域的持續(xù)增長(zhǎng)。首先，CPython持續(xù)優(yōu)化，通過更快的啟動(dòng)時(shí)間、函數(shù)調(diào)用優(yōu)化及擬議中的整數(shù)操作改進(jìn)提升性能；其次，類型提示深度集成至語言與工具鏈，增強(qiáng)代碼安全性與開發(fā)體驗(yàn)；第三，PyScript、Nuitka等替代運(yùn)行時(shí)提供新功能與性能優(yōu)勢(shì)；最後，AI與數(shù)據(jù)科學(xué)領(lǐng)域持續(xù)擴(kuò)張，新興庫(kù)推動(dòng)更高效的開發(fā)與集成。這些趨勢(shì)表明Python正不斷適應(yīng)技術(shù)變化，保持其領(lǐng)先地位。

如何使用插座在Python中執(zhí)行網(wǎng)絡(luò)編程？ Jun 20, 2025 am 12:56 AM

Python的socket模塊是網(wǎng)絡(luò)編程的基礎(chǔ)，提供低級(jí)網(wǎng)絡(luò)通信功能，適用於構(gòu)建客戶端和服務(wù)器應(yīng)用。要設(shè)置基本TCP服務(wù)器，需使用socket.socket()創(chuàng)建對(duì)象，綁定地址和端口，調(diào)用.listen()監(jiān)聽連接，並通過.accept()接受客戶端連接。構(gòu)建TCP客戶端需創(chuàng)建socket對(duì)像後調(diào)用.connect()連接服務(wù)器，再使用.sendall()發(fā)送數(shù)據(jù)和??.recv()接收響應(yīng)。處理多個(gè)客戶端可通過1.線程：每次連接啟動(dòng)新線程；2.異步I/O：如asyncio庫(kù)實(shí)現(xiàn)無阻塞通信。注意事

如何在Python中切片列表？ Jun 20, 2025 am 12:51 AM

Python列表切片的核心答案是掌握[start:end:step]語法並理解其行為。 1.列表切片的基本格式為list[start:end:step]，其中start是起始索引（包含）、end是結(jié)束索引（不包含）、step是步長(zhǎng)；2.省略start默認(rèn)從0開始，省略end默認(rèn)到末尾，省略step默認(rèn)為1；3.獲取前n項(xiàng)用my_list[:n]，獲取後n項(xiàng)用my_list[-n:]；4.使用step可跳過元素，如my_list[::2]取偶數(shù)位，負(fù)step值可反轉(zhuǎn)列表；5.常見誤區(qū)包括end索引不

如何使用DateTime模塊在Python中使用日期和時(shí)間？ Jun 20, 2025 am 12:58 AM

Python的datetime模塊能滿足基本的日期和時(shí)間處理需求。 1.可通過datetime.now()獲取當(dāng)前日期和時(shí)間，也可分別提取.date()和.time()。 2.能手動(dòng)創(chuàng)建特定日期時(shí)間對(duì)象，如datetime(year=2025,month=12,day=25,hour=18,minute=30)。 3.使用.strftime()按格式輸出字符串，常見代碼包括%Y、%m、%d、%H、%M、%S；用strptime()將字符串解析為datetime對(duì)象。 4.利用timedelta進(jìn)行日期運(yùn)

See all articles

国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

優(yōu)化 OpenAI 的 GPT-mini 以使用 DSPy 檢測(cè) AI 產(chǎn)生的文本

資料集載入

模型設(shè)定

評(píng)估探測(cè)器

使用 DSPy 進(jìn)行最佳化

結(jié)果和迭代

結(jié)論

熱AI工具

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題