国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 後端開發(fā) Python教學(xué) 優(yōu)化 OpenAI 的 GPT-mini 以使用 DSPy 檢測(cè) AI 產(chǎn)生的文本

優(yōu)化 OpenAI 的 GPT-mini 以使用 DSPy 檢測(cè) AI 產(chǎn)生的文本

Nov 24, 2024 am 06:46 AM

檢測(cè)人工智慧產(chǎn)生的文本已成為一個(gè)熱門話題,研究人員和從業(yè)者對(duì)其可行性和倫理影響進(jìn)行了爭(zhēng)論。隨著模型變得越來越複雜,區(qū)分人類編寫的文本和人工智慧生成的文本既成為一項(xiàng)令人興奮的挑戰(zhàn),也成為一項(xiàng)迫切的需求。

在這篇文章中,我們將探索如何利用 DSPy 的最佳化功能,使用包含 139 萬個(gè)文字樣本的迷人資料集來微調(diào) OpenAI 的 GPT-4o-mini 以完成此任務(wù)。最後,您將了解如何使用 DSPy 實(shí)作、評(píng)估和最佳化基本的 AI 文字偵測(cè)器,而無需手動(dòng)提示工程。


資料集載入

首先,讓我們載入資料集,其中包含標(biāo)記為人類編寫或人工智慧從各種人類和法學(xué)碩士來源產(chǎn)生的文字樣本。首先,請(qǐng)確保您已安裝 Python 3,以及 DSPy 和擁抱臉部資料集庫(kù):

pip install dspy datasets

資料集大小約為 2GB,因此根據(jù)您的網(wǎng)路速度,此步驟可能需要幾分鐘。

以下是均勻載入和分割資料集以進(jìn)行訓(xùn)練和測(cè)試的程式碼:

from datasets import load_dataset

# Load the dataset
ds = load_dataset("artem9k/ai-text-detection-pile", split="train")

# For simplicity, we’ll do an even split of data for testing and training
NUM_EXAMPLES = 80  # Adjust this to experiment with dataset size
ds = ds.train_test_split(test_size=NUM_EXAMPLES, train_size=NUM_EXAMPLES)

提示:您可以調(diào)整 NUM_EXAMPLES 來試驗(yàn)更大的資料集或降低執(zhí)行最佳化時(shí)的成本。


模型設(shè)定

接下來,我們將使用 OpenAI 的 GPT-4o-mini 建立一個(gè)基本的 DSPy 預(yù)測(cè)器。 GPT-4o-mini 是 OpenAI GPT-4o 模型的輕量級(jí)版本,使其實(shí)驗(yàn)成本高效。 DSPy 透過使用簽章(定義結(jié)構(gòu)化輸入輸出映射)來簡(jiǎn)化此過程。

在執(zhí)行程式碼之前將「YOUR_API_KEY」替換為您的 OpenAI API 金鑰:

import dspy
from typing import Literal

# Initialize the OpenAI GPT-4o-mini model
lm = dspy.LM('openai/gpt-4o-mini', api_key="YOUR_API_KEY")
dspy.configure(lm=lm, experimental=True)

# Define the AI text detector signature
class DetectAiText(dspy.Signature):
    """Classify text as written by human or by AI."""
    text: str = dspy.InputField()
    source: Literal['ai', 'human'] = dspy.OutputField()

# Create a basic predictor
detector = dspy.Predict(DetectAiText)

請(qǐng)注意,我們?cè)谶@裡沒有進(jìn)行任何提示工程。相反,我們依賴 DSPy 來處理這個(gè)問題,以及自動(dòng)的輸入輸出關(guān)係。

您可以使用一些範(fàn)例輸入來測(cè)試「?jìng)蓽y(cè)器」:

print(detector(text="Hello world (this definitely wasn't written by AI)"))

預(yù)測(cè)將出現(xiàn)在輸出的「來源」欄位中。


評(píng)估探測(cè)器

現(xiàn)在我們有了一個(gè)基本的偵測(cè)器,讓我們使用 DSPy 的評(píng)估工具來評(píng)估其效能。為此,我們將定義一個(gè)簡(jiǎn)單的指標(biāo)來檢查模型是否正確預(yù)測(cè)文字的來源(人類或人工智慧)。

這是設(shè)定和運(yùn)行評(píng)估的程式碼:

from dspy.evaluate import Evaluate

# Define a simple evaluation metric
def validate_text_source(example: dspy.Example, pred, trace=None) -> int:
    return 1 if example.source.lower() == pred.source.lower() else 0

# Transform the dataset into DSPy-compatible "Example" objects
dspy_trainset = [
    dspy.Example(source=x['source'], text=x['text']).with_inputs('text') for x in ds['train']
]
dspy_devset = [
    dspy.Example(source=x['source'], text=x['text']).with_inputs('text') for x in ds['test']
]

# Evaluate the detector
evaluator = Evaluate(devset=dspy_devset, num_threads=12)  # Adjust threads based on your system
evaluator(detector, metric=validate_text_source)

在最初的測(cè)試中,我的準(zhǔn)確率達(dá)到了 76%–81%。請(qǐng)注意,由於資料集的隨機(jī)採(cǎi)樣,結(jié)果可能會(huì)有所不同。

Optimizing OpenAI’s GPT-mini to Detect AI-Generated Text Using DSPy


使用 DSPy 進(jìn)行最佳化

DSPy 的真正強(qiáng)大之處在於它的最佳化能力。透過使用 MIPROv2 優(yōu)化器,我們可以提高檢測(cè)器的性能,而無需手動(dòng)調(diào)整提示。優(yōu)化器使用少量範(fàn)例、動(dòng)態(tài)模板和自我監(jiān)督技術(shù)自動(dòng)執(zhí)行此過程。

以下是設(shè)定和運(yùn)行最佳化器的方法:

pip install dspy datasets

注意:對(duì)於 80 個(gè)範(fàn)例的資料集,使用「light」預(yù)設(shè)運(yùn)行單次最佳化的成本通常低於 0.50 美元。


結(jié)果和迭代

運(yùn)行優(yōu)化後,我觀察到效能顯著提升。與基線的 76%–81% 相比,我的第一次運(yùn)行的準(zhǔn)確率達(dá)到了 91.25%。隨後的運(yùn)行範(fàn)圍在 81.2%91.25% 之間,證明了以最小的努力實(shí)現(xiàn)了一致的改進(jìn)。

Optimizing OpenAI’s GPT-mini to Detect AI-Generated Text Using DSPy

載入最佳化模型以供進(jìn)一步使用:

from datasets import load_dataset

# Load the dataset
ds = load_dataset("artem9k/ai-text-detection-pile", split="train")

# For simplicity, we’ll do an even split of data for testing and training
NUM_EXAMPLES = 80  # Adjust this to experiment with dataset size
ds = ds.train_test_split(test_size=NUM_EXAMPLES, train_size=NUM_EXAMPLES)

您可以透過以下方式進(jìn)一步迭代:

  • 調(diào)整優(yōu)化器的自動(dòng)參數(shù)(輕、中、重),或自行設(shè)定超參數(shù)。
  • 增加訓(xùn)練和評(píng)估的資料集大小。
  • 使用更高級(jí)或更新的法學(xué)碩士進(jìn)行測(cè)試。

結(jié)論

只需幾個(gè)步驟,我們就示範(fàn)了 DSPy 如何簡(jiǎn)化現(xiàn)實(shí)用例的 LLM 最佳化。在沒有任何手動(dòng)提示工程的情況下,我們?cè)跈z測(cè)人工智慧生成的文字方面取得了顯著的進(jìn)展。雖然該模型並不完美,但 DSPy 的靈活性允許持續(xù)迭代,使其成為可擴(kuò)展 AI 開發(fā)的寶貴工具。

我強(qiáng)烈建議通讀 DSPy 的文檔並嘗試其他優(yōu)化器和 LLM 模式。


完整程式碼可在 GitHub 上取得。

有問題嗎?評(píng)論?讓我知道,我期待看到您使用 DSPy 建立的內(nèi)容!

你可以在 LinkedIn 上找到我 |技術(shù)長(zhǎng)兼合夥人@EES。

以上是優(yōu)化 OpenAI 的 GPT-mini 以使用 DSPy 檢測(cè) AI 產(chǎn)生的文本的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

Python的UNITDEST或PYTEST框架如何促進(jìn)自動(dòng)測(cè)試? Python的UNITDEST或PYTEST框架如何促進(jìn)自動(dòng)測(cè)試? Jun 19, 2025 am 01:10 AM

Python的unittest和pytest是兩種廣泛使用的測(cè)試框架,它們都簡(jiǎn)化了自動(dòng)化測(cè)試的編寫、組織和運(yùn)行。 1.二者均支持自動(dòng)發(fā)現(xiàn)測(cè)試用例並提供清晰的測(cè)試結(jié)構(gòu):unittest通過繼承TestCase類並以test\_開頭的方法定義測(cè)試;pytest則更為簡(jiǎn)潔,只需以test\_開頭的函數(shù)即可。 2.它們都內(nèi)置斷言支持:unittest提供assertEqual、assertTrue等方法,而pytest使用增強(qiáng)版的assert語句,能自動(dòng)顯示失敗詳情。 3.均具備處理測(cè)試準(zhǔn)備與清理的機(jī)制:un

如何將Python用於數(shù)據(jù)分析和與Numpy和Pandas等文庫(kù)進(jìn)行操作? 如何將Python用於數(shù)據(jù)分析和與Numpy和Pandas等文庫(kù)進(jìn)行操作? Jun 19, 2025 am 01:04 AM

pythonisidealfordataanalysisionduetonumpyandpandas.1)numpyExccelSatnumericalComputationswithFast,多dimensionalArraysAndRaysAndOrsAndOrsAndOffectorizedOperationsLikenp.sqrt()

什麼是動(dòng)態(tài)編程技術(shù),如何在Python中使用它們? 什麼是動(dòng)態(tài)編程技術(shù),如何在Python中使用它們? Jun 20, 2025 am 12:57 AM

動(dòng)態(tài)規(guī)劃(DP)通過將復(fù)雜問題分解為更簡(jiǎn)單的子問題並存儲(chǔ)其結(jié)果以避免重複計(jì)算,來優(yōu)化求解過程。主要方法有兩種:1.自頂向下(記憶化):遞歸分解問題,使用緩存存儲(chǔ)中間結(jié)果;2.自底向上(表格化):從基礎(chǔ)情況開始迭代構(gòu)建解決方案。適用於需要最大/最小值、最優(yōu)解或存在重疊子問題的場(chǎng)景,如斐波那契數(shù)列、背包問題等。在Python中,可通過裝飾器或數(shù)組實(shí)現(xiàn),並應(yīng)注意識(shí)別遞推關(guān)係、定義基準(zhǔn)情況及優(yōu)化空間複雜度。

如何使用__ITER__和__NEXT __在Python中實(shí)現(xiàn)自定義迭代器? 如何使用__ITER__和__NEXT __在Python中實(shí)現(xiàn)自定義迭代器? Jun 19, 2025 am 01:12 AM

要實(shí)現(xiàn)自定義迭代器,需在類中定義__iter__和__next__方法。 ①__iter__方法返回迭代器對(duì)象自身,通常為self,以兼容for循環(huán)等迭代環(huán)境;②__next__方法控制每次迭代的值,返回序列中的下一個(gè)元素,當(dāng)無更多項(xiàng)時(shí)應(yīng)拋出StopIteration異常;③需正確跟蹤狀態(tài)並設(shè)置終止條件,避免無限循環(huán);④可封裝複雜邏輯如文件行過濾,同時(shí)注意資源清理與內(nèi)存管理;⑤對(duì)簡(jiǎn)單邏輯可考慮使用生成器函數(shù)yield替代,但需結(jié)合具體場(chǎng)景選擇合適方式。

Python編程語言及其生態(tài)系統(tǒng)的新興趨勢(shì)或未來方向是什麼? Python編程語言及其生態(tài)系統(tǒng)的新興趨勢(shì)或未來方向是什麼? Jun 19, 2025 am 01:09 AM

Python的未來趨勢(shì)包括性能優(yōu)化、更強(qiáng)的類型提示、替代運(yùn)行時(shí)的興起及AI/ML領(lǐng)域的持續(xù)增長(zhǎng)。首先,CPython持續(xù)優(yōu)化,通過更快的啟動(dòng)時(shí)間、函數(shù)調(diào)用優(yōu)化及擬議中的整數(shù)操作改進(jìn)提升性能;其次,類型提示深度集成至語言與工具鏈,增強(qiáng)代碼安全性與開發(fā)體驗(yàn);第三,PyScript、Nuitka等替代運(yùn)行時(shí)提供新功能與性能優(yōu)勢(shì);最後,AI與數(shù)據(jù)科學(xué)領(lǐng)域持續(xù)擴(kuò)張,新興庫(kù)推動(dòng)更高效的開發(fā)與集成。這些趨勢(shì)表明Python正不斷適應(yīng)技術(shù)變化,保持其領(lǐng)先地位。

如何使用插座在Python中執(zhí)行網(wǎng)絡(luò)編程? 如何使用插座在Python中執(zhí)行網(wǎng)絡(luò)編程? Jun 20, 2025 am 12:56 AM

Python的socket模塊是網(wǎng)絡(luò)編程的基礎(chǔ),提供低級(jí)網(wǎng)絡(luò)通信功能,適用於構(gòu)建客戶端和服務(wù)器應(yīng)用。要設(shè)置基本TCP服務(wù)器,需使用socket.socket()創(chuàng)建對(duì)象,綁定地址和端口,調(diào)用.listen()監(jiān)聽連接,並通過.accept()接受客戶端連接。構(gòu)建TCP客戶端需創(chuàng)建socket對(duì)像後調(diào)用.connect()連接服務(wù)器,再使用.sendall()發(fā)送數(shù)據(jù)和??.recv()接收響應(yīng)。處理多個(gè)客戶端可通過1.線程:每次連接啟動(dòng)新線程;2.異步I/O:如asyncio庫(kù)實(shí)現(xiàn)無阻塞通信。注意事

如何在Python中切片列表? 如何在Python中切片列表? Jun 20, 2025 am 12:51 AM

Python列表切片的核心答案是掌握[start:end:step]語法並理解其行為。 1.列表切片的基本格式為list[start:end:step],其中start是起始索引(包含)、end是結(jié)束索引(不包含)、step是步長(zhǎng);2.省略start默認(rèn)從0開始,省略end默認(rèn)到末尾,省略step默認(rèn)為1;3.獲取前n項(xiàng)用my_list[:n],獲取後n項(xiàng)用my_list[-n:];4.使用step可跳過元素,如my_list[::2]取偶數(shù)位,負(fù)step值可反轉(zhuǎn)列表;5.常見誤區(qū)包括end索引不

如何使用DateTime模塊在Python中使用日期和時(shí)間? 如何使用DateTime模塊在Python中使用日期和時(shí)間? Jun 20, 2025 am 12:58 AM

Python的datetime模塊能滿足基本的日期和時(shí)間處理需求。 1.可通過datetime.now()獲取當(dāng)前日期和時(shí)間,也可分別提取.date()和.time()。 2.能手動(dòng)創(chuàng)建特定日期時(shí)間對(duì)象,如datetime(year=2025,month=12,day=25,hour=18,minute=30)。 3.使用.strftime()按格式輸出字符串,常見代碼包括%Y、%m、%d、%H、%M、%S;用strptime()將字符串解析為datetime對(duì)象。 4.利用timedelta進(jìn)行日期運(yùn)

See all articles