国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
介紹
學(xué)習(xí)目標(biāo)
目錄
什麼是在線學(xué)習(xí)?
批次與在線學(xué)習(xí):比較概述
實(shí)時(shí)應(yīng)用程序在線學(xué)習(xí)的優(yōu)勢
被動攻擊算法簡介
鉸鏈損失在被動攻擊學(xué)習(xí)中的作用
鉸鏈損失的定義
理解等式
被動攻擊算法的數(shù)學(xué)表述
步驟1:初始化重量向量w
步驟2:對於每個(gè)新數(shù)據(jù)點(diǎn)(xi,yi),xiis特徵向量和yi是真正的標(biāo)籤,預(yù)測的標(biāo)籤?_iis計(jì)算為:
步驟3:計(jì)算鉸鏈損失
步驟4:使用以下更新規(guī)則調(diào)整重量向量W
了解侵略性參數(shù)(C)
正則化在被動攻擊算法中的影響
這樣的公式以:
差異可以簡單地說明:
被動攻擊算法的實(shí)時(shí)應(yīng)用
垃圾郵件過濾
情感分析
仇恨言論檢測
欺詐檢測
股市分析
推薦系統(tǒng)
局限性和挑戰(zhàn)
建立仇恨言論檢測模型
為實(shí)時(shí)數(shù)據(jù)處理設(shè)置環(huán)境
安裝所需的庫
導(dǎo)入庫並設(shè)置Reddit API
清潔和預(yù)處理文本
設(shè)置預(yù)貼BERT模型以標(biāo)記
使用bert嵌入將文本轉(zhuǎn)換為向量
流式傳輸實(shí)時(shí)reddit數(shù)據(jù)並訓(xùn)練被動攻擊分類器
評估模型性能
結(jié)論
常見問題
首頁 科技週邊 人工智慧 在線學(xué)習(xí)和被動攻擊算法指南

在線學(xué)習(xí)和被動攻擊算法指南

Apr 13, 2025 am 11:09 AM

介紹

數(shù)據(jù)是從社交媒體,金融交易和電子商務(wù)平臺等來源的前所未有的速度生成的。處理這種連續(xù)的信息流是一個(gè)挑戰(zhàn),但它提供了一個(gè)及時(shí),準(zhǔn)確的決定的機(jī)會。實(shí)時(shí)系統(tǒng)(例如金融交易,語音助手和健康監(jiān)控系統(tǒng))依靠連續(xù)的數(shù)據(jù)處理來提供相關(guān)和最新的響應(yīng)。

批處理學(xué)習(xí)算法(例如KNN,SVM和決策樹)要求在訓(xùn)練期間將整個(gè)數(shù)據(jù)集加載到內(nèi)存中。在使用大型數(shù)據(jù)集時(shí),這變得越來越不切實(shí)際,導(dǎo)致重大存儲和內(nèi)存問題。在使用實(shí)時(shí)數(shù)據(jù)時(shí),這些效率也很低。

由於這個(gè)問題,我們需要一種在處理大量數(shù)據(jù)時(shí)既有效又準(zhǔn)確的算法。在這方面,被動攻擊算法使自己與眾不同。與批處理學(xué)習(xí)算法不同,它們不必在完整數(shù)據(jù)集上進(jìn)行培訓(xùn)即可進(jìn)行預(yù)測。被動攻擊性算法從即時(shí)的數(shù)據(jù)中學(xué)習(xí),消除了將整個(gè)數(shù)據(jù)集存儲或處理存儲在內(nèi)存中的需求。

學(xué)習(xí)目標(biāo)

  • 在線學(xué)習(xí)及其在使用大量數(shù)據(jù)時(shí)的意義。
  • 在線學(xué)習(xí)和批處理學(xué)習(xí)算法之間的區(qū)別。
  • 被動攻擊算法背後的數(shù)學(xué)直覺。
  • 不同的超參數(shù)及其在被動攻擊算法中的重要性。
  • 被動攻擊算法的應(yīng)用和用例。
  • 被動攻擊算法的局限性和挑戰(zhàn)。
  • 在Python中實(shí)現(xiàn)被動攻擊分類器,以檢測實(shí)時(shí)REDDIT數(shù)據(jù)的仇恨言論。

本文作為數(shù)據(jù)科學(xué)博客馬拉鬆的一部分發(fā)表

目錄

  • 什麼是在線學(xué)習(xí)?
    • 實(shí)時(shí)應(yīng)用程序在線學(xué)習(xí)的優(yōu)勢
  • 被動攻擊算法簡介
  • 鉸鏈損失在被動攻擊學(xué)習(xí)中的作用
  • 被動攻擊算法的數(shù)學(xué)表述
    • 了解侵略性參數(shù)(C)
  • 正則化在被動攻擊算法中的影響
  • 被動攻擊算法的實(shí)時(shí)應(yīng)用
  • 局限性和挑戰(zhàn)
  • 建立仇恨言論檢測模型
    • 為實(shí)時(shí)數(shù)據(jù)處理設(shè)置環(huán)境
    • 設(shè)置預(yù)貼BERT模型以標(biāo)記
  • 常見問題

什麼是在線學(xué)習(xí)?

在線學(xué)習(xí),也稱為增量學(xué)習(xí),是一種機(jī)器學(xué)習(xí)範(fàn)式,該模型可以通過每個(gè)新數(shù)據(jù)點(diǎn)進(jìn)行逐步更新,而不是一次在固定數(shù)據(jù)集上進(jìn)行培訓(xùn)。這種方法允許該模型不斷適應(yīng)新數(shù)據(jù),從而使其在隨著時(shí)間的推移隨時(shí)間發(fā)展的動態(tài)環(huán)境中特別有用。與傳統(tǒng)的批處理學(xué)習(xí)方法不同,在線學(xué)習(xí)可以通過處理新信息到達(dá)時(shí)實(shí)時(shí)更新和決策。

批次與在線學(xué)習(xí):比較概述

讓我們在下面研究批處理與在線學(xué)習(xí)比較:

批處理學(xué)習(xí):

  • 培訓(xùn)方法:批次學(xué)習(xí)算法一次在固定數(shù)據(jù)集上訓(xùn)練。經(jīng)過培訓(xùn)後,該模型將用於預(yù)測,直到使用新數(shù)據(jù)對其進(jìn)行重新訓(xùn)練。
  • 示例:神經(jīng)網(wǎng)絡(luò),支持向量機(jī)(SVM),K-Nearest鄰居(KNN)。
  • 挑戰(zhàn):再培訓(xùn)需要從頭開始處理整個(gè)數(shù)據(jù)集,這可能很耗時(shí)且計(jì)算昂貴。對於大型且增長的數(shù)據(jù)集,這尤其具有挑戰(zhàn)性,因?yàn)榧词故褂脧?qiáng)大的GPU,再培訓(xùn)也可能需要數(shù)小時(shí)。

在線學(xué)習(xí):

  • 培訓(xùn)方法:在線學(xué)習(xí)算法使用每個(gè)新數(shù)據(jù)點(diǎn)逐步更新模型。該模型不斷學(xué)習(xí)並實(shí)時(shí)適應(yīng)新數(shù)據(jù)。
  • 優(yōu)點(diǎn):此方法對於處理大型數(shù)據(jù)集和動態(tài)數(shù)據(jù)流更有效。該模型以最少的計(jì)算資源進(jìn)行更新,並且可以快速處理新的數(shù)據(jù)點(diǎn),而無需從頭開始重新培訓(xùn)。
  • 應(yīng)用程序:在線學(xué)習(xí)對需要實(shí)時(shí)決策的應(yīng)用程序有益,例如股票市場分析,社交媒體流和推薦系統(tǒng)。

實(shí)時(shí)應(yīng)用程序在線學(xué)習(xí)的優(yōu)勢

  • 持續(xù)適應(yīng):在線學(xué)習(xí)模型適應(yīng)新數(shù)據(jù)的到來,使其非常適合隨著時(shí)間的推移(例如在欺詐檢測系統(tǒng)中)發(fā)展的環(huán)境。這樣可以確保模型保持相關(guān)性和有效性,而無需從頭開始重新審查。
  • 效率:在線學(xué)習(xí)算法不需要與整個(gè)數(shù)據(jù)集進(jìn)行完整的重新培訓(xùn),從而節(jié)省了大量的計(jì)算時(shí)間和資源。這對於具有有限的計(jì)算功率(例如移動設(shè)備)的應(yīng)用程序特別有用。
  • 資源管理:通過逐步處理數(shù)據(jù),在線學(xué)習(xí)模型減少了對廣泛存儲空間的需求。處理後可以丟棄舊數(shù)據(jù),這有助於有效地管理存儲並保持系統(tǒng)輕巧。
  • 實(shí)時(shí)決策:在線學(xué)習(xí)可以實(shí)現(xiàn)實(shí)時(shí)更新,這對於依賴最新信息的應(yīng)用程序至關(guān)重要,例如推薦系統(tǒng)或?qū)崟r(shí)股票交易。

被動攻擊算法簡介

被動攻擊算法首先由Crammer等人引入。 2006年,他們的論文名為“在線被動攻擊算法”。這些算法屬於在線學(xué)習(xí)類別,主要用於分類任務(wù)。這些是有效的,因?yàn)樗鼈兛梢灾鸩綇拿總€(gè)數(shù)據(jù)點(diǎn)學(xué)習(xí),調(diào)整其參數(shù),然後從內(nèi)存中丟棄數(shù)據(jù)。這使得在處理龐大的數(shù)據(jù)集和實(shí)時(shí)應(yīng)用程序時(shí),被動攻擊算法特別有用。此外,它的適應(yīng)能力可以快速使其在數(shù)據(jù)分佈可能會隨著時(shí)間變化而變化的動態(tài)環(huán)境中表現(xiàn)良好。

您可能想知道這個(gè)不尋常的名字。這是有原因的。該算法的被動部分意味著,如果正確地對當(dāng)前數(shù)據(jù)點(diǎn)進(jìn)行了分類,則模型保持不變,並保留從先前的數(shù)據(jù)點(diǎn)獲得的知識。另一方面,侵略性部分錶明,如果發(fā)生錯(cuò)誤分類,該模型將大大調(diào)整其權(quán)重以糾正誤差。

為了更好地了解PA算法的工作原理,讓我們在二進(jìn)制分類的背景下可視化其行為。想像一下,您有一組數(shù)據(jù)點(diǎn),每個(gè)數(shù)據(jù)點(diǎn)屬於兩個(gè)類之一。 PA算法旨在找到一個(gè)分離的超平面,將數(shù)據(jù)點(diǎn)分為各自的類別。該算法從對超平面的初始猜測開始。當(dāng)新的數(shù)據(jù)點(diǎn)被錯(cuò)誤分類時(shí),該算法會積極地更新當(dāng)前的超平面,以確保正確對新數(shù)據(jù)點(diǎn)進(jìn)行分類。另一方面,當(dāng)數(shù)據(jù)點(diǎn)正確分類時(shí),則無需更新超平面。

鉸鏈損失在被動攻擊學(xué)習(xí)中的作用

被動攻擊算法使用鉸鏈損失作為其損耗函數(shù),是該算法的關(guān)鍵構(gòu)件之一。這就是為什麼在我們深入研究算法背後的數(shù)學(xué)直覺之前,要了解鉸鏈損失的運(yùn)作至關(guān)重要。

鉸鏈損失廣泛用於機(jī)器學(xué)習(xí),特別是用於培訓(xùn)分類器,例如支持向量機(jī)(SVM)。

鉸鏈損失的定義

它被定義為:

在線學(xué)習(xí)和被動攻擊算法指南

  • W是模型的重量向量
  • xi是第i-th數(shù)據(jù)點(diǎn)的特徵向量
  • yi是第i -th數(shù)據(jù)點(diǎn)的真實(shí)標(biāo)籤,如果進(jìn)行二進(jìn)制分類,則可以是1或-1。

在線學(xué)習(xí)和被動攻擊算法指南

讓我們以二進(jìn)制分類問題為例,其中目標(biāo)是區(qū)分兩個(gè)數(shù)據(jù)類。 PA算法隱含地旨在最大化決策邊界和數(shù)據(jù)點(diǎn)之間的邊距。邊緣是數(shù)據(jù)點(diǎn)和分離線/超平面之間的距離。這與SVM分類器的工作非常相似,SVM分類器也將鉸鏈損失用作其損耗函數(shù)。較大的邊距表明分類器對其預(yù)測更有信心,並且可以準(zhǔn)確區(qū)分這兩個(gè)類別。因此,目標(biāo)是盡可能頻繁地達(dá)到至少1個(gè)邊緣。

理解等式

讓我們進(jìn)一步分解,看看方程如何有助於達(dá)到最大利潤:

  • w·xi:這是權(quán)重矢量W和數(shù)據(jù)點(diǎn)XI的點(diǎn)產(chǎn)物。它代表了對分類器預(yù)測的信心程度。
  • yi *(w·xi):這是分類器的簽名分?jǐn)?shù)或邊距,其中符號由真實(shí)標(biāo)籤yi確定。正值表示分類器預(yù)測正確的標(biāo)籤,而負(fù)值表示它預(yù)測了錯(cuò)誤的標(biāo)籤。
  • 1 - yi *(w·xi) 這測量了所需的邊距(1)和實(shí)際邊緣之間的差異。
  • max(0,1 - yi *(w·xi)):當(dāng)邊緣至少1時(shí),損耗等於零。否則,損失隨著邊緣赤字而線性增加。

簡而言之,鉸鏈損失會懲罰不正確的分類以及不夠自信的正確分類。當(dāng)數(shù)據(jù)點(diǎn)至少用單位邊緣正確分類時(shí),損失為零。否則,如果數(shù)據(jù)點(diǎn)在邊緣或錯(cuò)誤分類之內(nèi),則損失隨距離邊緣的距離線性增加。

被動攻擊算法的數(shù)學(xué)表述

被動攻擊性分類器的數(shù)學(xué)基礎(chǔ)圍繞著維護(hù)根據(jù)傳入數(shù)據(jù)點(diǎn)的分類誤差進(jìn)行更新的權(quán)重向量W。這是算法的詳細(xì)概述:

給定一個(gè)數(shù)據(jù)集:

在線學(xué)習(xí)和被動攻擊算法指南

步驟1:初始化重量向量w

步驟2:對於每個(gè)新數(shù)據(jù)點(diǎn)(xi,yi),xiis特徵向量和yi是真正的標(biāo)籤,預(yù)測的標(biāo)籤?_iis計(jì)算為:

在線學(xué)習(xí)和被動攻擊算法指南

步驟3:計(jì)算鉸鏈損失

在線學(xué)習(xí)和被動攻擊算法指南

  • 如果預(yù)測的標(biāo)籤?_i是正確的,邊距至少為1,則損失為0。
  • 否則,損失是1和邊緣之間的差異。

步驟4:使用以下更新規(guī)則調(diào)整重量向量W

對於每個(gè)數(shù)據(jù)點(diǎn)x_i,如果l(w;(x_i,y_i))> 0(錯(cuò)誤分類或不足):

更新的重量向量w_t 1的給出為:

在線學(xué)習(xí)和被動攻擊算法指南

如果l(w;(x_i,y_i))= 0(用足夠的邊距正確分類):

然後,重量矢量保持不變:

在線學(xué)習(xí)和被動攻擊算法指南

請注意,這些方程在求解約束優(yōu)化問題後出現(xiàn),目的是在類之間獲得最大邊緣超平面。這些取自原始研究論文,這些論文的推導(dǎo)超出了本文的範(fàn)圍。

這兩個(gè)更新方程是被動攻擊算法的核心。這些意義可以簡單地理解。一方面,更新需要新的權(quán)重值(W_T 1)才能正確地用足夠大的邊距對當(dāng)前示例進(jìn)行分類,從而取得了進(jìn)展。另一方面,它必須保持盡可能靠近較舊的重量(W_T),以保留在上一輪中學(xué)習(xí)的信息。

了解侵略性參數(shù)(C)

侵略性參數(shù)C是被動攻擊算法中最重要的超參數(shù)。它控制算法在發(fā)生錯(cuò)誤分類時(shí)如何更新其權(quán)重。

高C值會導(dǎo)致更積極的更新,從而可能導(dǎo)致更快的學(xué)習(xí),但也增加了過度擬合的風(fēng)險(xiǎn)。該算法可能對數(shù)據(jù)中的噪聲和波動過於敏感。另一方面,C值的低值會導(dǎo)致較不積極的更新,從而使算法對噪聲和異常值的強(qiáng)大更強(qiáng)。但是,在這種情況下,適應(yīng)新信息,減慢學(xué)習(xí)過程的速度很慢。

我們希望該算法能夠從每個(gè)新實(shí)例中逐步學(xué)習(xí),同時(shí)避免過度適合嘈雜的樣本。結(jié)果,我們必須努力在兩者之間取得平衡,從而使我們能夠在保持模型穩(wěn)定性和防止過度擬合的同時(shí)進(jìn)行重大更新。在大多數(shù)情況下,C的最佳值取決於特定數(shù)據(jù)集以及學(xué)習(xí)速度和穩(wěn)健性之間所需的權(quán)衡。在實(shí)際情況下,諸如交叉驗(yàn)證之類的技術(shù)用於獲得C的最佳值。

正則化在被動攻擊算法中的影響

現(xiàn)實(shí)世界中的數(shù)據(jù)集幾乎總是包含一定程度的噪音或不規(guī)則性。標(biāo)籤錯(cuò)誤的數(shù)據(jù)點(diǎn)可能導(dǎo)致PA算法在錯(cuò)誤的方向上大大改變其權(quán)重向量。這個(gè)單一標(biāo)記的示例可能會導(dǎo)致隨後的回合中的幾個(gè)預(yù)測錯(cuò)誤,從而影響模型的可靠性。

為了解決這個(gè)問題,還有一個(gè)更重要的超參數(shù)有助於使算法對數(shù)據(jù)中的噪聲和異常值更強(qiáng)大。在錯(cuò)誤分類的情況下,它傾向於使用更溫和的重量更新。這類似於正規(guī)化?;墩齽t化參數(shù),稱為PA-I和PA-II,該算法分為兩個(gè)變體。

這些主要在步長變量τ (也稱為歸一化損耗)的定義上有所不同。對於pa-i,損失被上限為侵略性參數(shù)C的值。

這樣的公式以:

在線學(xué)習(xí)和被動攻擊算法指南

對於PA-II,步長或歸一化損失可以寫為:

在線學(xué)習(xí)和被動攻擊算法指南

在被動攻擊性分類器的Sklearlen實(shí)施中,該正則化參數(shù)被視為損失??梢愿鶕?jù)我們要使用的兩個(gè)PA-I和PA-II中的哪一個(gè)設(shè)置為兩個(gè)值之一。如果您想使用PA-I變體,則應(yīng)將損失設(shè)置為“鉸鏈”,否則為PA-II,損失設(shè)置為“平方 - 鉸鏈”。

差異可以簡單地說明:

  • PA-I是一種更具侵略性的變體,它放鬆邊緣約束(邊緣可能小於一個(gè)),但在預(yù)測不正確的情況下,損失損失。這會導(dǎo)致學(xué)習(xí)速度更快,但比其對應(yīng)者更容易出現(xiàn)離群值。
  • PA-II是一種更強(qiáng)大的變體,可以四處懲罰損失,使其對嘈雜的數(shù)據(jù)和異常值更具彈性。同時(shí),這使其更加保守,以適應(yīng)數(shù)據(jù)的差異,從而導(dǎo)致學(xué)習(xí)速度較慢。

同樣,這兩個(gè)之間的選擇取決於數(shù)據(jù)集的特定特徵。實(shí)際上,通常建議在選擇任何一個(gè)變體之前嘗試具有不同C值的兩個(gè)變體。

被動攻擊算法的實(shí)時(shí)應(yīng)用

從實(shí)時(shí)數(shù)據(jù)處理到自適應(yīng)系統(tǒng),在線學(xué)習(xí)和被動攻擊算法具有廣泛的應(yīng)用程序。下面,我們研究了在線學(xué)習(xí)的一些最有影響力的應(yīng)用。

垃圾郵件過濾

垃圾郵件過濾是文本分類的重要應(yīng)用,其目標(biāo)是區(qū)分垃圾郵件和合法電子郵件。 PA算法的逐步學(xué)習(xí)能力在這里特別有益,因?yàn)樗梢愿鶕?jù)新的垃圾郵件趨勢不斷更新模型。

情感分析

情感分析涉及確定在文本中表達(dá)的情感,例如推文或產(chǎn)品評論。 PA算法可用於構(gòu)建實(shí)時(shí)分析情感的模型,適應(yīng)新的語,表達(dá)和情感趨勢。這在社交媒體監(jiān)控和客戶反饋分析中特別有用,及時(shí)見解至關(guān)重要。

仇恨言論檢測

仇恨言語檢測是PA算法可能非常有用的另一個(gè)關(guān)鍵應(yīng)用。通過從仇恨言論的新實(shí)例中逐步學(xué)習(xí),該模型可以適應(yīng)不斷發(fā)展的語言模式和上下文。這對於在Twitter,F(xiàn)acebook和Reddit等平臺上保持自動審核工具的有效性至關(guān)重要,以確保更安全,更具包容性的在線環(huán)境。

欺詐檢測

金融機(jī)構(gòu)和在線服務(wù)不斷監(jiān)視交易和用戶行為,以檢測欺詐活動。 PA算法通過每項(xiàng)新交易更新其模型的能力有助於確定欺詐模式出現(xiàn)的模式,從而為不斷發(fā)展的欺詐策略提供了強(qiáng)有力的防禦。

股市分析

金融市場的股票價(jià)格高度動態(tài),要求模型快速響應(yīng)新信息。在線學(xué)習(xí)算法可以通過從新的市場數(shù)據(jù)中逐步學(xué)習(xí)來預(yù)測和分析股票價(jià)格,從而及時(shí),準(zhǔn)確地預(yù)測貿(mào)易商和投資者。

推薦系統(tǒng)

在線學(xué)習(xí)算法也可以在大規(guī)模推薦系統(tǒng)中使用,以根據(jù)用戶互動動態(tài)更新建議。這種實(shí)時(shí)適應(yīng)性可確保隨著用戶偏好的變化,建議保持相關(guān)和個(gè)性化。

這些是在線學(xué)習(xí)算法真正發(fā)光的一些領(lǐng)域。但是,它們的能力不僅限於這些領(lǐng)域。這些也適用於其他各個(gè)領(lǐng)域,包括異常檢測,醫(yī)學(xué)診斷和機(jī)器人技術(shù)。

局限性和挑戰(zhàn)

儘管在線學(xué)習(xí)和被動攻擊算法在處理流數(shù)據(jù)並適應(yīng)快速變化方面具有優(yōu)勢,但它們也有缺點(diǎn)。一些關(guān)鍵局限性是:

  • 被動攻擊算法順序處理數(shù)據(jù),使它們更容易受到嘈雜或錯(cuò)誤的數(shù)據(jù)點(diǎn)的影響。單個(gè)離群值可能會對模型的學(xué)習(xí)產(chǎn)生不成比例的影響,從而導(dǎo)致預(yù)測或有偏見的模型。
  • 這些算法一次僅看到一個(gè)數(shù)據(jù)實(shí)例,這限制了他們對不同數(shù)據(jù)點(diǎn)之間的總體數(shù)據(jù)分佈和關(guān)係的理解。這使得很難識別複雜的模式並做出準(zhǔn)確的預(yù)測。
  • 由於PA算法實(shí)時(shí)從數(shù)據(jù)流中學(xué)習(xí),因此它們可能會與最新數(shù)據(jù)過高,並可能忽略或忘記早期數(shù)據(jù)中觀察到的模式。當(dāng)數(shù)據(jù)分佈隨時(shí)間變化時(shí),這可能導(dǎo)致概括性能差。
  • 選擇侵略性參數(shù)C的最佳值可能具有挑戰(zhàn)性,並且通常需要實(shí)驗(yàn)。高價(jià)值提高了攻擊性導(dǎo)致過度擬合,而低價(jià)值會導(dǎo)致學(xué)習(xí)緩慢。
  • 評估這些算法的性能非常複雜。由於數(shù)據(jù)分佈可以隨時(shí)間變化,因此在固定測試集??上評估模型的性能可能不一致。

建立仇恨言論檢測模型

Twitter和Reddit等社交媒體平臺每天都會產(chǎn)生大量數(shù)據(jù),使其非常適合測試我們對在線學(xué)習(xí)算法的理論理解。

在本節(jié)中,我將通過使用Reddit的實(shí)時(shí)數(shù)據(jù)從頭開始構(gòu)建仇恨語音檢測應(yīng)用程序來演示實(shí)際的用例。 Reddit是一個(gè)以其多元化社區(qū)而聞名的平臺。但是,這也面臨著有毒評論的挑戰(zhàn),這些評論可能會受到傷害和虐待。我們將構(gòu)建一個(gè)可以使用REDDIT API實(shí)時(shí)識別這些有毒評論的系統(tǒng)。

在這種情況下,由於數(shù)據(jù)量的龐大,培訓(xùn)一個(gè)模型將不可能一次。此外,數(shù)據(jù)分佈和模式會隨著時(shí)間而變化。因此,我們需要無源攻擊算法的幫助,能夠在不存儲內(nèi)存中將數(shù)據(jù)從數(shù)據(jù)中學(xué)習(xí)。

為實(shí)時(shí)數(shù)據(jù)處理設(shè)置環(huán)境

在開始實(shí)施代碼之前,您必須首先設(shè)置系統(tǒng)。要使用REDDIT API,如果您還沒有,則必須在Reddit上創(chuàng)建一個(gè)帳戶。然後,創(chuàng)建一個(gè)REDDIT應(yīng)用程序,並獲取您的API密鑰和其他憑據(jù)進(jìn)行身份驗(yàn)證。完成這些先決條件後,我們準(zhǔn)備開始創(chuàng)建仇恨言論檢測模型。

代碼的工作流程看起來像這樣:

  • 使用“ praw”庫連接到Reddit API。
  • 流傳輸實(shí)時(shí)數(shù)據(jù)並將其輸入模型。
  • 使用BERT模型對數(shù)據(jù)進(jìn)行標(biāo)記,以進(jìn)行仇恨語音檢測任務(wù)。
  • 使用被動攻擊性分類器逐步訓(xùn)練模型。
  • 在看不見的測試數(shù)據(jù)集上測試我們的模型並測量性能。

安裝所需的庫

第一步是安裝所需的庫。

 PIP安裝PRAW SCIKIT-LEARN NLTK變形金剛火炬Matplotlib Seaborn opendatasets

要與Reddit合作,我們需要“ praw”庫,即Reddit API包裝器。我們還需要“ nltk”進(jìn)行文本處理,``scikit-learn“用於機(jī)器學(xué)習(xí),``matplotlib''和`seaborn''和`seaborn'用於可視化,``transformers''和`transformers''和`torch'用於創(chuàng)建單詞嵌入並加載微調(diào)的bert bert bert bert模型,並從kaggle加載數(shù)據(jù)。

導(dǎo)入庫並設(shè)置Reddit API

在下一步中,我們使用“ praw”導(dǎo)入所有必要的庫,並設(shè)置與Reddit API的連接。它將幫助我們從Subreddits流式評論。

導(dǎo)入
進(jìn)口praw
導(dǎo)入火炬
導(dǎo)入NLTK
導(dǎo)入numpy作為NP
導(dǎo)入大熊貓作為pd
導(dǎo)入matplotlib.pyplot作為PLT
進(jìn)口海洋作為SNS
導(dǎo)入OpEndataset作為OD
來自nltk.corpus導(dǎo)入停止詞
來自sklearn.feature_extraction.text導(dǎo)入tfidfvectorizer
來自sklearn.linear_model導(dǎo)入passiveaggressiveclalsifier
來自sklearn.metrics導(dǎo)入精度,confusion_matrix,classification_report
來自sklearn.model_selection導(dǎo)入train_test_split
從變形金剛導(dǎo)入汽車,AutoModeForSequenceCecrification,AutoTokenizer
從變形金剛導(dǎo)入bertforeSequencecrification,berttokenizer,textClassification pipeline

#Reddit API憑據(jù)
reddit_client_id = {your_client_id}
reddit_client_secret = {your_client_secret}
reddit_user_agent = {your_user_agent}

#設(shè)置Reddit API連接
reddit = praw.reddit(client_id = reddit_client_id,
                     client_secret = reddit_client_secret,
                     user_agent = reddit_user_agent)

要成功設(shè)置REDDIT實(shí)例,只需用您的憑據(jù)替換上述佔(zhàn)位符,就可以使用。

清潔和預(yù)處理文本

在處理原始文本數(shù)據(jù)時(shí),通常有包含符號,主題標(biāo)籤,land詞等的示例。由於這些對我們的模型沒有實(shí)際用途,因此我們必須首先清潔文本才能刪除它們。

 #下載停止字
nltk.download('stopwords')
stop_words = set(stopwords.words('英語'))

#清潔文本並刪除停止詞
def clean_text(文本):
    text = re.sub(r'http \ s | www \ s | https \ s','',text,flags = re.multiline)
    text = re.sub(r'\@\ w | \#','',text)
    text = re.sub(r'\ w',',text)
    text = re.sub(r'\ d',',text)
    text = re.sub(r'\ s','',文本)
    text = text.strip()
    text =''。
    返回文字

上面的代碼定義了輔助功能,該功能通過刪除不必要的單詞,特殊字符和URL來預(yù)處理評論。

設(shè)置預(yù)貼BERT模型以標(biāo)記

當(dāng)我們從Reddit流媒體評論時(shí),我們不知道該評論是否有毒,因?yàn)樗鼪]有標(biāo)記。要使用監(jiān)督分類,我們首先需要標(biāo)記數(shù)據(jù)。我們必須實(shí)施一個(gè)可靠且精確的系統(tǒng),以標(biāo)記傳入的原始註釋。為此,我們將使用一個(gè)微調(diào)的BERT模型進(jìn)行仇恨言論檢測。該模型將將評論準(zhǔn)確地分類為兩個(gè)類別。

 model_path =“ junglelee/bert-toxic-comment-classification”
tokenizer = berttokenizer.from_pretaining(model_path)
model = bertforsequencececrification.from_pretrated(model_path,num_labels = 2)

pipeline = textClassification pipeline(model = model,tokenizer = tokenizer)

#為文本標(biāo)記的助手功能
def precadive_hate_speech(文本):
    預(yù)測= pipeline(text)[0] ['label']
    返回1如果預(yù)測=='有毒'其他0#1對有毒,0抗毒

在這裡,我們使用變形金剛庫來設(shè)置模型管道。然後,我們定義一個(gè)輔助函數(shù),以預(yù)測給定文本使用BERT模型是有毒還是無毒?,F(xiàn)在,我們已經(jīng)標(biāo)記了示例以進(jìn)食我們的模型。

使用bert嵌入將文本轉(zhuǎn)換為向量

由於我們的分類器將不使用文本輸入,因此需要首先將其轉(zhuǎn)換為合適的向量表示。為了做到這一點(diǎn),我們將使用驗(yàn)證的BERT嵌入,這將使我們的文本轉(zhuǎn)換為可以將其饋送到模型進(jìn)行訓(xùn)練的向量。

 #加載驗(yàn)證的BERT模型和嵌入的令牌
model_name =“基於bert-base-uncund”
tokenizer = autotokenizer.from_pretaining(model_name)
bert_model = automodel.from_pretrataining(model_name)
bert_model.eval()  

#為獲得bert嵌入的助手功能
def get_bert_embedding(文本):
    inputs = tokenizer(text,return_tensors ='pt',截?cái)? true,padding = true)
    使用Torch.no_grad():
        輸出= bert_model(**輸入)
    
    返回outputs.last_hidden_??state [:,0,:]。 squeeze()。 numpy()

上面的代碼採用一段文本,使用bert令牌化來將其施加,然後將其通過BERT模型將其傳遞以提取句子嵌入。文本現(xiàn)在已轉(zhuǎn)換為向量。

流式傳輸實(shí)時(shí)reddit數(shù)據(jù)並訓(xùn)練被動攻擊分類器

現(xiàn)在,我們準(zhǔn)備實(shí)時(shí)流式傳輸評論,並培訓(xùn)分類器以檢測仇恨言論。

 #為subreddit的助手功能流式傳輸評論
def stream_comments(subreddit_name,batch_size = 100):
    subreddit = reddit.subreddit(subreddit_name)
    remand_stream = subreddit.stream.comments()
    
    批次= []
    在comment_stream中進(jìn)行評論:
        嘗試:
            #清潔傳入的文字 
            remand_text = clean_text(comment.body)
            #使用驗(yàn)證的BERT模型標(biāo)記評論
            label = predition_hate_speech(comment_text) 
            #將文本和標(biāo)籤添加到當(dāng)前批次
            batch.append((comment_text,label))
            
            如果len(batch)> = batch_size:
                產(chǎn)量批次
                批次= []
                
        除例外為E:
            打?。╢'Error:{e}')
 

#指定訓(xùn)練回合的數(shù)量
回合= 10

#指定subreddit
subreddit_name ='fitness'

#初始化被動攻擊分類器
clf = passiveaggressiveclalsifier(c = 0.1,損失='Hinge',max_iter = 1,Random_state = 37)


#流評論並執(zhí)行增量培訓(xùn)
對於num_rounds,在枚舉中批處理(stream_comments(subreddit_name,batch_size = 100)):
    #訓(xùn)練分類器進(jìn)行所需數(shù)量的回合
    如果num_rounds ==圓形:
        休息
  
    #分開文字和標(biāo)籤
    batch_texts = [at批次中的項(xiàng)目]
    batch_labels = [批次中的項(xiàng)目[1]]
    
    #將一批文本轉(zhuǎn)換為bert嵌入
    x_train_batch = np.Array([[get_bert_embedding(text)for batch_texts中的文本])
    y_train_batch = np.array(batch_labels)
    
    #在當(dāng)前批次上訓(xùn)練模型
    clf.partial_fit(x_train_batch,y_train_batch,class = [0,1])
    打?。ㄔ谝慌鷞len(batch_texts)}樣品中進(jìn)行打印。')
    
印刷(“訓(xùn)練完成”)

在線學(xué)習(xí)和被動攻擊算法指南

在上面的代碼中,我們首先指定我們要從中進(jìn)行評論,然後通過10個(gè)訓(xùn)練回合初始化PA分類器的子列數(shù)。然後,我們實(shí)時(shí)流式傳輸評論。對於其中的每個(gè)新評論,首先會清理刪除不必要的單詞。然後使用驗(yàn)證的BERT模型標(biāo)記並添加到當(dāng)前批處理中。

我們初始化的被動攻擊分類器將C = 0.1且損耗='鉸鏈',該分類器與算法的PA-I版本相對應(yīng)。對於每個(gè)批次,我們都使用'partial_fit()`方法訓(xùn)練分類器。這使該模型可以從每個(gè)訓(xùn)練樣本中逐步學(xué)習(xí),而不是在處理之前將整個(gè)批次存儲在內(nèi)存中。因此,使模型能夠不斷適應(yīng)新信息,從而使其非常適合實(shí)時(shí)應(yīng)用程序。

評估模型性能

我將使用Kaggle有毒推文數(shù)據(jù)集評估我們的模型。該數(shù)據(jù)集包含幾條被分類為有毒或無毒的推文。

 #從Kaggle下載數(shù)據(jù)
od.download(“ https://www.kaggle.com/datasets/ashwiniyer176/toxic-tweets-dataset”)
#加載數(shù)據(jù)
data = pd.read_csv(“ decitic-teweets-dataset/finalbalanceddataset.csv”,usecols = [1,2])[[[“ Tweet”,“ witedicities”]]

#分開文字和標(biāo)籤
test_data = data.sample(n = 100)
texts = test_data ['tweet']。應(yīng)用(clean_text)
標(biāo)籤= test_data ['毒性']

#將文本轉(zhuǎn)換為向量
x_test = np.array([get_bert_embedding(文本)文本中的文本])
y_test = np.array(標(biāo)籤)

#做出預(yù)測
y_pred = clf.predict(x_test)

#評估模型的性能
精度=準(zhǔn)確_score(y_test,y_pred)
conf_matrix = Confusion_matrix(y_test,y_pred)

打?。ā胺诸悎?bào)告:”)
print(classification_report(y_test,y_pred))

#繪製混亂矩陣
plt.figure(無花果=(7,5))
sns.heatmap(conc_matrix, 
            annot = true, 
            fmt ='d', 
            cmap ='布魯斯', 
            cbar = false, 
            Xticklabels = [“無毒”,“有毒”], 
            yticklabels = [“無毒”,“有毒”])
            
plt.xlabel(“預(yù)測標(biāo)籤”)
plt.ylabel('true標(biāo)籤')
plt.title('混淆矩陣')
plt.show() 

在線學(xué)習(xí)和被動攻擊算法指南

在線學(xué)習(xí)和被動攻擊算法指南

首先,我們加載了測試集並使用前面定義的`clean_text`方法清潔了它。然後使用bert嵌入將文本轉(zhuǎn)換為向量。最後,我們使用分類報(bào)告和混亂矩陣對測試集進(jìn)行預(yù)測,並評估模型在不同指標(biāo)上的性能。

結(jié)論

我們探討了在線學(xué)習(xí)算法的力量,重點(diǎn)是被動攻擊算法有效處理大型數(shù)據(jù)集並適應(yīng)實(shí)時(shí)數(shù)據(jù)而無需完整的重新培訓(xùn)的能力。還討論了鉸鏈損失,侵略性超參數(shù)(C)的作用,以及正則化如何幫助管理噪聲和離群值。在實(shí)施使用被動攻擊分類器的仇恨語音檢測模型之前,我們還審查了現(xiàn)實(shí)世界中的應(yīng)用程序和局限性。感謝您的閱讀,我期待著我們的下一個(gè)AI教程!

常見問題

Q1。被動攻擊算法的基本原則是什麼?

答:被動積極算法背後的基本原理是在做出錯(cuò)誤的預(yù)測時(shí)積極更新權(quán)重,並在做出正確的預(yù)測時(shí)被動地保留學(xué)習(xí)的權(quán)重。

Q2。侵略性參數(shù)C在PA算法中起什麼作用?

答:當(dāng)C高時(shí),該算法變得更具侵略性,快速適應(yīng)新數(shù)據(jù),從而導(dǎo)致學(xué)習(xí)速度更快。當(dāng)C較低時(shí),算法就會變得不那麼侵略性,並進(jìn)行較小的更新。這降低了過度適合嘈雜樣本的可能性,但使適應(yīng)新實(shí)例的可能性更低。

Q3。被動攻擊分類器與支持向量機(jī)(SVM)有何相似之處?

答:兩者都旨在最大化決策邊界和數(shù)據(jù)點(diǎn)之間的邊距。兩者都使用鉸鏈損失作為其損失功能。

Q4。在線學(xué)習(xí)算法比批處理學(xué)習(xí)算法有哪些優(yōu)點(diǎn)?

答:在線學(xué)習(xí)算法可以與大型數(shù)據(jù)集一起使用,沒有存儲限制,並且很容易適應(yīng)快速變化的數(shù)據(jù),而無需從頭開始重新培訓(xùn)。

Q5。在什麼情況下,被動侵略算法可以有用?

A.被動攻擊算法可用於多種應(yīng)用中,包括垃圾郵件過濾,情感分析,仇恨言論檢測,實(shí)時(shí)股票市場分析和推薦系統(tǒng)。

本文所示的媒體不由Analytics Vidhya擁有,並由作者酌情使用。

以上是在線學(xué)習(xí)和被動攻擊算法指南的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

前7個(gè)筆記本替代品 前7個(gè)筆記本替代品 Jun 17, 2025 pm 04:32 PM

Google的NotebookLM是由Gemini 2.5提供動力的智能AI筆記工具,它在匯總文檔方面表現(xiàn)出色。但是,它在工具使用方面仍然有局限性,例如源蓋,雲(yún)依賴性和最近的“發(fā)現(xiàn)”功能

從採用到優(yōu)勢:2025年塑造企業(yè)LLM的10個(gè)趨勢 從採用到優(yōu)勢:2025年塑造企業(yè)LLM的10個(gè)趨勢 Jun 20, 2025 am 11:13 AM

以下是重塑企業(yè)AI景觀的十種引人注目的趨勢。對LLMSorganizations的財(cái)務(wù)承諾正在大大增加其在LLMS的投資,其中72%的人預(yù)計(jì)他們的支出今年會增加。目前,近40%a

AI投資者停滯不前? 3條購買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨(dú)特性的衰落,以AI為中心的風(fēng)險(xiǎn)投資的投資者必須做出關(guān)鍵決定:購買,建立或合作夥伴才能獲得優(yōu)勢?這是評估每個(gè)選項(xiàng)和PR的方法

生成AI的不可阻擋的增長(AI Outlook第1部分) 生成AI的不可阻擋的增長(AI Outlook第1部分) Jun 21, 2025 am 11:11 AM

披露:我的公司Tirias Research已向IBM,NVIDIA和本文提到的其他公司諮詢。 Growth驅(qū)動力的生成AI採用的激增比最樂觀的預(yù)測更具戲劇性。然後,

新蓋洛普報(bào)告:AI文化準(zhǔn)備就緒需要新的心態(tài) 新蓋洛普報(bào)告:AI文化準(zhǔn)備就緒需要新的心態(tài) Jun 19, 2025 am 11:16 AM

廣泛採用和情感準(zhǔn)備之間的差距揭示了人類如何與越來越多的數(shù)字伴侶互動。我們正在進(jìn)入共存階段,算法編織到我們的日?,F(xiàn)場

這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 Jun 20, 2025 am 11:16 AM

由於AI,那些日子是編號的。根據(jù)一個(gè)螺柱,搜索企業(yè)諸如Travel網(wǎng)站皮劃艇和Edtech Company Chegg之類的企業(yè)正在下降,部分原因是60%的網(wǎng)站搜索不會導(dǎo)致用戶單擊任何鏈接。

AGI和AI超級智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 AGI和AI超級智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來談?wù)劇? 對創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI複雜性(請參閱此處的鏈接)。 前往Agi和

思科在美國2025 思科在美國2025 Jun 19, 2025 am 11:10 AM

讓我們仔細(xì)研究一下我發(fā)現(xiàn)的最重要的東西,以及思科如何以其目前的努力來進(jìn)一步實(shí)現(xiàn)其野心。

See all articles