av在线亚洲天堂,chinese富婆massagehd

數(shù)據(jù)是從社交媒體，金融交易和電子商務(wù)平臺等來源的前所未有的速度生成的。處理這種連續(xù)的信息流是一個(gè)挑戰(zhàn)，但它提供了一個(gè)及時(shí)，準(zhǔn)確的決定的機(jī)會。實(shí)時(shí)系統(tǒng)（例如金融交易，語音助手和健康監(jiān)控系統(tǒng)）依靠連續(xù)的數(shù)據(jù)處理來提供相關(guān)和最新的響應(yīng)。

批處理學(xué)習(xí)算法（例如KNN，SVM和決策樹）要求在訓(xùn)練期間將整個(gè)數(shù)據(jù)集加載到內(nèi)存中。在使用大型數(shù)據(jù)集時(shí)，這變得越來越不切實(shí)際，導(dǎo)致重大存儲和內(nèi)存問題。在使用實(shí)時(shí)數(shù)據(jù)時(shí)，這些效率也很低。

由於這個(gè)問題，我們需要一種在處理大量數(shù)據(jù)時(shí)既有效又準(zhǔn)確的算法。在這方面，被動攻擊算法使自己與眾不同。與批處理學(xué)習(xí)算法不同，它們不必在完整數(shù)據(jù)集上進(jìn)行培訓(xùn)即可進(jìn)行預(yù)測。被動攻擊性算法從即時(shí)的數(shù)據(jù)中學(xué)習(xí)，消除了將整個(gè)數(shù)據(jù)集存儲或處理存儲在內(nèi)存中的需求。

學(xué)習(xí)目標(biāo)

在線學(xué)習(xí)及其在使用大量數(shù)據(jù)時(shí)的意義。
在線學(xué)習(xí)和批處理學(xué)習(xí)算法之間的區(qū)別。
被動攻擊算法背後的數(shù)學(xué)直覺。
不同的超參數(shù)及其在被動攻擊算法中的重要性。
被動攻擊算法的應(yīng)用和用例。
被動攻擊算法的局限性和挑戰(zhàn)。
在Python中實(shí)現(xiàn)被動攻擊分類器，以檢測實(shí)時(shí)REDDIT數(shù)據(jù)的仇恨言論。

本文作為數(shù)據(jù)科學(xué)博客馬拉鬆的一部分發(fā)表。

什麼是在線學(xué)習(xí)？
- 實(shí)時(shí)應(yīng)用程序在線學(xué)習(xí)的優(yōu)勢
被動攻擊算法簡介
鉸鏈損失在被動攻擊學(xué)習(xí)中的作用
被動攻擊算法的數(shù)學(xué)表述
- 了解侵略性參數(shù)（C）
正則化在被動攻擊算法中的影響
被動攻擊算法的實(shí)時(shí)應(yīng)用
局限性和挑戰(zhàn)
建立仇恨言論檢測模型
- 為實(shí)時(shí)數(shù)據(jù)處理設(shè)置環(huán)境
- 設(shè)置預(yù)貼BERT模型以標(biāo)記
常見問題

什麼是在線學(xué)習(xí)？

在線學(xué)習(xí)，也稱為增量學(xué)習(xí)，是一種機(jī)器學(xué)習(xí)範(fàn)式，該模型可以通過每個(gè)新數(shù)據(jù)點(diǎn)進(jìn)行逐步更新，而不是一次在固定數(shù)據(jù)集上進(jìn)行培訓(xùn)。這種方法允許該模型不斷適應(yīng)新數(shù)據(jù)，從而使其在隨著時(shí)間的推移隨時(shí)間發(fā)展的動態(tài)環(huán)境中特別有用。與傳統(tǒng)的批處理學(xué)習(xí)方法不同，在線學(xué)習(xí)可以通過處理新信息到達(dá)時(shí)實(shí)時(shí)更新和決策。

批次與在線學(xué)習(xí)：比較概述

讓我們在下面研究批處理與在線學(xué)習(xí)比較：

批處理學(xué)習(xí)：

培訓(xùn)方法：批次學(xué)習(xí)算法一次在固定數(shù)據(jù)集上訓(xùn)練。經(jīng)過培訓(xùn)後，該模型將用於預(yù)測，直到使用新數(shù)據(jù)對其進(jìn)行重新訓(xùn)練。
示例：神經(jīng)網(wǎng)絡(luò)，支持向量機(jī)（SVM），K-Nearest鄰居（KNN）。
挑戰(zhàn)：再培訓(xùn)需要從頭開始處理整個(gè)數(shù)據(jù)集，這可能很耗時(shí)且計(jì)算昂貴。對於大型且增長的數(shù)據(jù)集，這尤其具有挑戰(zhàn)性，因?yàn)榧词故褂脧?qiáng)大的GPU，再培訓(xùn)也可能需要數(shù)小時(shí)。

在線學(xué)習(xí)：

培訓(xùn)方法：在線學(xué)習(xí)算法使用每個(gè)新數(shù)據(jù)點(diǎn)逐步更新模型。該模型不斷學(xué)習(xí)並實(shí)時(shí)適應(yīng)新數(shù)據(jù)。
優(yōu)點(diǎn)：此方法對於處理大型數(shù)據(jù)集和動態(tài)數(shù)據(jù)流更有效。該模型以最少的計(jì)算資源進(jìn)行更新，並且可以快速處理新的數(shù)據(jù)點(diǎn)，而無需從頭開始重新培訓(xùn)。
應(yīng)用程序：在線學(xué)習(xí)對需要實(shí)時(shí)決策的應(yīng)用程序有益，例如股票市場分析，社交媒體流和推薦系統(tǒng)。

實(shí)時(shí)應(yīng)用程序在線學(xué)習(xí)的優(yōu)勢

持續(xù)適應(yīng)：在線學(xué)習(xí)模型適應(yīng)新數(shù)據(jù)的到來，使其非常適合隨著時(shí)間的推移（例如在欺詐檢測系統(tǒng)中）發(fā)展的環(huán)境。這樣可以確保模型保持相關(guān)性和有效性，而無需從頭開始重新審查。
效率：在線學(xué)習(xí)算法不需要與整個(gè)數(shù)據(jù)集進(jìn)行完整的重新培訓(xùn)，從而節(jié)省了大量的計(jì)算時(shí)間和資源。這對於具有有限的計(jì)算功率（例如移動設(shè)備）的應(yīng)用程序特別有用。
資源管理：通過逐步處理數(shù)據(jù)，在線學(xué)習(xí)模型減少了對廣泛存儲空間的需求。處理後可以丟棄舊數(shù)據(jù)，這有助於有效地管理存儲並保持系統(tǒng)輕巧。
實(shí)時(shí)決策：在線學(xué)習(xí)可以實(shí)現(xiàn)實(shí)時(shí)更新，這對於依賴最新信息的應(yīng)用程序至關(guān)重要，例如推薦系統(tǒng)或?qū)崟r(shí)股票交易。

被動攻擊算法簡介

被動攻擊算法首先由Crammer等人引入。 2006年，他們的論文名為“在線被動攻擊算法”。這些算法屬於在線學(xué)習(xí)類別，主要用於分類任務(wù)。這些是有效的，因?yàn)樗鼈兛梢灾鸩綇拿總€(gè)數(shù)據(jù)點(diǎn)學(xué)習(xí)，調(diào)整其參數(shù)，然後從內(nèi)存中丟棄數(shù)據(jù)。這使得在處理龐大的數(shù)據(jù)集和實(shí)時(shí)應(yīng)用程序時(shí)，被動攻擊算法特別有用。此外，它的適應(yīng)能力可以快速使其在數(shù)據(jù)分佈可能會隨著時(shí)間變化而變化的動態(tài)環(huán)境中表現(xiàn)良好。

您可能想知道這個(gè)不尋常的名字。這是有原因的。該算法的被動部分意味著，如果正確地對當(dāng)前數(shù)據(jù)點(diǎn)進(jìn)行了分類，則模型保持不變，並保留從先前的數(shù)據(jù)點(diǎn)獲得的知識。另一方面，侵略性部分錶明，如果發(fā)生錯(cuò)誤分類，該模型將大大調(diào)整其權(quán)重以糾正誤差。

為了更好地了解PA算法的工作原理，讓我們在二進(jìn)制分類的背景下可視化其行為。想像一下，您有一組數(shù)據(jù)點(diǎn)，每個(gè)數(shù)據(jù)點(diǎn)屬於兩個(gè)類之一。 PA算法旨在找到一個(gè)分離的超平面，將數(shù)據(jù)點(diǎn)分為各自的類別。該算法從對超平面的初始猜測開始。當(dāng)新的數(shù)據(jù)點(diǎn)被錯(cuò)誤分類時(shí)，該算法會積極地更新當(dāng)前的超平面，以確保正確對新數(shù)據(jù)點(diǎn)進(jìn)行分類。另一方面，當(dāng)數(shù)據(jù)點(diǎn)正確分類時(shí)，則無需更新超平面。

鉸鏈損失在被動攻擊學(xué)習(xí)中的作用

被動攻擊算法使用鉸鏈損失作為其損耗函數(shù)，是該算法的關(guān)鍵構(gòu)件之一。這就是為什麼在我們深入研究算法背後的數(shù)學(xué)直覺之前，要了解鉸鏈損失的運(yùn)作至關(guān)重要。

鉸鏈損失廣泛用於機(jī)器學(xué)習(xí)，特別是用於培訓(xùn)分類器，例如支持向量機(jī)（SVM）。

鉸鏈損失的定義

它被定義為：

在線學(xué)習(xí)和被動攻擊算法指南

W是模型的重量向量
xi是第i-th數(shù)據(jù)點(diǎn)的特徵向量
yi是第i -th數(shù)據(jù)點(diǎn)的真實(shí)標(biāo)籤，如果進(jìn)行二進(jìn)制分類，則可以是1或-1。

在線學(xué)習(xí)和被動攻擊算法指南

讓我們以二進(jìn)制分類問題為例，其中目標(biāo)是區(qū)分兩個(gè)數(shù)據(jù)類。 PA算法隱含地旨在最大化決策邊界和數(shù)據(jù)點(diǎn)之間的邊距。邊緣是數(shù)據(jù)點(diǎn)和分離線/超平面之間的距離。這與SVM分類器的工作非常相似，SVM分類器也將鉸鏈損失用作其損耗函數(shù)。較大的邊距表明分類器對其預(yù)測更有信心，並且可以準(zhǔn)確區(qū)分這兩個(gè)類別。因此，目標(biāo)是盡可能頻繁地達(dá)到至少1個(gè)邊緣。

理解等式

讓我們進(jìn)一步分解，看看方程如何有助於達(dá)到最大利潤：

w·xi：這是權(quán)重矢量W和數(shù)據(jù)點(diǎn)XI的點(diǎn)產(chǎn)物。它代表了對分類器預(yù)測的信心程度。
yi *（w·xi）：這是分類器的簽名分?jǐn)?shù)或邊距，其中符號由真實(shí)標(biāo)籤yi確定。正值表示分類器預(yù)測正確的標(biāo)籤，而負(fù)值表示它預(yù)測了錯(cuò)誤的標(biāo)籤。
1 - yi *（w·xi）：這測量了所需的邊距（1）和實(shí)際邊緣之間的差異。
max（0，1 - yi *（w·xi））：當(dāng)邊緣至少1時(shí)，損耗等於零。否則，損失隨著邊緣赤字而線性增加。

簡而言之，鉸鏈損失會懲罰不正確的分類以及不夠自信的正確分類。當(dāng)數(shù)據(jù)點(diǎn)至少用單位邊緣正確分類時(shí)，損失為零。否則，如果數(shù)據(jù)點(diǎn)在邊緣或錯(cuò)誤分類之內(nèi)，則損失隨距離邊緣的距離線性增加。

被動攻擊算法的數(shù)學(xué)表述

被動攻擊性分類器的數(shù)學(xué)基礎(chǔ)圍繞著維護(hù)根據(jù)傳入數(shù)據(jù)點(diǎn)的分類誤差進(jìn)行更新的權(quán)重向量W。這是算法的詳細(xì)概述：

給定一個(gè)數(shù)據(jù)集：

在線學(xué)習(xí)和被動攻擊算法指南

步驟1：初始化重量向量w

步驟2：對於每個(gè)新數(shù)據(jù)點(diǎn)（xi，yi），xiis特徵向量和yi是真正的標(biāo)籤，預(yù)測的標(biāo)籤?_iis計(jì)算為：

在線學(xué)習(xí)和被動攻擊算法指南

步驟3：計(jì)算鉸鏈損失

在線學(xué)習(xí)和被動攻擊算法指南

如果預(yù)測的標(biāo)籤?_i是正確的，邊距至少為1，則損失為0。
否則，損失是1和邊緣之間的差異。

步驟4：使用以下更新規(guī)則調(diào)整重量向量W

對於每個(gè)數(shù)據(jù)點(diǎn)x_i，如果l（w;（x_i，y_i））> 0（錯(cuò)誤分類或不足）：

更新的重量向量w_t 1的給出為：

在線學(xué)習(xí)和被動攻擊算法指南

如果l（w;（x_i，y_i））= 0（用足夠的邊距正確分類）：

然後，重量矢量保持不變：

在線學(xué)習(xí)和被動攻擊算法指南

請注意，這些方程在求解約束優(yōu)化問題後出現(xiàn)，目的是在類之間獲得最大邊緣超平面。這些取自原始研究論文，這些論文的推導(dǎo)超出了本文的範(fàn)圍。

這兩個(gè)更新方程是被動攻擊算法的核心。這些意義可以簡單地理解。一方面，更新需要新的權(quán)重值（W_T 1）才能正確地用足夠大的邊距對當(dāng)前示例進(jìn)行分類，從而取得了進(jìn)展。另一方面，它必須保持盡可能靠近較舊的重量（W_T），以保留在上一輪中學(xué)習(xí)的信息。

了解侵略性參數(shù)（C）

侵略性參數(shù)C是被動攻擊算法中最重要的超參數(shù)。它控制算法在發(fā)生錯(cuò)誤分類時(shí)如何更新其權(quán)重。

高C值會導(dǎo)致更積極的更新，從而可能導(dǎo)致更快的學(xué)習(xí)，但也增加了過度擬合的風(fēng)險(xiǎn)。該算法可能對數(shù)據(jù)中的噪聲和波動過於敏感。另一方面，C值的低值會導(dǎo)致較不積極的更新，從而使算法對噪聲和異常值的強(qiáng)大更強(qiáng)。但是，在這種情況下，適應(yīng)新信息，減慢學(xué)習(xí)過程的速度很慢。

我們希望該算法能夠從每個(gè)新實(shí)例中逐步學(xué)習(xí)，同時(shí)避免過度適合嘈雜的樣本。結(jié)果，我們必須努力在兩者之間取得平衡，從而使我們能夠在保持模型穩(wěn)定性和防止過度擬合的同時(shí)進(jìn)行重大更新。在大多數(shù)情況下，C的最佳值取決於特定數(shù)據(jù)集以及學(xué)習(xí)速度和穩(wěn)健性之間所需的權(quán)衡。在實(shí)際情況下，諸如交叉驗(yàn)證之類的技術(shù)用於獲得C的最佳值。

正則化在被動攻擊算法中的影響

現(xiàn)實(shí)世界中的數(shù)據(jù)集幾乎總是包含一定程度的噪音或不規(guī)則性。標(biāo)籤錯(cuò)誤的數(shù)據(jù)點(diǎn)可能導(dǎo)致PA算法在錯(cuò)誤的方向上大大改變其權(quán)重向量。這個(gè)單一標(biāo)記的示例可能會導(dǎo)致隨後的回合中的幾個(gè)預(yù)測錯(cuò)誤，從而影響模型的可靠性。

為了解決這個(gè)問題，還有一個(gè)更重要的超參數(shù)有助於使算法對數(shù)據(jù)中的噪聲和異常值更強(qiáng)大。在錯(cuò)誤分類的情況下，它傾向於使用更溫和的重量更新。這類似於正規(guī)化?；墩齽t化參數(shù)，稱為PA-I和PA-II，該算法分為兩個(gè)變體。

這些主要在步長變量τ （也稱為歸一化損耗）的定義上有所不同。對於pa-i，損失被上限為侵略性參數(shù)C的值。

這樣的公式以：

在線學(xué)習(xí)和被動攻擊算法指南

對於PA-II，步長或歸一化損失可以寫為：

在線學(xué)習(xí)和被動攻擊算法指南

在被動攻擊性分類器的Sklearlen實(shí)施中，該正則化參數(shù)被視為損失?？梢愿鶕?jù)我們要使用的兩個(gè)PA-I和PA-II中的哪一個(gè)設(shè)置為兩個(gè)值之一。如果您想使用PA-I變體，則應(yīng)將損失設(shè)置為“鉸鏈”，否則為PA-II，損失設(shè)置為“平方 - 鉸鏈”。

差異可以簡單地說明：

PA-I是一種更具侵略性的變體，它放鬆邊緣約束（邊緣可能小於一個(gè)），但在預(yù)測不正確的情況下，損失損失。這會導(dǎo)致學(xué)習(xí)速度更快，但比其對應(yīng)者更容易出現(xiàn)離群值。
PA-II是一種更強(qiáng)大的變體，可以四處懲罰損失，使其對嘈雜的數(shù)據(jù)和異常值更具彈性。同時(shí)，這使其更加保守，以適應(yīng)數(shù)據(jù)的差異，從而導(dǎo)致學(xué)習(xí)速度較慢。

同樣，這兩個(gè)之間的選擇取決於數(shù)據(jù)集的特定特徵。實(shí)際上，通常建議在選擇任何一個(gè)變體之前嘗試具有不同C值的兩個(gè)變體。

被動攻擊算法的實(shí)時(shí)應(yīng)用

從實(shí)時(shí)數(shù)據(jù)處理到自適應(yīng)系統(tǒng)，在線學(xué)習(xí)和被動攻擊算法具有廣泛的應(yīng)用程序。下面，我們研究了在線學(xué)習(xí)的一些最有影響力的應(yīng)用。

垃圾郵件過濾

垃圾郵件過濾是文本分類的重要應(yīng)用，其目標(biāo)是區(qū)分垃圾郵件和合法電子郵件。 PA算法的逐步學(xué)習(xí)能力在這里特別有益，因?yàn)樗梢愿鶕?jù)新的垃圾郵件趨勢不斷更新模型。

情感分析

情感分析涉及確定在文本中表達(dá)的情感，例如推文或產(chǎn)品評論。 PA算法可用於構(gòu)建實(shí)時(shí)分析情感的模型，適應(yīng)新的語，表達(dá)和情感趨勢。這在社交媒體監(jiān)控和客戶反饋分析中特別有用，及時(shí)見解至關(guān)重要。

仇恨言論檢測

仇恨言語檢測是PA算法可能非常有用的另一個(gè)關(guān)鍵應(yīng)用。通過從仇恨言論的新實(shí)例中逐步學(xué)習(xí)，該模型可以適應(yīng)不斷發(fā)展的語言模式和上下文。這對於在Twitter，F(xiàn)acebook和Reddit等平臺上保持自動審核工具的有效性至關(guān)重要，以確保更安全，更具包容性的在線環(huán)境。

欺詐檢測

金融機(jī)構(gòu)和在線服務(wù)不斷監(jiān)視交易和用戶行為，以檢測欺詐活動。 PA算法通過每項(xiàng)新交易更新其模型的能力有助於確定欺詐模式出現(xiàn)的模式，從而為不斷發(fā)展的欺詐策略提供了強(qiáng)有力的防禦。

股市分析

金融市場的股票價(jià)格高度動態(tài)，要求模型快速響應(yīng)新信息。在線學(xué)習(xí)算法可以通過從新的市場數(shù)據(jù)中逐步學(xué)習(xí)來預(yù)測和分析股票價(jià)格，從而及時(shí)，準(zhǔn)確地預(yù)測貿(mào)易商和投資者。

局限性和挑戰(zhàn)

儘管在線學(xué)習(xí)和被動攻擊算法在處理流數(shù)據(jù)並適應(yīng)快速變化方面具有優(yōu)勢，但它們也有缺點(diǎn)。一些關(guān)鍵局限性是：

被動攻擊算法順序處理數(shù)據(jù)，使它們更容易受到嘈雜或錯(cuò)誤的數(shù)據(jù)點(diǎn)的影響。單個(gè)離群值可能會對模型的學(xué)習(xí)產(chǎn)生不成比例的影響，從而導(dǎo)致預(yù)測或有偏見的模型。
這些算法一次僅看到一個(gè)數(shù)據(jù)實(shí)例，這限制了他們對不同數(shù)據(jù)點(diǎn)之間的總體數(shù)據(jù)分佈和關(guān)係的理解。這使得很難識別複雜的模式並做出準(zhǔn)確的預(yù)測。
由於PA算法實(shí)時(shí)從數(shù)據(jù)流中學(xué)習(xí)，因此它們可能會與最新數(shù)據(jù)過高，並可能忽略或忘記早期數(shù)據(jù)中觀察到的模式。當(dāng)數(shù)據(jù)分佈隨時(shí)間變化時(shí)，這可能導(dǎo)致概括性能差。
選擇侵略性參數(shù)C的最佳值可能具有挑戰(zhàn)性，並且通常需要實(shí)驗(yàn)。高價(jià)值提高了攻擊性導(dǎo)致過度擬合，而低價(jià)值會導(dǎo)致學(xué)習(xí)緩慢。
評估這些算法的性能非常複雜。由於數(shù)據(jù)分佈可以隨時(shí)間變化，因此在固定測試集??上評估模型的性能可能不一致。

建立仇恨言論檢測模型

Twitter和Reddit等社交媒體平臺每天都會產(chǎn)生大量數(shù)據(jù)，使其非常適合測試我們對在線學(xué)習(xí)算法的理論理解。

在本節(jié)中，我將通過使用Reddit的實(shí)時(shí)數(shù)據(jù)從頭開始構(gòu)建仇恨語音檢測應(yīng)用程序來演示實(shí)際的用例。 Reddit是一個(gè)以其多元化社區(qū)而聞名的平臺。但是，這也面臨著有毒評論的挑戰(zhàn)，這些評論可能會受到傷害和虐待。我們將構(gòu)建一個(gè)可以使用REDDIT API實(shí)時(shí)識別這些有毒評論的系統(tǒng)。

在這種情況下，由於數(shù)據(jù)量的龐大，培訓(xùn)一個(gè)模型將不可能一次。此外，數(shù)據(jù)分佈和模式會隨著時(shí)間而變化。因此，我們需要無源攻擊算法的幫助，能夠在不存儲內(nèi)存中將數(shù)據(jù)從數(shù)據(jù)中學(xué)習(xí)。

為實(shí)時(shí)數(shù)據(jù)處理設(shè)置環(huán)境

在開始實(shí)施代碼之前，您必須首先設(shè)置系統(tǒng)。要使用REDDIT API，如果您還沒有，則必須在Reddit上創(chuàng)建一個(gè)帳戶。然後，創(chuàng)建一個(gè)REDDIT應(yīng)用程序，並獲取您的API密鑰和其他憑據(jù)進(jìn)行身份驗(yàn)證。完成這些先決條件後，我們準(zhǔn)備開始創(chuàng)建仇恨言論檢測模型。

代碼的工作流程看起來像這樣：

使用“ praw”庫連接到Reddit API。
流傳輸實(shí)時(shí)數(shù)據(jù)並將其輸入模型。
使用BERT模型對數(shù)據(jù)進(jìn)行標(biāo)記，以進(jìn)行仇恨語音檢測任務(wù)。
使用被動攻擊性分類器逐步訓(xùn)練模型。
在看不見的測試數(shù)據(jù)集上測試我們的模型並測量性能。

安裝所需的庫

第一步是安裝所需的庫。

 PIP安裝PRAW SCIKIT-LEARN NLTK變形金剛火炬Matplotlib Seaborn opendatasets

要與Reddit合作，我們需要“ praw”庫，即Reddit API包裝器。我們還需要“ nltk”進(jìn)行文本處理，``scikit-learn“用於機(jī)器學(xué)習(xí)，``matplotlib''和`seaborn''和`seaborn'用於可視化，``transformers''和`transformers''和`torch'用於創(chuàng)建單詞嵌入並加載微調(diào)的bert bert bert bert模型，並從kaggle加載數(shù)據(jù)。

導(dǎo)入庫並設(shè)置Reddit API

在下一步中，我們使用“ praw”導(dǎo)入所有必要的庫，並設(shè)置與Reddit API的連接。它將幫助我們從Subreddits流式評論。

導(dǎo)入
進(jìn)口praw
導(dǎo)入火炬
導(dǎo)入NLTK
導(dǎo)入numpy作為NP
導(dǎo)入大熊貓作為pd
導(dǎo)入matplotlib.pyplot作為PLT
進(jìn)口海洋作為SNS
導(dǎo)入OpEndataset作為OD
來自nltk.corpus導(dǎo)入停止詞
來自sklearn.feature_extraction.text導(dǎo)入tfidfvectorizer
來自sklearn.linear_model導(dǎo)入passiveaggressiveclalsifier
來自sklearn.metrics導(dǎo)入精度，confusion_matrix，classification_report
來自sklearn.model_selection導(dǎo)入train_test_split
從變形金剛導(dǎo)入汽車，AutoModeForSequenceCecrification，AutoTokenizer
從變形金剛導(dǎo)入bertforeSequencecrification，berttokenizer，textClassification pipeline

＃Reddit API憑據(jù)
reddit_client_id = {your_client_id}
reddit_client_secret = {your_client_secret}
reddit_user_agent = {your_user_agent}

＃設(shè)置Reddit API連接
reddit = praw.reddit（client_id = reddit_client_id，
                     client_secret = reddit_client_secret，
                     user_agent = reddit_user_agent）

要成功設(shè)置REDDIT實(shí)例，只需用您的憑據(jù)替換上述佔(zhàn)位符，就可以使用。

清潔和預(yù)處理文本

在處理原始文本數(shù)據(jù)時(shí)，通常有包含符號，主題標(biāo)籤，land詞等的示例。由於這些對我們的模型沒有實(shí)際用途，因此我們必須首先清潔文本才能刪除它們。

 ＃下載停止字
nltk.download（'stopwords'）
stop_words = set（stopwords.words（'英語'））

＃清潔文本並刪除停止詞
def clean_text（文本）：
    text = re.sub（r'http \ s | www \ s | https \ s'，''，text，flags = re.multiline）
    text = re.sub（r'\@\ w | \＃'，''，text）
    text = re.sub（r'\ w'，'，text）
    text = re.sub（r'\ d'，'，text）
    text = re.sub（r'\ s'，''，文本）
    text = text.strip（）
    text =''。
    返回文字

上面的代碼定義了輔助功能，該功能通過刪除不必要的單詞，特殊字符和URL來預(yù)處理評論。

設(shè)置預(yù)貼BERT模型以標(biāo)記

當(dāng)我們從Reddit流媒體評論時(shí)，我們不知道該評論是否有毒，因?yàn)樗鼪]有標(biāo)記。要使用監(jiān)督分類，我們首先需要標(biāo)記數(shù)據(jù)。我們必須實(shí)施一個(gè)可靠且精確的系統(tǒng)，以標(biāo)記傳入的原始註釋。為此，我們將使用一個(gè)微調(diào)的BERT模型進(jìn)行仇恨言論檢測。該模型將將評論準(zhǔn)確地分類為兩個(gè)類別。

 model_path =“ junglelee/bert-toxic-comment-classification”
tokenizer = berttokenizer.from_pretaining（model_path）
model = bertforsequencececrification.from_pretrated（model_path，num_labels = 2）

pipeline = textClassification pipeline（model = model，tokenizer = tokenizer）

＃為文本標(biāo)記的助手功能
def precadive_hate_speech（文本）：
    預(yù)測= pipeline（text）[0] ['label']
    返回1如果預(yù)測=='有毒'其他0＃1對有毒，0抗毒

在這裡，我們使用變形金剛庫來設(shè)置模型管道。然後，我們定義一個(gè)輔助函數(shù)，以預(yù)測給定文本使用BERT模型是有毒還是無毒?，F(xiàn)在，我們已經(jīng)標(biāo)記了示例以進(jìn)食我們的模型。

使用bert嵌入將文本轉(zhuǎn)換為向量

由於我們的分類器將不使用文本輸入，因此需要首先將其轉(zhuǎn)換為合適的向量表示。為了做到這一點(diǎn)，我們將使用驗(yàn)證的BERT嵌入，這將使我們的文本轉(zhuǎn)換為可以將其饋送到模型進(jìn)行訓(xùn)練的向量。

 ＃加載驗(yàn)證的BERT模型和嵌入的令牌
model_name =“基於bert-base-uncund”
tokenizer = autotokenizer.from_pretaining（model_name）
bert_model = automodel.from_pretrataining（model_name）
bert_model.eval（）  

＃為獲得bert嵌入的助手功能
def get_bert_embedding（文本）：
    inputs = tokenizer（text，return_tensors ='pt'，截?cái)? true，padding = true）
    使用Torch.no_grad（）：
        輸出= bert_model（**輸入）
    
    返回outputs.last_hidden_??state [：，0，：]。 squeeze（）。 numpy（）

上面的代碼採用一段文本，使用bert令牌化來將其施加，然後將其通過BERT模型將其傳遞以提取句子嵌入。文本現(xiàn)在已轉(zhuǎn)換為向量。

流式傳輸實(shí)時(shí)reddit數(shù)據(jù)並訓(xùn)練被動攻擊分類器

現(xiàn)在，我們準(zhǔn)備實(shí)時(shí)流式傳輸評論，並培訓(xùn)分類器以檢測仇恨言論。

 ＃為subreddit的助手功能流式傳輸評論
def stream_comments（subreddit_name，batch_size = 100）：
    subreddit = reddit.subreddit（subreddit_name）
    remand_stream = subreddit.stream.comments（）
    
    批次= []
    在comment_stream中進(jìn)行評論：
        嘗試：
            ＃清潔傳入的文字 
            remand_text = clean_text（comment.body）
            ＃使用驗(yàn)證的BERT模型標(biāo)記評論
            label = predition_hate_speech（comment_text） 
            ＃將文本和標(biāo)籤添加到當(dāng)前批次
            batch.append（（comment_text，label））
            
            如果len（batch）> = batch_size：
                產(chǎn)量批次
                批次= []
                
        除例外為E：
            打?。╢'Error：{e}'）
 

＃指定訓(xùn)練回合的數(shù)量
回合= 10

＃指定subreddit
subreddit_name ='fitness'

＃初始化被動攻擊分類器
clf = passiveaggressiveclalsifier（c = 0.1，損失='Hinge'，max_iter = 1，Random_state = 37）


＃流評論並執(zhí)行增量培訓(xùn)
對於num_rounds，在枚舉中批處理（stream_comments（subreddit_name，batch_size = 100））：
    ＃訓(xùn)練分類器進(jìn)行所需數(shù)量的回合
    如果num_rounds ==圓形：
        休息
  
    ＃分開文字和標(biāo)籤
    batch_texts = [at批次中的項(xiàng)目]
    batch_labels = [批次中的項(xiàng)目[1]]
    
    ＃將一批文本轉(zhuǎn)換為bert嵌入
    x_train_batch = np.Array（[[get_bert_embedding（text）for batch_texts中的文本]）
    y_train_batch = np.array（batch_labels）
    
    ＃在當(dāng)前批次上訓(xùn)練模型
    clf.partial_fit（x_train_batch，y_train_batch，class = [0，1]）
    打?。ㄔ谝慌鷞len（batch_texts）}樣品中進(jìn)行打印。'）
    
印刷（“訓(xùn)練完成”）

在線學(xué)習(xí)和被動攻擊算法指南

在上面的代碼中，我們首先指定我們要從中進(jìn)行評論，然後通過10個(gè)訓(xùn)練回合初始化PA分類器的子列數(shù)。然後，我們實(shí)時(shí)流式傳輸評論。對於其中的每個(gè)新評論，首先會清理刪除不必要的單詞。然後使用驗(yàn)證的BERT模型標(biāo)記並添加到當(dāng)前批處理中。

我們初始化的被動攻擊分類器將C = 0.1且損耗='鉸鏈'，該分類器與算法的PA-I版本相對應(yīng)。對於每個(gè)批次，我們都使用'partial_fit（）`方法訓(xùn)練分類器。這使該模型可以從每個(gè)訓(xùn)練樣本中逐步學(xué)習(xí)，而不是在處理之前將整個(gè)批次存儲在內(nèi)存中。因此，使模型能夠不斷適應(yīng)新信息，從而使其非常適合實(shí)時(shí)應(yīng)用程序。

評估模型性能

我將使用Kaggle有毒推文數(shù)據(jù)集評估我們的模型。該數(shù)據(jù)集包含幾條被分類為有毒或無毒的推文。

 ＃從Kaggle下載數(shù)據(jù)
od.download（“ https://www.kaggle.com/datasets/ashwiniyer176/toxic-tweets-dataset”）
＃加載數(shù)據(jù)
data = pd.read_csv（“ decitic-teweets-dataset/finalbalanceddataset.csv”，usecols = [1,2]）[[[“ Tweet”，“ witedicities”]]

＃分開文字和標(biāo)籤
test_data = data.sample（n = 100）
texts = test_data ['tweet']。應(yīng)用（clean_text）
標(biāo)籤= test_data ['毒性']

＃將文本轉(zhuǎn)換為向量
x_test = np.array（[get_bert_embedding（文本）文本中的文本]）
y_test = np.array（標(biāo)籤）

＃做出預(yù)測
y_pred = clf.predict（x_test）

＃評估模型的性能
精度=準(zhǔn)確_score（y_test，y_pred）
conf_matrix = Confusion_matrix（y_test，y_pred）

打?。ā胺诸悎?bào)告：”）
print（classification_report（y_test，y_pred））

＃繪製混亂矩陣
plt.figure（無花果=（7，5））
sns.heatmap（conc_matrix， 
            annot = true， 
            fmt ='d'， 
            cmap ='布魯斯'， 
            cbar = false， 
            Xticklabels = [“無毒”，“有毒”]， 
            yticklabels = [“無毒”，“有毒”]）
            
plt.xlabel（“預(yù)測標(biāo)籤”）
plt.ylabel（'true標(biāo)籤'）
plt.title（'混淆矩陣'）
plt.show（）

在線學(xué)習(xí)和被動攻擊算法指南

首先，我們加載了測試集並使用前面定義的`clean_text`方法清潔了它。然後使用bert嵌入將文本轉(zhuǎn)換為向量。最後，我們使用分類報(bào)告和混亂矩陣對測試集進(jìn)行預(yù)測，並評估模型在不同指標(biāo)上的性能。

結(jié)論

我們探討了在線學(xué)習(xí)算法的力量，重點(diǎn)是被動攻擊算法有效處理大型數(shù)據(jù)集並適應(yīng)實(shí)時(shí)數(shù)據(jù)而無需完整的重新培訓(xùn)的能力。還討論了鉸鏈損失，侵略性超參數(shù)（C）的作用，以及正則化如何幫助管理噪聲和離群值。在實(shí)施使用被動攻擊分類器的仇恨語音檢測模型之前，我們還審查了現(xiàn)實(shí)世界中的應(yīng)用程序和局限性。感謝您的閱讀，我期待著我們的下一個(gè)AI教程！

常見問題

Q1。被動攻擊算法的基本原則是什麼？

答：被動積極算法背後的基本原理是在做出錯(cuò)誤的預(yù)測時(shí)積極更新權(quán)重，並在做出正確的預(yù)測時(shí)被動地保留學(xué)習(xí)的權(quán)重。

Q2。侵略性參數(shù)C在PA算法中起什麼作用？

答：當(dāng)C高時(shí)，該算法變得更具侵略性，快速適應(yīng)新數(shù)據(jù)，從而導(dǎo)致學(xué)習(xí)速度更快。當(dāng)C較低時(shí)，算法就會變得不那麼侵略性，並進(jìn)行較小的更新。這降低了過度適合嘈雜樣本的可能性，但使適應(yīng)新實(shí)例的可能性更低。

Q3。被動攻擊分類器與支持向量機(jī)（SVM）有何相似之處？

答：兩者都旨在最大化決策邊界和數(shù)據(jù)點(diǎn)之間的邊距。兩者都使用鉸鏈損失作為其損失功能。

Q4。在線學(xué)習(xí)算法比批處理學(xué)習(xí)算法有哪些優(yōu)點(diǎn)？

答：在線學(xué)習(xí)算法可以與大型數(shù)據(jù)集一起使用，沒有存儲限制，並且很容易適應(yīng)快速變化的數(shù)據(jù)，而無需從頭開始重新培訓(xùn)。

Q5。在什麼情況下，被動侵略算法可以有用？

A.被動攻擊算法可用於多種應(yīng)用中，包括垃圾郵件過濾，情感分析，仇恨言論檢測，實(shí)時(shí)股票市場分析和推薦系統(tǒng)。

本文所示的媒體不由Analytics Vidhya擁有，並由作者酌情使用。

以上是在線學(xué)習(xí)和被動攻擊算法指南的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本網(wǎng)站聲明

本文內(nèi)容由網(wǎng)友自願投稿，版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容，請聯(lián)絡(luò)admin@php.cn