国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
目錄
深度學(xué)習(xí)培訓(xùn)過程
什麼是批處理處理?
什麼是迷你批次培訓(xùn)?
梯度下降的工作方式
簡單的類比
數(shù)學(xué)公式
現(xiàn)實(shí)生活中的例子
實(shí)際實(shí)施
如何選擇批處理大小?
小批量尺寸
大批量大小
總體分化
實(shí)際建議
結(jié)論
首頁 科技週邊 人工智慧 批處理處理與深度學(xué)習(xí)的迷你批次培訓(xùn)

批處理處理與深度學(xué)習(xí)的迷你批次培訓(xùn)

Jun 30, 2025 am 09:46 AM

深度學(xué)習(xí)通過允許機(jī)器在我們的數(shù)據(jù)中掌握更多深入的信息來徹底改變了AI領(lǐng)域。深度學(xué)習(xí)能夠通過通過神經(jīng)元突觸的邏輯複製大腦的功能來做到這一點(diǎn)。培訓(xùn)深度學(xué)習(xí)模型的最關(guān)鍵方面之一是我們?nèi)绾卧谂嘤?xùn)過程中將數(shù)據(jù)饋送到模型中。這是批處理處理和迷你批次培訓(xùn)的地方。我們?nèi)绾斡?xùn)練模型將影響模型的整體性能。在本文中,我們將深入研究這些概念,比較它們的利弊,並探索其實(shí)際應(yīng)用。

目錄

  • 深度學(xué)習(xí)培訓(xùn)過程
  • 什麼是批處理處理?
  • 什麼是迷你批次培訓(xùn)?
  • 梯度下降的工作方式
    • 簡單的類比
  • 數(shù)學(xué)公式
    • 現(xiàn)實(shí)生活中的例子
  • 實(shí)際實(shí)施
    • 如何選擇批處理大小?
    • 小批量尺寸
    • 大批量大小
  • 總體分化
  • 實(shí)際建議
  • 結(jié)論

深度學(xué)習(xí)培訓(xùn)過程

訓(xùn)練一個(gè)深度學(xué)習(xí)模型涉及最大程度地減少損失函數(shù),該損失函數(shù)測(cè)量每個(gè)時(shí)期後預(yù)測(cè)的輸出與實(shí)際標(biāo)籤之間的差異。換句話說,訓(xùn)練過程是向前傳播和向後傳播之間的一對(duì)舞蹈。這種最小化通常是使用梯度下降來實(shí)現(xiàn)的,梯度下降是一種優(yōu)化算法,可在減少損失的方向上更新模型參數(shù)。

批處理處理與深度學(xué)習(xí)的迷你批次培訓(xùn)

您可以在此處閱讀有關(guān)梯度下降算法的更多信息。

因此,在這裡,由於計(jì)算和內(nèi)存約束,很少一次或全部傳遞數(shù)據(jù)。取而代之的是,數(shù)據(jù)以稱為“批次”的塊傳遞。

批處理處理與深度學(xué)習(xí)的迷你批次培訓(xùn)

在機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)培訓(xùn)的早期階段,使用了兩種常見的數(shù)據(jù)處理方法:

1。隨機(jī)學(xué)習(xí)

此方法一次使用單個(gè)訓(xùn)練樣本更新模型權(quán)重。雖然它提供了最快的重量更新,並且在流數(shù)據(jù)應(yīng)用程序中很有用,但它具有重要的缺點(diǎn):

  • 由於嘈雜的梯度,高度不穩(wěn)定的更新。
  • 這可以導(dǎo)致次優(yōu)的收斂和更長??的整體訓(xùn)練時(shí)間。
  • 不適合與GPU並行處理。

2。全零件學(xué)習(xí)

在這裡,整個(gè)培訓(xùn)數(shù)據(jù)集用於計(jì)算梯度並對(duì)模型參數(shù)執(zhí)行單個(gè)更新。它具有非常穩(wěn)定的梯度和融合行為,這是很大的優(yōu)勢(shì)。但是,談到缺點(diǎn),這裡有幾個(gè):

  • 非常高的內(nèi)存使用情況,尤其是對(duì)於大型數(shù)據(jù)集。
  • 當(dāng)時(shí)等待處理整個(gè)數(shù)據(jù)集時(shí),每個(gè)期間計(jì)算慢。
  • 對(duì)於動(dòng)態(tài)增長的數(shù)據(jù)集或在線學(xué)習(xí)環(huán)境而言,它不靈活。

隨著數(shù)據(jù)集變得更大,神經(jīng)網(wǎng)絡(luò)變得更深,這些方法在實(shí)踐中效率低下。記憶限制和計(jì)算效率低下,促使研究人員和工程師找到中間立場:小批量培訓(xùn)。

現(xiàn)在,讓我們嘗試了解哪些批處理處理和迷你批處理處理。

什麼是批處理處理?

對(duì)於每個(gè)培訓(xùn)步驟,整個(gè)數(shù)據(jù)集都會(huì)一次饋入模型,這是一個(gè)稱為批處理處理的過程。該技術(shù)的另一個(gè)名稱是全批梯度下降。

批處理處理與深度學(xué)習(xí)的迷你批次培訓(xùn)

關(guān)鍵特徵:

  • 使用整個(gè)數(shù)據(jù)集計(jì)算梯度。
  • 每個(gè)時(shí)期由一個(gè)前向和向後傳球組成。
  • 記憶密集型。
  • 通常每個(gè)時(shí)期較慢,但穩(wěn)定。

何時(shí)使用:

  • 當(dāng)數(shù)據(jù)集完全適合現(xiàn)有內(nèi)存(適當(dāng)擬合)時(shí)。
  • 當(dāng)數(shù)據(jù)集很小時(shí)。

什麼是迷你批次培訓(xùn)?

批處理梯度下降與隨機(jī)梯度下降之間的妥協(xié)是小批量訓(xùn)練。它使用一個(gè)子集或部分?jǐn)?shù)據(jù),而不是整個(gè)數(shù)據(jù)集或單個(gè)示例。

關(guān)鍵特徵:

  • 將數(shù)據(jù)集分成較小的組,例如32、64或128個(gè)樣本。
  • 每次迷你批次後執(zhí)行梯度更新。
  • 允許更快的收斂和更好的概括。

何時(shí)使用:

  • 對(duì)於大型數(shù)據(jù)集。
  • 當(dāng)有GPU/TPU可用時(shí)。

讓我們以表格形式總結(jié)上述算法:

類型 批量大小 更新頻率 內(nèi)存要求 收斂 噪音
全批次 整個(gè)數(shù)據(jù)集 每一個(gè)時(shí)期一次 高的 穩(wěn)定,慢 低的
迷你批次 例如,32/64/128 每批之後 中等的 均衡 中等的
隨機(jī) 1個(gè)樣本 每個(gè)樣本之後 低的 嘈雜,快 高的

梯度下降的工作方式

梯度下降是通過迭代時(shí)不時(shí)更新模型參數(shù)來最小化損耗函數(shù)來起作用的。在每個(gè)步驟中,我們計(jì)算相對(duì)於模型參數(shù)的損失梯度,並朝梯度的相反方向移動(dòng)。

批處理處理與深度學(xué)習(xí)的迷你批次培訓(xùn)

更新規(guī)則: θ=θ -η任θj(θ)

在哪裡:

  • θ是模型參數(shù)
  • η是學(xué)習(xí)率
  • ?θJ(θ)是損失的梯度

簡單的類比

想像一下,您是蒙住眼睛的,試圖到達(dá)操場滑梯上的最低點(diǎn)。在感覺到腳上的斜坡之後,您將小臺(tái)階下坡。腳下斜坡的陡度決定了每個(gè)步驟。由於我們逐漸下降,這類似於梯度下降。該模型沿最大誤差減少的方向移動(dòng)。

全批量下降類似於使用巨型幻燈片地圖來確定最佳的動(dòng)作方案。您問一個(gè)朋友要去哪裡,然後邁出隨機(jī)下降的一步。在表演之前,您會(huì)與一個(gè)小組中的一個(gè)小組中的小組召開。

數(shù)學(xué)公式

x∈Rn ×d為具有n個(gè)樣本和D特徵的輸入數(shù)據(jù)。

全批梯度下降

批處理處理與深度學(xué)習(xí)的迷你批次培訓(xùn)

迷你批次梯度下降

批處理處理與深度學(xué)習(xí)的迷你批次培訓(xùn)

現(xiàn)實(shí)生活中的例子

考慮嘗試根據(jù)評(píng)論估算產(chǎn)品的成本。

如果您在選擇之前閱讀了所有1000個(gè)評(píng)論,則將是全批次。在閱讀一份評(píng)論後決定是隨機(jī)的。當(dāng)您閱讀少量評(píng)論(例如32或64)時(shí),一個(gè)小批量是在估計(jì)價(jià)格時(shí)。迷你批量在足夠可靠的人以做出明智的決定和足夠快的速度之間取得了良好的平衡。

迷你批量提供了一個(gè)良好的平衡:它足夠快,可以快速和可靠地做出明智的決定。

實(shí)際實(shí)施

我們將使用Pytorch來演示批處理和迷你批處理處理之間的差異。通過此實(shí)施,我們將能夠理解這兩種算法有助於融合到我們最佳的全球最小值的程度。

導(dǎo)入火炬
導(dǎo)入Torch.nn作為nn
導(dǎo)入Torch.optim作為最佳
來自Torch.utils.data導(dǎo)入數(shù)據(jù)載體,TensordataSet
導(dǎo)入matplotlib.pyplot作為PLT


#創(chuàng)建合成數(shù)據(jù)
X = Torch.randn(1000,10)
Y = Torch.Randn(1000,1)


#定義模型體系結(jié)構(gòu)
def create_model():
    返回nn.Sequinential(
        nn.linear(10,50),
        nn.relu(),
        nn.linear(50,1)
    )


#損失功能
loss_fn = nn.mseloss()


#迷你批次培訓(xùn)
model_mini = create_model()
Optimizer_Mini = Optim.SGD(model_mini.parameters(),lr = 0.01)
dataset = tensordataset(x,y)
dataloader = dataloader(數(shù)據(jù)集,batch_size = 64,shuffle = true)


mini_batch_losses = []


對(duì)於範(fàn)圍(64)的時(shí)期:
    epoch_loss = 0
    對(duì)於batch_x,dataloader中的batch_y:
        Optimizer_Mini.Zero_grad()
        輸出= model_mini(batch_x)
        損失= lose_fn(輸出,batch_y)
        loss.backward()
        Optimizer_mini.step()
        epoch_loss = loss.item()
    mini_batch_losses.append(epoch_loss / len(dataloader))


#全批培訓(xùn)
model_full = create_model()
Optimizer_full = Optim.SGD(model_full.parameters(),lr = 0.01)


full_batch_losses = []


對(duì)於範(fàn)圍(64)的時(shí)期:
    emptimizer_full.zero_grad()
    輸出= model_full(x)
    損失= loss_fn(輸出,y)
    loss.backward()
    Optimizer_full.step()
    full_batch_losses.append(loss.item())


#繪製損失曲線
plt.figure(無花果=(10,6))
plt.plot(mini_batch_losses,label ='Mini Batch訓(xùn)練(batch_size = 64)',marker ='o')
plt.plot(full_batch_losses,label ='全批培訓(xùn)',marker ='s')
plt.title(“訓(xùn)練損失比較”)
plt.xlabel('epoch')
plt.ylabel(“損失”)
plt.legend()
plt.grid(true)
plt.tight_layout()
plt.show() 

批處理處理與深度學(xué)習(xí)的迷你批次培訓(xùn)

在這裡,我們可以將培訓(xùn)損失隨著時(shí)間的推移形象形象形象,以觀察兩種策略的差異。我們可以觀察到:

  1. 迷你批次培訓(xùn)通常會(huì)顯示出更順暢和更快的初始進(jìn)度,因?yàn)樗l繁地更新權(quán)重。

批處理處理與深度學(xué)習(xí)的迷你批次培訓(xùn)

  1. 全批培訓(xùn)的更新可能更少,但其梯度更穩(wěn)定。

在實(shí)際應(yīng)用中,對(duì)於更好的概括和計(jì)算效率,通常首選迷你批次。

如何選擇批處理大?。?/h3>

我們?cè)O(shè)置的批次大小是一個(gè)超參數(shù),必鬚根據(jù)模型體系結(jié)構(gòu)和數(shù)據(jù)集大小進(jìn)行實(shí)驗(yàn)。決定最佳批量尺寸值的有效方式是實(shí)施交叉驗(yàn)證策略。

這是一張可以幫助您做出此決定的表:

特徵 全批次 迷你批次
梯度穩(wěn)定性 高的 中等的
收斂速度 慢的 快速地
內(nèi)存使用 高的 中等的
並行化 較少的 更多的
訓(xùn)練時(shí)間 高的 最佳化
概括 可以過度fit 更好的

注意:如上所述,batch_size是一個(gè)超參數(shù),必須對(duì)我們的模型培訓(xùn)進(jìn)行微調(diào)。因此,有必要知道較低的批次尺寸和較高的批量尺寸值如何執(zhí)行。

小批量尺寸

較小的批次尺寸值主要落在1到64歲以下。在這裡,由於梯度更新(每批)的更新頻率更高(每批),模型開始及早開始學(xué)習(xí),並迅速更新權(quán)重。恆定的重量更新意味著一個(gè)時(shí)期的更多迭代,這可以增加開銷的計(jì)算,從而增加了訓(xùn)練過程。

梯度估計(jì)中的“噪聲”有助於逃避尖銳的局部最小值和過度擬合,通常會(huì)導(dǎo)致更好的測(cè)試性能,從而顯示出更好的概括。同樣,由於這些噪音,可能會(huì)有不穩(wěn)定的收斂性。如果學(xué)習(xí)率很高,這些嘈雜的梯度可能會(huì)導(dǎo)致模型過時(shí)和分歧。

將小批量的大小視為朝著您的目標(biāo)採取頻繁但動(dòng)搖的步驟。您可能不會(huì)直線行走,但總體上可能會(huì)發(fā)現(xiàn)更好的路徑。

大批量大小

可以從128歲及以上的範(fàn)圍考慮較大的批量尺寸。較大的批量尺寸允許更穩(wěn)定的收斂性,因?yàn)槊總€(gè)批次平均梯度的更多樣本更平滑,更接近損耗函數(shù)的真實(shí)梯度。使用光滑的梯度,該模型可能無法逃脫平坦或尖銳的局部最小值。

在這裡,完成一個(gè)時(shí)代需要更少的迭代,因此可以更快的培訓(xùn)。大批次需要更多的內(nèi)存,這將需要GPU處理這些巨大的塊。儘管每個(gè)時(shí)期都更快,但由於更新步驟和缺乏梯度噪聲,可能需要更多的時(shí)期收斂。

大批量的大小就像是通過預(yù)先計(jì)劃的步驟穩(wěn)步走向我們的目標(biāo),但是有時(shí)您可能會(huì)被卡住,因?yàn)槟鷽]有探索所有其他路徑。

總體分化

這是一張比較全批次和迷你批次培訓(xùn)的綜合表。

方面 全票培訓(xùn) 迷你批次培訓(xùn)
優(yōu)點(diǎn) - 穩(wěn)定而準(zhǔn)確的梯度
- 精確的損失計(jì)算
- 由於頻繁更新而更快的培訓(xùn)
- 支持GPU/TPU並行性
- 由於噪聲而產(chǎn)生的更好的概括
缺點(diǎn) - 高內(nèi)存消耗
- 較慢的人頭訓(xùn)練
- 不可擴(kuò)展到大數(shù)據(jù)
- 嘈雜的梯度更新
- 需要調(diào)整批量大小
- 穩(wěn)定略有較低
用例 - 適合內(nèi)存的小數(shù)據(jù)集
- 當(dāng)可重複性很重要時(shí)
- 大型數(shù)據(jù)集
- 關(guān)於GPU/TPU的深入學(xué)習(xí)
- 實(shí)時(shí)或流媒體培訓(xùn)管道

實(shí)際建議

在批處理和迷你批次培訓(xùn)之間進(jìn)行選擇時(shí),請(qǐng)考慮以下內(nèi)容:

考慮到批處理和迷你批次培訓(xùn)之間的以下內(nèi)容:

  • 如果數(shù)據(jù)集很?。ㄉ凫?0,000個(gè)樣本),並且內(nèi)存不是問題:由於其穩(wěn)定性和準(zhǔn)確的收斂性,則可能是可行的。
  • 對(duì)於中至大型數(shù)據(jù)集(例如,100,000個(gè)樣本):批量尺寸為32至256的迷你批次培訓(xùn)通常是最佳選擇。
  • 在每個(gè)時(shí)期之前,在小型批次培訓(xùn)中使用改組,以避免數(shù)據(jù)順序?qū)W習(xí)模式。
  • 使用學(xué)習(xí)率調(diào)度或自適應(yīng)優(yōu)化器(例如Adam,RMSProp等)來幫助減輕迷你批次培訓(xùn)中的嘈雜更新。

結(jié)論

批處理處理和迷你批次培訓(xùn)是深度學(xué)習(xí)模型優(yōu)化中必不可少的基礎(chǔ)概念。儘管全批訓(xùn)練提供了最穩(wěn)定的梯度,但由於記憶和計(jì)算約束,因此對(duì)於現(xiàn)代大規(guī)模數(shù)據(jù)集而言,它幾乎是可行的。另一側(cè)的小批量訓(xùn)練帶來了適當(dāng)?shù)钠胶?,借助GPU/TPU加速,提供了不錯(cuò)的速度,概括和兼容性。因此,它已成為大多數(shù)實(shí)際深入了解應(yīng)用程序中的事實(shí)上的標(biāo)準(zhǔn)。

選擇最佳批處理大小並不是一個(gè)千篇一律的決定。應(yīng)該以數(shù)據(jù)集的S IZE以及E的記憶和硬件資源為指導(dǎo)。優(yōu)化器的選擇以及DES的概括和收斂速度(例如)。 Learning_rate,decay_rate也應(yīng)考慮。我們可以通過理解這些動(dòng)態(tài)並利用學(xué)習(xí)速率時(shí)間表,自適應(yīng)優(yōu)化器(如ADAM)和批處理大小調(diào)整等工具來更快,準(zhǔn)確,高效地創(chuàng)建模型。

以上是批處理處理與深度學(xué)習(xí)的迷你批次培訓(xùn)的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

前7個(gè)筆記本替代品 前7個(gè)筆記本替代品 Jun 17, 2025 pm 04:32 PM

Google的NotebookLM是由Gemini 2.5提供動(dòng)力的智能AI筆記工具,它在匯總文檔方面表現(xiàn)出色。但是,它在工具使用方面仍然有局限性,例如源蓋,雲(yún)依賴性和最近的“發(fā)現(xiàn)”功能

從採用到優(yōu)勢(shì):2025年塑造企業(yè)LLM的10個(gè)趨勢(shì) 從採用到優(yōu)勢(shì):2025年塑造企業(yè)LLM的10個(gè)趨勢(shì) Jun 20, 2025 am 11:13 AM

以下是重塑企業(yè)AI景觀的十種引人注目的趨勢(shì)。對(duì)LLMSorganizations的財(cái)務(wù)承諾正在大大增加其在LLMS的投資,其中72%的人預(yù)計(jì)他們的支出今年會(huì)增加。目前,近40%a

AI投資者停滯不前? 3條購買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨(dú)特性的衰落,以AI為中心的風(fēng)險(xiǎn)投資的投資者必須做出關(guān)鍵決定:購買,建立或合作夥伴才能獲得優(yōu)勢(shì)?這是評(píng)估每個(gè)選項(xiàng)和PR的方法

生成AI的不可阻擋的增長(AI Outlook第1部分) 生成AI的不可阻擋的增長(AI Outlook第1部分) Jun 21, 2025 am 11:11 AM

披露:我的公司Tirias Research已向IBM,NVIDIA和本文提到的其他公司諮詢。 Growth驅(qū)動(dòng)力的生成AI採用的激增比最樂觀的預(yù)測(cè)更具戲劇性。然後,

新蓋洛普?qǐng)?bào)告:AI文化準(zhǔn)備就緒需要新的心態(tài) 新蓋洛普?qǐng)?bào)告:AI文化準(zhǔn)備就緒需要新的心態(tài) Jun 19, 2025 am 11:16 AM

廣泛採用和情感準(zhǔn)備之間的差距揭示了人類如何與越來越多的數(shù)字伴侶互動(dòng)。我們正在進(jìn)入共存階段,算法編織到我們的日?,F(xiàn)場

這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 Jun 20, 2025 am 11:16 AM

由於AI,那些日子是編號(hào)的。根據(jù)一個(gè)螺柱,搜索企業(yè)諸如Travel網(wǎng)站皮劃艇和Edtech Company Chegg之類的企業(yè)正在下降,部分原因是60%的網(wǎng)站搜索不會(huì)導(dǎo)致用戶單擊任何鏈接。

AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來談?wù)劇? 對(duì)創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識(shí)別和解釋各種有影響力的AI複雜性(請(qǐng)參閱此處的鏈接)。 前往Agi和

思科在美國2025 思科在美國2025 Jun 19, 2025 am 11:10 AM

讓我們仔細(xì)研究一下我發(fā)現(xiàn)的最重要的東西,以及思科如何以其目前的努力來進(jìn)一步實(shí)現(xiàn)其野心。

See all articles