国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
模型
硬體配置
基準(zhǔn)測(cè)試結(jié)果
關(guān)鍵發(fā)現(xiàn)
結(jié)論
首頁(yè) 科技週邊 人工智慧 Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓(xùn)練最快選擇

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓(xùn)練最快選擇

Apr 01, 2024 pm 07:46 PM
數(shù)據(jù) 模型

Google力推的JAX在最近的基準(zhǔn)測(cè)試中效能已經(jīng)超過(guò)Pytorch和TensorFlow,7項(xiàng)指標(biāo)排名第一。

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓(xùn)練最快選擇

而且測(cè)試並不是JAX效能表現(xiàn)最好的TPU上完成的。

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓(xùn)練最快選擇

雖然現(xiàn)在在開(kāi)發(fā)者中,Pytorch依然比Tensorflow更受歡迎。

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓(xùn)練最快選擇

但未來(lái),也許有更多的大模型會(huì)基於JAX平臺(tái)進(jìn)行訓(xùn)練和運(yùn)行。

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓(xùn)練最快選擇

模型

最近,Keras團(tuán)隊(duì)為三個(gè)後端(TensorFlow、JAX、PyTorch)與原生PyTorch實(shí)作以及搭配TensorFlow的Keras 2進(jìn)行了基準(zhǔn)測(cè)試。

首先,他們?yōu)樯墒胶头巧墒饺斯ぶ腔廴蝿?wù)選擇了一組主流的電腦視覺(jué)和自然語(yǔ)言處理模型:

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓(xùn)練最快選擇

對(duì)於模型的Keras版本,其採(cǎi)用了KerasCV和KerasNLP中已有的實(shí)作進(jìn)行建構(gòu)。而對(duì)於原生的PyTorch版本,則選擇了網(wǎng)路上最受歡迎的幾個(gè)選項(xiàng):

- 來(lái)自HuggingFace Transformers的BERT、Gemma、Mistral

#- 來(lái)自HuggingFace Diffusers的StableDiffusion

- 來(lái)自Meta的SegmentAnything

#他們將這組模型稱為「Native PyTorch」,以便與使用PyTorch後端的Keras 3版本進(jìn)行區(qū)分。

他們對(duì)所有基準(zhǔn)測(cè)試都使用了合成數(shù)據(jù),並在所有LLM訓(xùn)練和推理中使用了bfloat16精度,同時(shí)在所有LLM訓(xùn)練中使用了LoRA(微調(diào))。

根據(jù)PyTorch團(tuán)隊(duì)的建議,他們?cè)谠鶳yTorch實(shí)作中使用了torch.compile(model, mode="reduce-overhead")(由於不相容,Gemma和Mistral訓(xùn)練除外)。

為了衡量開(kāi)箱即用的效能,他們使用高階API(例如HuggingFace的Trainer()、標(biāo)準(zhǔn)PyTorch訓(xùn)練循環(huán)和Keras model.fit()),並盡可能減少配置。

硬體配置

所有基準(zhǔn)測(cè)試都使用Google Cloud Compute Engine進(jìn)行,配置為:一塊擁有40GB記憶體的NVIDIA A100 GPU、12個(gè)虛擬CPU和85GB的主機(jī)記憶體。

基準(zhǔn)測(cè)試結(jié)果

表2顯示了基準(zhǔn)測(cè)試結(jié)果(以步/毫秒為單位)。每個(gè)步驟都涉及對(duì)單一資料批次進(jìn)行訓(xùn)練或預(yù)測(cè)。

結(jié)果是100步的平均值,但排除了第一步,因?yàn)榈谝徊桨四P蛣?chuàng)建和編譯,這會(huì)額外花費(fèi)時(shí)間。

為了確保比較的公平性,對(duì)於相同的模型和任務(wù)(不論是訓(xùn)練還是推理)都使用相同的批次大小。

然而,對(duì)於不同的模型和任務(wù),由於它們的規(guī)模和架構(gòu)有所不同,可根據(jù)需要調(diào)整資料批大小,從而避免因過(guò)大而導(dǎo)致記憶體溢出,或是批過(guò)小而導(dǎo)致GPU使用不足。

過(guò)小的批次大小也會(huì)使PyTorch看起來(lái)較慢,因?yàn)闀?huì)增加Python的開(kāi)銷(xiāo)。

對(duì)於大型語(yǔ)言模型(Gemma和Mistral),測(cè)試時(shí)也使用了相同的批次大小,因?yàn)樗鼈兪窍嗤?lèi)型的模型,具有類(lèi)似數(shù)量的參數(shù)(7B)。

考慮到使用者對(duì)單批文字產(chǎn)生的需求,也對(duì)批次大小為1的文字產(chǎn)生情況進(jìn)行了基準(zhǔn)測(cè)試。

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓(xùn)練最快選擇

關(guān)鍵發(fā)現(xiàn)

發(fā)現(xiàn)1

#不存在「最優(yōu)」後端。

Keras的三種後端各展所長(zhǎng),重要的是,就效能而言,並沒(méi)有哪一個(gè)後端能夠始終勝出。

選擇哪個(gè)後端最快,往往取決於模型的架構(gòu)。

這一點(diǎn)突顯了選擇不同框架以追求最佳效能的重要性。 Keras 3可以協(xié)助輕鬆切換後端,以便為模型找到最合適的選擇。

發(fā)現(xiàn)2

#Keras 3的效能普遍超過(guò)PyTorch的標(biāo)準(zhǔn)實(shí)作。

相對(duì)於原生PyTorch,Keras 3在吞吐量(步/毫秒)上有明顯的提升。

特別是,在10個(gè)測(cè)試任務(wù)中,有5個(gè)的速度提升超過(guò)了50%。其中,最高更是達(dá)到了290%。

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓(xùn)練最快選擇

如果是100%,表示Keras 3的速度是PyTorch的2倍;如果是0%,則表示兩者效能相當(dāng)

發(fā)現(xiàn)3

Keras 3提供一流的「開(kāi)箱即用」效能。

也就是,所有參與測(cè)試的Keras模型都未進(jìn)行過(guò)任何最佳化。相較之下,使用原生PyTorch實(shí)作時(shí),通常需要使用者自行進(jìn)行更多效能最佳化。

除了上面分享的數(shù)據(jù),測(cè)試中還注意到在HuggingFace Diffusers的StableDiffusion推理功能上,從版本0.25.0升級(jí)到0.3.0時(shí),性能提升超過(guò)了100% 。

同樣,在HuggingFace Transformers中,Gemma從4.38.1版本升級(jí)至4.38.2版本也顯著提高了效能。

這些效能的提升凸顯了HuggingFace在效能優(yōu)化上的專注與努力。

對(duì)於一些手動(dòng)最佳化較少的模型,如SegmentAnything,則使用了研究作者提供的實(shí)作。在這種情況下,與Keras相比,效能差距比大多數(shù)其他型號(hào)更大。

這表明,Keras能夠提供卓越的開(kāi)箱即用效能,使用者無(wú)需深入了解所有最佳化技巧即可享受到快速的模型運(yùn)行速度。

發(fā)現(xiàn)4

#Keras 3的表現(xiàn)總是優(yōu)於Keras 2。

例如,SegmentAnything的推理速度提升了驚人的380%,StableDiffusion的訓(xùn)練處理速度提升了150%以上,BERT的訓(xùn)練處理速度也提升了100%以上。

這主要是因?yàn)镵eras 2在某些情況下直接使用了更多的TensorFlow融合操作,而這可能對(duì)於XLA的編譯並不是最佳選擇。

值得注意的是,即使只升級(jí)到Keras 3並繼續(xù)使用TensorFlow後端,也能顯著提升效能。

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓(xùn)練最快選擇

結(jié)論

框架的表現(xiàn)在很大程度上取決於具體使用的模型。

Keras 3能夠幫助為任務(wù)選擇最快的框架,這種選擇幾乎總是超越Keras 2和PyTorch實(shí)作。

更為重要的是,Keras 3模型無(wú)需進(jìn)行複雜的底層最佳化,即可提供卓越的開(kāi)箱即用效能。

以上是Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓(xùn)練最快選擇的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門(mén)話題

AI顛覆數(shù)學(xué)研究!菲爾茲獎(jiǎng)得主、華裔數(shù)學(xué)家領(lǐng)銜11篇頂刊論文|陶哲軒轉(zhuǎn)贊 AI顛覆數(shù)學(xué)研究!菲爾茲獎(jiǎng)得主、華裔數(shù)學(xué)家領(lǐng)銜11篇頂刊論文|陶哲軒轉(zhuǎn)贊 Apr 09, 2024 am 11:52 AM

AI,的確正在改變數(shù)學(xué)。最近,一直十分關(guān)注這個(gè)議題的陶哲軒,轉(zhuǎn)發(fā)了最近一期的《美國(guó)數(shù)學(xué)學(xué)會(huì)通報(bào)》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機(jī)器會(huì)改變數(shù)學(xué)嗎?」這個(gè)話題,許多數(shù)學(xué)家發(fā)表了自己的觀點(diǎn),全程火花四射,內(nèi)容硬核,精彩紛呈。作者陣容強(qiáng)大,包括菲爾茲獎(jiǎng)得主AkshayVenkatesh、華裔數(shù)學(xué)家鄭樂(lè)雋、紐大電腦科學(xué)家ErnestDavis等多位業(yè)界知名學(xué)者。 AI的世界已經(jīng)發(fā)生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

你好,電動(dòng)Atlas!波士頓動(dòng)力機(jī)器人復(fù)活,180度詭異動(dòng)作嚇到馬斯克 你好,電動(dòng)Atlas!波士頓動(dòng)力機(jī)器人復(fù)活,180度詭異動(dòng)作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動(dòng)力Atlas,正式進(jìn)入電動(dòng)機(jī)器人時(shí)代!昨天,液壓Atlas剛「含淚」退出歷史舞臺(tái),今天波士頓動(dòng)力就宣布:電動(dòng)Atlas上崗??磥?lái),在商用人形機(jī)器人領(lǐng)域,波士頓動(dòng)力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時(shí)內(nèi),就已經(jīng)有一百多萬(wàn)觀看。舊人離去,新角色登場(chǎng),這是歷史的必然。毫無(wú)疑問(wèn),今年是人形機(jī)器人的爆發(fā)年。網(wǎng)友銳評(píng):機(jī)器人的進(jìn)步,讓今年看起來(lái)像人類(lèi)的開(kāi)幕式動(dòng)作、自由度遠(yuǎn)超人類(lèi),但這真不是恐怖片?影片一開(kāi)始,Atlas平靜地躺在地上,看起來(lái)應(yīng)該是仰面朝天。接下來(lái),讓人驚掉下巴

全球最強(qiáng)開(kāi)源 MoE 模型來(lái)了,中文能力比肩 GPT-4,價(jià)格僅 GPT-4-Turbo 的近百分之一 全球最強(qiáng)開(kāi)源 MoE 模型來(lái)了,中文能力比肩 GPT-4,價(jià)格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個(gè)人工智慧模型,不僅擁有超越傳統(tǒng)運(yùn)算的能力,還能以更低的成本實(shí)現(xiàn)更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強(qiáng)開(kāi)源MoE模型來(lái)了。 DeepSeek-V2是一個(gè)強(qiáng)大的專家混合(MoE)語(yǔ)言模型,具有訓(xùn)練經(jīng)濟(jì)、推理高效的特點(diǎn)。它由236B個(gè)參數(shù)組成,其中21B個(gè)參數(shù)用於啟動(dòng)每個(gè)標(biāo)記。與DeepSeek67B相比,DeepSeek-V2效能更強(qiáng),同時(shí)節(jié)省了42.5%的訓(xùn)練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

iPhone上的蜂窩數(shù)據(jù)網(wǎng)路速度慢:修復(fù) iPhone上的蜂窩數(shù)據(jù)網(wǎng)路速度慢:修復(fù) May 03, 2024 pm 09:01 PM

在iPhone上面臨滯後,緩慢的行動(dòng)數(shù)據(jù)連線?通常,手機(jī)上蜂窩互聯(lián)網(wǎng)的強(qiáng)度取決於幾個(gè)因素,例如區(qū)域、蜂窩網(wǎng)絡(luò)類(lèi)型、漫遊類(lèi)型等。您可以採(cǎi)取一些措施來(lái)獲得更快、更可靠的蜂窩網(wǎng)路連線。修復(fù)1–強(qiáng)制重啟iPhone有時(shí),強(qiáng)制重啟設(shè)備只會(huì)重置許多內(nèi)容,包括蜂窩網(wǎng)路連線。步驟1–只需按一次音量調(diào)高鍵並放開(kāi)即可。接下來(lái),按降低音量鍵並再次釋放它。步驟2–過(guò)程的下一部分是按住右側(cè)的按鈕。讓iPhone完成重啟。啟用蜂窩數(shù)據(jù)並檢查網(wǎng)路速度。再次檢查修復(fù)2–更改資料模式雖然5G提供了更好的網(wǎng)路速度,但在訊號(hào)較弱

特斯拉機(jī)器人進(jìn)廠打工,馬斯克:手的自由度今年將達(dá)到22個(gè)! 特斯拉機(jī)器人進(jìn)廠打工,馬斯克:手的自由度今年將達(dá)到22個(gè)! May 06, 2024 pm 04:13 PM

特斯拉機(jī)器人Optimus最新影片出爐,已經(jīng)可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點(diǎn)之一在於Optimus在廠子裡完成這項(xiàng)工作,是完全自主的,全程沒(méi)有人為的干預(yù)。而且在Optimus的視角之下,它還可以把放歪了的電池重新?lián)炱饋?lái)放置,主打一個(gè)自動(dòng)糾錯(cuò):對(duì)於Optimus的手,英偉達(dá)科學(xué)家JimFan給出了高度的評(píng)價(jià):Optimus的手是全球五指機(jī)器人裡最靈巧的之一。它的手不僅有觸覺(jué)

替代MLP的KAN,被開(kāi)源專案擴(kuò)展到卷積了 替代MLP的KAN,被開(kāi)源專案擴(kuò)展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初,來(lái)自MIT等機(jī)構(gòu)的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準(zhǔn)確性和可解釋性方面表現(xiàn)優(yōu)於MLP。而且它能以非常少的參數(shù)量勝過(guò)以更大參數(shù)量運(yùn)行的MLP。例如,作者表示,他們用KAN以更小的網(wǎng)路和更高的自動(dòng)化程度重現(xiàn)了DeepMind的結(jié)果。具體來(lái)說(shuō),DeepMind的MLP有大約300,000個(gè)參數(shù),而KAN只有約200個(gè)參數(shù)。 KAN與MLP一樣具有強(qiáng)大的數(shù)學(xué)基礎(chǔ),MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

本地運(yùn)作效能超越 OpenAI Text-Embedding-Ada-002 的 Embedding 服務(wù),太方便了! 本地運(yùn)作效能超越 OpenAI Text-Embedding-Ada-002 的 Embedding 服務(wù),太方便了! Apr 15, 2024 am 09:01 AM

Ollama是一款超實(shí)用的工具,讓你能夠在本地輕鬆運(yùn)行Llama2、Mistral、Gemma等開(kāi)源模型。本文我將介紹如何使用Ollama實(shí)現(xiàn)對(duì)文本的向量化處理。如果你本地還沒(méi)有安裝Ollama,可以閱讀這篇文章。本文我們將使用nomic-embed-text[2]模型。它是一種文字編碼器,在短的上下文和長(zhǎng)的上下文任務(wù)上,效能超越了OpenAItext-embedding-ada-002和text-embedding-3-small。啟動(dòng)nomic-embed-text服務(wù)當(dāng)你已經(jīng)成功安裝好o

FisheyeDetNet:首個(gè)以魚(yú)眼相機(jī)為基礎(chǔ)的目標(biāo)偵測(cè)演算法 FisheyeDetNet:首個(gè)以魚(yú)眼相機(jī)為基礎(chǔ)的目標(biāo)偵測(cè)演算法 Apr 26, 2024 am 11:37 AM

目標(biāo)偵測(cè)在自動(dòng)駕駛系統(tǒng)當(dāng)中是一個(gè)比較成熟的問(wèn)題,其中行人偵測(cè)是最早得以部署演算法之一。在多數(shù)論文當(dāng)中已經(jīng)進(jìn)行了非常全面的研究。然而,利用魚(yú)眼相機(jī)進(jìn)行環(huán)視的距離感知相對(duì)來(lái)說(shuō)研究較少。由於徑向畸變大,標(biāo)準(zhǔn)的邊界框表示在魚(yú)眼相機(jī)當(dāng)中很難實(shí)施。為了緩解上述描述,我們探索了擴(kuò)展邊界框、橢圓、通用多邊形設(shè)計(jì)為極座標(biāo)/角度表示,並定義一個(gè)實(shí)例分割mIOU度量來(lái)分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優(yōu)於其他模型,並同時(shí)在用於自動(dòng)駕駛的Valeo魚(yú)眼相機(jī)資料集上實(shí)現(xiàn)了49.5%的mAP

See all articles