国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
Whisper 模型介紹
使用資料集:
模型:
編碼器的過程:
模型框圖:
解碼的過程:
訓(xùn)練
優(yōu)點(diǎn):
使用Whisper 模型進(jìn)行語(yǔ)音辨識(shí)
計(jì)算不同模型尺寸下的Word錯(cuò)誤率
從u2b轉(zhuǎn)錄語(yǔ)音
總結(jié)
首頁(yè) 科技週邊 人工智慧 使用OpenAI的Whisper 模型進(jìn)行語(yǔ)音識(shí)別

使用OpenAI的Whisper 模型進(jìn)行語(yǔ)音識(shí)別

Apr 12, 2023 pm 05:28 PM
人工智慧 語(yǔ)音辨識(shí)

語(yǔ)音辨識(shí)是人工智慧中的一個(gè)領(lǐng)域,它允許電腦理解人類語(yǔ)音並將其轉(zhuǎn)換為文字。該技術(shù)用於 Alexa 和各種聊天機(jī)器人應(yīng)用程式等設(shè)備。而我們最常見的就是語(yǔ)音轉(zhuǎn)錄,語(yǔ)音轉(zhuǎn)錄可以語(yǔ)音轉(zhuǎn)換成文字記錄或字幕。

使用OpenAI的Whisper 模型進(jìn)行語(yǔ)音識(shí)別

wav2vec2、Conformer 和 Hubert 等最先進(jìn)模型的最新發(fā)展極大地推動(dòng)了語(yǔ)音辨識(shí)領(lǐng)域的發(fā)展。這些模型採(cǎi)用無需人工標(biāo)記資料即可從原始音訊中學(xué)習(xí)的技術(shù),使它們能夠有效地使用未標(biāo)記語(yǔ)音的大型資料集。它們也被擴(kuò)展為使用多達(dá)1,000,000 小時(shí)的訓(xùn)練數(shù)據(jù),遠(yuǎn)遠(yuǎn)超過學(xué)術(shù)監(jiān)督數(shù)據(jù)集中使用的傳統(tǒng)1,000 小時(shí),但是以監(jiān)督方式跨多個(gè)數(shù)據(jù)集和領(lǐng)域預(yù)訓(xùn)練的模型已被發(fā)現(xiàn)表現(xiàn)出更好的穩(wěn)健性和對(duì)持有資料集的泛化,所以執(zhí)行語(yǔ)音辨識(shí)等任務(wù)仍然需要微調(diào),這限制了它們的全部潛力。為了解決這個(gè)問題OpenAI 發(fā)展了 Whisper,一種利用弱監(jiān)督方法的模型。

本文將說明用於訓(xùn)練的資料集的種類以及模型的訓(xùn)練方法,以及如何使用Whisper?

Whisper 模型介紹

使用資料集:

Whisper模型是在68萬小時(shí)標(biāo)記音訊資料的資料集上訓(xùn)練的,其中包括11.7萬小時(shí)96種不同語(yǔ)言的演講和12.5萬小時(shí)從」任意語(yǔ)言「到英語(yǔ)的翻譯資料。該模型利用了互聯(lián)網(wǎng)生成的文本,這些文本是由其他自動(dòng)語(yǔ)音識(shí)別系統(tǒng)(ASR)生成而不是人類創(chuàng)建的。該資料集還包括一個(gè)在VoxLingua107上訓(xùn)練的語(yǔ)言偵測(cè)器,這是從YouTube影片中提取的短語(yǔ)音片段的集合,並根據(jù)影片標(biāo)題和描述的語(yǔ)言進(jìn)行標(biāo)記,並帶有額外的步驟來去除誤報(bào)。

模型:

主要採(cǎi)用的結(jié)構(gòu)是編碼器-解碼器結(jié)構(gòu)。

重採(cǎi)樣:16000 Hz

特徵擷取方法:使用25毫秒的視窗和10毫秒的步幅計(jì)算80通道的log Mel譜圖表示。

特徵歸一化:輸入在全域內(nèi)縮放到-1到1之間,並且在預(yù)訓(xùn)練資料集上具有近似為零的平均值。

編碼器/解碼器:此模型的編碼器和解碼器採(cǎi)用Transformers。

編碼器的過程:

編碼器首先使用一個(gè)包含兩個(gè)卷積層(濾波器寬度為3)的詞幹處理輸入表示,並使用GELU啟動(dòng)函數(shù)。

第二個(gè)卷積層的步幅為 2。

然後將正弦位置嵌入新增到詞幹的輸出中,然後套用編碼器 Transformer 區(qū)塊。

Transformers使用預(yù)先啟動(dòng)殘差塊,編碼器的輸出使用歸一化層進(jìn)行歸一化。

模型框圖:

使用OpenAI的Whisper 模型進(jìn)行語(yǔ)音識(shí)別

解碼的過程:

在解碼器中,使用了學(xué)習(xí)位置嵌入和綁定輸入輸出標(biāo)記表示。

編碼器和解碼器具有相同的寬度和數(shù)量的Transformers區(qū)塊。

訓(xùn)練

為了改進(jìn)模型的縮放屬性,它在不同的輸入大小上進(jìn)行了訓(xùn)練。

透過 FP16、動(dòng)態(tài)損失縮放,並採(cǎi)用資料並行來訓(xùn)練模型。

使用AdamW和梯度範(fàn)數(shù)裁剪,在對(duì)前 2048 次更新進(jìn)行預(yù)熱後,線性學(xué)習(xí)率衰減為零。

使用 256 個(gè)批次大小,並訓(xùn)練模型進(jìn)行 220次更新,這相當(dāng)於對(duì)資料集進(jìn)行兩到三次前向傳遞。

由於模型只訓(xùn)練了幾個(gè)輪次,過度擬合不是一個(gè)重要問題,並且沒有使用資料增強(qiáng)或正規(guī)化技術(shù)。這反而可以依靠大型資料集內(nèi)的多樣性來促進(jìn)泛化和魯棒性。

Whisper 在先前使用過的資料集上展示了良好的準(zhǔn)確性,並且已經(jīng)針對(duì)其他最先進(jìn)的模型進(jìn)行了測(cè)試。

優(yōu)點(diǎn):

  • Whisper 已經(jīng)在真實(shí)資料以及其他模型上使用的資料以及弱監(jiān)督下進(jìn)行了訓(xùn)練。
  • 模型的準(zhǔn)確性針對(duì)人類聽眾進(jìn)行了測(cè)試並評(píng)估其表現(xiàn)。
  • 它能夠偵測(cè)清音區(qū)域並應(yīng)用 NLP 技術(shù)在轉(zhuǎn)錄本中正確進(jìn)行標(biāo)點(diǎn)符號(hào)的輸入。
  • 模型是可擴(kuò)展的,允許從音訊訊號(hào)中提取轉(zhuǎn)錄本,而無需將視訊分成區(qū)塊或批次,從而降低了漏音的風(fēng)險(xiǎn)。
  • 模型在各種資料集上取得了更高的準(zhǔn)確率。

Whisper在不同資料集上的比較結(jié)果,相較於wav2vec取得了目前最低的字錯(cuò)誤率

使用OpenAI的Whisper 模型進(jìn)行語(yǔ)音識(shí)別

模型沒有在timit資料集上進(jìn)行測(cè)試,所以為了檢查它的單字錯(cuò)誤率,我們將在這裡示範(fàn)如何使用Whisper來自行驗(yàn)證timit資料集,也就是說使用Whisper來建立我們自己的語(yǔ)音辨識(shí)應(yīng)用。

使用Whisper 模型進(jìn)行語(yǔ)音辨識(shí)

TIMIT 閱讀語(yǔ)音語(yǔ)料庫(kù)是語(yǔ)音資料的集合,它專門用於聲學(xué)語(yǔ)音研究以及自動(dòng)語(yǔ)音辨識(shí)系統(tǒng)的開發(fā)和評(píng)估。它包括來自美國(guó)英語(yǔ)八種主要方言的 630 位演講者的錄音,每人朗讀十個(gè)語(yǔ)音豐富的句子。語(yǔ)料庫(kù)包括時(shí)間對(duì)齊的拼字、語(yǔ)音和單字轉(zhuǎn)錄以及每個(gè)語(yǔ)音的 16 位元、16kHz 語(yǔ)音波形檔案。該語(yǔ)料庫(kù)由麻省理工學(xué)院 (MIT)、SRI International (SRI) 和德州儀器 (TI) 共同開發(fā)。 TIMIT 語(yǔ)料庫(kù)轉(zhuǎn)錄已手動(dòng)驗(yàn)證,並指定了測(cè)試和訓(xùn)練子集,以平衡語(yǔ)音和方言覆蓋範(fàn)圍。

安裝:

!pip install git+https://github.com/openai/whisper.git
 !pip install jiwer
 !pip install datasets==1.18.3

第一條指令將安裝whisper模型所需的所有相依性。 jiwer是用來下載文字錯(cuò)誤率包的datasets是hugface提供的資料集包,可以下載timit資料集。

導(dǎo)入庫(kù)

import whisper
 from pytube import YouTube
 from glob import glob
 import os
 import pandas as pd
 from tqdm.notebook import tqdm

載入timit資料集

from datasets import load_dataset, load_metric
 
 timit = load_dataset("timit_asr")

計(jì)算不同模型尺寸下的Word錯(cuò)誤率

考慮到過濾英文資料和非英文數(shù)據(jù)的需求,我們?cè)谶@裡選擇使用多語(yǔ)言模型,而不是專門為英語(yǔ)設(shè)計(jì)的模型。

但是TIMIT資料集是純英文的,所以我們要應(yīng)用相同的語(yǔ)言偵測(cè)和辨識(shí)過程。另外就是TIMIT資料集已經(jīng)分割好訓(xùn)練和驗(yàn)證集,我們可以直接使用。

要使用Whisper,我們就要先了解不同模型的參數(shù),大小和速度。

使用OpenAI的Whisper 模型進(jìn)行語(yǔ)音識(shí)別

載入模型

model = whisper.load_model('tiny')

tiny可以替換為上面提到的模型名稱。

定義語(yǔ)言偵測(cè)器的函數(shù)

def lan_detector(audio_file):
 print('reading the audio file')
 audio = whisper.load_audio(audio_file)
 audio = whisper.pad_or_trim(audio)
 mel = whisper.log_mel_spectrogram(audio).to(model.device)
 _, probs = model.detect_language(mel)
 if max(probs, key=probs.get) == 'en':
 return True
 return False

轉(zhuǎn)換語(yǔ)音到文字的函數(shù)

def speech2text(audio_file):
 text = model.transcribe(audio_file)
 return text["text"]

在不同模型大小下運(yùn)行上面的函數(shù),timit訓(xùn)練和測(cè)試得到的單字錯(cuò)誤率如下:

使用OpenAI的Whisper 模型進(jìn)行語(yǔ)音識(shí)別

從u2b轉(zhuǎn)錄語(yǔ)音

#與其他語(yǔ)音辨識(shí)模型相比,Whisper 不僅能辨識(shí)語(yǔ)音,還能解讀一個(gè)人語(yǔ)音中的標(biāo)點(diǎn)??語(yǔ)調(diào),並插入適當(dāng)?shù)臉?biāo)點(diǎn)符號(hào),我們下面使用u2b的影片進(jìn)行測(cè)試。

這裡就需要一個(gè)套件pytube,它可以輕鬆的幫助我們下載和提取音訊

def youtube_audio(link):
 youtube_1 = YouTube(link)
 videos = youtube_1.streams.filter(only_audio=True)
 
 name = str(link.split('=')[-1])
 out_file = videos[0].download(name)

 link = name.split('=')[-1]
 new_filename = link+".wav"
 print(new_filename)
 os.rename(out_file, new_filename)
 print(name)
 return new_filename,link

獲得wav檔案後,我們就可以應(yīng)用上面的函數(shù)從中提取文字。

總結(jié)

本文的程式碼在這裡

https://drive.google.com/file/d/1FejhGseX_S1Ig_Y5nIPn1OcHN8DLFGIO/view

還有許多操作可以用Whisper完成,你可以依照本文的程式碼自行嘗試。

以上是使用OpenAI的Whisper 模型進(jìn)行語(yǔ)音識(shí)別的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁(yè)開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1600
29
PHP教程
1502
276
位元組跳動(dòng)剪映推出 SVIP 超級(jí)會(huì)員:連續(xù)包年 499 元,提供多種 AI 功能 位元組跳動(dòng)剪映推出 SVIP 超級(jí)會(huì)員:連續(xù)包年 499 元,提供多種 AI 功能 Jun 28, 2024 am 03:51 AM

本站6月27日訊息,剪映是由位元組跳動(dòng)旗下臉萌科技開發(fā)的一款影片剪輯軟體,依託於抖音平臺(tái)且基本面向該平臺(tái)用戶製作短影片內(nèi)容,並相容於iOS、安卓、Windows 、MacOS等作業(yè)系統(tǒng)。剪映官方宣布會(huì)員體系升級(jí),推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點(diǎn)、智慧包裝、數(shù)位人合成等。價(jià)格方面,剪映SVIP月費(fèi)79元,年費(fèi)599元(本站註:折合每月49.9元),連續(xù)包月則為59元每月,連續(xù)包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗(yàn),向已訂閱了原版VIP

使用Rag和Sem-Rag提供上下文增強(qiáng)AI編碼助手 使用Rag和Sem-Rag提供上下文增強(qiáng)AI編碼助手 Jun 10, 2024 am 11:08 AM

透過將檢索增強(qiáng)生成和語(yǔ)意記憶納入AI編碼助手,提升開發(fā)人員的生產(chǎn)力、效率和準(zhǔn)確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。雖然基本AI程式設(shè)計(jì)助理自然有幫助,但由於依賴對(duì)軟體語(yǔ)言和編寫軟體最常見模式的整體理解,因此常常無法提供最相關(guān)和正確的程式碼建議。這些編碼助手產(chǎn)生的代碼適合解決他們負(fù)責(zé)解決的問題,但通常不符合各個(gè)團(tuán)隊(duì)的編碼標(biāo)準(zhǔn)、慣例和風(fēng)格。這通常會(huì)導(dǎo)致需要修改或完善其建議,以便將程式碼接受到應(yīng)

七個(gè)很酷的GenAI & LLM技術(shù)性面試問題 七個(gè)很酷的GenAI & LLM技術(shù)性面試問題 Jun 07, 2024 am 10:06 AM

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)煸L:51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網(wǎng)路上隨處可見的傳統(tǒng)問題庫(kù),這些問題需要跳脫常規(guī)思維。大語(yǔ)言模型(LLM)在數(shù)據(jù)科學(xué)、生成式人工智慧(GenAI)和人工智慧領(lǐng)域越來越重要。這些複雜的演算法提升了人類的技能,並在許多產(chǎn)業(yè)中推動(dòng)了效率和創(chuàng)新性的提升,成為企業(yè)保持競(jìng)爭(zhēng)力的關(guān)鍵。 LLM的應(yīng)用範(fàn)圍非常廣泛,它可以用於自然語(yǔ)言處理、文字生成、語(yǔ)音辨識(shí)和推薦系統(tǒng)等領(lǐng)域。透過學(xué)習(xí)大量的數(shù)據(jù),LLM能夠產(chǎn)生文本

微調(diào)真的能讓LLM學(xué)到新東西嗎:引入新知識(shí)可能讓模型產(chǎn)生更多的幻覺 微調(diào)真的能讓LLM學(xué)到新東西嗎:引入新知識(shí)可能讓模型產(chǎn)生更多的幻覺 Jun 11, 2024 pm 03:57 PM

大型語(yǔ)言模型(LLM)是在龐大的文字資料庫(kù)上訓(xùn)練的,在那裡它們獲得了大量的實(shí)際知識(shí)。這些知識(shí)嵌入到它們的參數(shù)中,然後可以在需要時(shí)使用。這些模型的知識(shí)在訓(xùn)練結(jié)束時(shí)被「具體化」。在預(yù)訓(xùn)練結(jié)束時(shí),模型實(shí)際上停止學(xué)習(xí)。對(duì)模型進(jìn)行對(duì)齊或進(jìn)行指令調(diào)優(yōu),讓模型學(xué)習(xí)如何充分利用這些知識(shí),以及如何更自然地回應(yīng)使用者的問題。但是有時(shí)模型知識(shí)是不夠的,儘管模型可以透過RAG存取外部?jī)?nèi)容,但透過微調(diào)使用模型適應(yīng)新的領(lǐng)域被認(rèn)為是有益的。這種微調(diào)是使用人工標(biāo)註者或其他llm創(chuàng)建的輸入進(jìn)行的,模型會(huì)遇到額外的實(shí)際知識(shí)並將其整合

你所不知道的機(jī)器學(xué)習(xí)五大學(xué)派 你所不知道的機(jī)器學(xué)習(xí)五大學(xué)派 Jun 05, 2024 pm 08:51 PM

機(jī)器學(xué)習(xí)是人工智慧的重要分支,它賦予電腦從數(shù)據(jù)中學(xué)習(xí)的能力,並能夠在無需明確編程的情況下改進(jìn)自身能力。機(jī)器學(xué)習(xí)在各個(gè)領(lǐng)域都有廣泛的應(yīng)用,從影像辨識(shí)和自然語(yǔ)言處理到推薦系統(tǒng)和詐欺偵測(cè),它正在改變我們的生活方式。機(jī)器學(xué)習(xí)領(lǐng)域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機(jī)器學(xué)習(xí)五大派」。這五大派分別為符號(hào)派、聯(lián)結(jié)派、進(jìn)化派、貝葉斯派和類推學(xué)派。 1.符號(hào)學(xué)派符號(hào)學(xué)(Symbolism),又稱符號(hào)主義,強(qiáng)調(diào)利用符號(hào)進(jìn)行邏輯推理和表達(dá)知識(shí)。該學(xué)派認(rèn)為學(xué)習(xí)是一種逆向演繹的過程,透過現(xiàn)有的

為大模型提供全新科學(xué)複雜問答基準(zhǔn)與評(píng)估體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)共同推出SciQAG框架 為大模型提供全新科學(xué)複雜問答基準(zhǔn)與評(píng)估體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)共同推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問答(QA)資料集在推動(dòng)自然語(yǔ)言處理(NLP)研究中發(fā)揮著至關(guān)重要的作用。高品質(zhì)QA資料集不僅可以用於微調(diào)模型,也可以有效評(píng)估大語(yǔ)言模型(LLM)的能力,尤其是針對(duì)科學(xué)知識(shí)的理解和推理能力。儘管目前已有許多科學(xué)QA數(shù)據(jù)集,涵蓋了醫(yī)學(xué)、化學(xué)、生物等領(lǐng)域,但這些數(shù)據(jù)集仍有一些不足之處。其一,資料形式較為單一,大多數(shù)為多項(xiàng)選擇題(multiple-choicequestions),它們易於進(jìn)行評(píng)估,但限制了模型的答案選擇範(fàn)圍,無法充分測(cè)試模型的科學(xué)問題解答能力。相比之下,開放式問答

VSCode 前端開發(fā)新紀(jì)元:12款 AI 代碼助理推薦 VSCode 前端開發(fā)新紀(jì)元:12款 AI 代碼助理推薦 Jun 11, 2024 pm 07:47 PM

在前端開發(fā)的世界裡,VSCode以其強(qiáng)大的功能和豐富的插件生態(tài),成為了無數(shù)開發(fā)者的首選工具。而近年來,隨著人工智慧技術(shù)的快速發(fā)展,VSCode上的AI代碼助理也如雨後春筍般湧現(xiàn),大大提升了開發(fā)者的編碼效率。 VSCode上的AI代碼助手,如雨後春筍般湧現(xiàn),大大提升了開發(fā)者的編碼效率。它利用人工智慧技術(shù),能夠聰明地分析程式碼,提供精準(zhǔn)的程式碼補(bǔ)全、自動(dòng)糾錯(cuò)、語(yǔ)法檢查等功能,大大減少了開發(fā)者在編碼過程中的錯(cuò)誤和繁瑣的手工工作。有今天,就為大家推薦12款VSCode前端開發(fā)AI程式碼助手,幫助你在程式設(shè)計(jì)之路

SK 海力士 8 月 6 日將展示 AI 相關(guān)新品:12 層 HBM3E、321-high NAND 等 SK 海力士 8 月 6 日將展示 AI 相關(guān)新品:12 層 HBM3E、321-high NAND 等 Aug 01, 2024 pm 09:40 PM

本站8月1日消息,SK海力士今天(8月1日)發(fā)布博文,宣布將出席8月6日至8日,在美國(guó)加州聖克拉拉舉行的全球半導(dǎo)體記憶體峰會(huì)FMS2024,展示諸多新一代產(chǎn)品。未來記憶體和儲(chǔ)存高峰會(huì)(FutureMemoryandStorage)簡(jiǎn)介前身是主要面向NAND供應(yīng)商的快閃記憶體高峰會(huì)(FlashMemorySummit),在人工智慧技術(shù)日益受到關(guān)注的背景下,今年重新命名為未來記憶體和儲(chǔ)存高峰會(huì)(FutureMemoryandStorage),以邀請(qǐng)DRAM和儲(chǔ)存供應(yīng)商等更多參與者。新產(chǎn)品SK海力士去年在

See all articles