国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 科技周邊 人工智能 AI助力腦機接口研究,紐約大學突破性神經(jīng)語音解碼技術(shù),登Nature子刊

AI助力腦機接口研究,紐約大學突破性神經(jīng)語音解碼技術(shù),登Nature子刊

Apr 17, 2024 am 08:40 AM
git iis 理論

AI助力腦機接口研究,紐約大學突破性神經(jīng)語音解碼技術(shù),登Nature子刊

作者 | 陳旭鵬?

編輯 | ScienceAI

由于神經(jīng)系統(tǒng)的缺陷導致的失語會導致嚴重的生活障礙,它可能會限制人們的職業(yè)和社交生活。

近年來,深度學習和腦機接口(BCI)技術(shù)的飛速發(fā)展為開發(fā)能夠幫助失語者溝通的神經(jīng)語音假肢提供了可行性。然而,神經(jīng)信號的語音解碼面臨挑戰(zhàn)。

近日,約旦大學VideoLab和Flinker Lab的研究者開發(fā)了一個新型的可微分語音合成器,可以利用一個輕型的卷積神經(jīng)網(wǎng)絡(luò)將語音編碼為一系列可解釋的語音參數(shù)(例如音高、響度、共振峰頻率等),并通過可微分神經(jīng)網(wǎng)絡(luò)將這些參數(shù)合成為語音。這個合成器還可以通過一個輕型的卷積神經(jīng)網(wǎng)絡(luò)來解析語音參數(shù)(例如音高、響度、共振峰頻率等),以及通 過可微分語音合成器重新合成語音。

研究者建立了一個高度可解釋且可應(yīng)用于小數(shù)據(jù)量情形的神經(jīng)信號解碼系統(tǒng),通過將神經(jīng)信號映射到這些語音參數(shù),而不改變原內(nèi)容的意思。

該研究以「A neural speech decoding framework leveraging deep learning and speech synthesis」為題,于 2024 年 4 月 8 日發(fā)表在《Nature Machine Intelligence》雜志上。

AI助力腦機接口研究,紐約大學突破性神經(jīng)語音解碼技術(shù),登Nature子刊

論文鏈接:https://www.nature.com/articles/s42256-024-00824-8

研究背景

開發(fā)神經(jīng)-語音解碼器的嘗試大多數(shù)依賴于一種特殊的數(shù)據(jù):通過皮層電圖(ECoG)記錄獲取接受癲癇手術(shù)患者的數(shù)據(jù)。利用患有癲癇的患者植入的電極,在發(fā)音時收集大腦皮層數(shù)據(jù),這些數(shù)據(jù)具有高時空分辨率,已經(jīng)在語音解碼領(lǐng)域幫助研究者獲得了一系列很顯著的成果,幫助推動了腦機接口領(lǐng)域的發(fā)展。

神經(jīng)信號的語音解碼面臨著兩大挑戰(zhàn)。

首先,用于訓練個性化神經(jīng)到語音解碼模型的數(shù)據(jù)在時間上是非常有限的,通常只有十分鐘左右,而深度學習模型往往需要大量的訓練數(shù)據(jù)來驅(qū)動。

其次,人類的發(fā)音非常多樣,哪怕是同一個人重復說出相同的單詞,語速、語調(diào)和音調(diào)等也會有變化,這給模型構(gòu)建的表征空間增加了復雜性。

早期的解碼神經(jīng)信號到語音的嘗試主要依賴于線性模型,模型通常不需要龐大的訓練數(shù)據(jù)集,可解釋性強,但是準確率很低。

近期的基于深度神經(jīng)網(wǎng)絡(luò),尤其是利用卷積和循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu),在模擬語音的中間潛在表示和合成后語音質(zhì)量兩個關(guān)鍵維度上展開。例如,有研究將大腦皮層活動解碼成口型運動空間,然后再轉(zhuǎn)化為語音,雖然解碼性能強大,但重建的聲音聽起來不自然。

另一方面,一些方法通過利用wavenet聲碼器、生成對抗網(wǎng)絡(luò)(GAN)等,雖然成功重建了自然聽感的語音,但準確度有限。最近,在一個植入了設(shè)備的患者的研究中,通過使用量化的HuBERT特征作為中間表示空間和預訓練的語音合成器將這些特征轉(zhuǎn)換成語音,實現(xiàn)了既準確又自然的語音波形。

然而,HuBERT特征不能表示發(fā)音者特有的聲學信息,只能生成固定統(tǒng)一的發(fā)音者聲音,因此需要額外的模型將這種通用聲音轉(zhuǎn)換為特定患者的聲音。此外,這項研究和大多數(shù)先前的嘗試采用了非因果(non-causal)架構(gòu),這可能限制其在需要時序因果(causal)操作的腦機接口實際應(yīng)用中的使用。

主要模型框架

AI助力腦機接口研究,紐約大學突破性神經(jīng)語音解碼技術(shù),登Nature子刊

圖1:提出的神經(jīng)語音解碼框架。(來源:論文)

為應(yīng)對這些挑戰(zhàn),研究者在這篇文章中介紹了一個新型的從腦電(ECoG)信號到語音的解碼框架,研究人員構(gòu)建了一個低維度的中間表示(low dimension latent representation),該表示通過僅使用語音信號的語音編解碼模型生成(圖 1)。

研究提出的框架由兩部分組成:一部分是ECoG解碼器,它能將ECoG信號轉(zhuǎn)化為我們可以理解的聲學語音參數(shù)(比如音高、是否發(fā)聲、響度、以及共振峰頻率等);另一部分是語音合成器,它將這些語音參數(shù)轉(zhuǎn)化為頻譜圖。

研究人員構(gòu)建了一個可微分語音合成器,這使得在訓練ECoG解碼器的過程中,語音合成器也可以參與訓練,共同優(yōu)化以減少頻譜圖重建的誤差。這個低維度的潛在空間具有很強的可解釋性,加上輕量級的預訓練語音編碼器生成參考用的語音參數(shù),幫助研究者構(gòu)建了一個高效的神經(jīng)語音解碼框架,克服了數(shù)據(jù)稀缺的問題。

該框架能產(chǎn)生非常接近說話人自己聲音的自然語音,并且ECoG解碼器部分可以插入不同的深度學習模型架構(gòu),也支持因果操作(causal operations)。研究人員共收集并處理了48名神經(jīng)外科病人的ECoG數(shù)據(jù),使用多種深度學習架構(gòu)(包括卷積、循環(huán)神經(jīng)網(wǎng)絡(luò)和Transformer)作為ECoG解碼器。

該框架在各種模型上都展現(xiàn)出了高準確度,其中以卷積(ResNet)架構(gòu)獲得的性能最好,原始與解碼頻譜圖之間的皮爾森相關(guān)系數(shù)(PCC)達到了0.806。研究者提出的框架僅通過因果操作和相對較低的采樣率(low-density, 10mm spacing)就能實現(xiàn)高準確度。

研究者還展示了能夠從大腦的左右半球都進行有效的語音解碼,將神經(jīng)語音解碼的應(yīng)用擴展到了右腦。

研究相關(guān)代碼開源:https://github.com/flinkerlab/neural_speech_decoding

更多生成的語音示例:https://xc1490.github.io/nsd/

AI助力腦機接口研究,紐約大學突破性神經(jīng)語音解碼技術(shù),登Nature子刊

圖:可微分語音合成器架構(gòu)。(來源:論文)

該研究的重要創(chuàng)新是提出了一個可微分的語音合成器(speech synthesizer),這使得語音的重合成任務(wù)變得非常高效,可以用很小的語音合成高保真的貼合原聲的音頻。

可微分語音合成器的原理借鑒了人的發(fā)生系統(tǒng)原理,將語音分為Voice(用于建模元音)和Unvoice(用于建模輔音)兩部分:

Voice部分可以首先用基頻信號產(chǎn)生諧波,由F1-F6的共振峰組成的濾波器濾波得到元音部分的頻譜特征;對于Unvoice部分,研究者則是將白噪聲用相應(yīng)的濾波器濾波得到對應(yīng)的頻譜,一個可學習的參數(shù)可以調(diào)控兩部分在每個時刻的混合比例;在此之后通過響度信號放大,加入背景噪聲來得到最終的語音頻譜?;谠撜Z音合成器,本文設(shè)計了一個高效的語音重合成框架以及神經(jīng)-語音解碼框架。

研究結(jié)果

具有時序因果性的語音解碼結(jié)果

AI助力腦機接口研究,紐約大學突破性神經(jīng)語音解碼技術(shù),登Nature子刊

圖2:比較非因果和因果模型的原始頻譜圖和解碼頻譜圖的解碼性能。(來源:論文)

首先,研究者直接比較不同模型架構(gòu)(卷積(ResNet)、循環(huán)(LSTM)和Transformer(3D Swin)在語音解碼性能上的差異。值得注意的是,這些模型都可以執(zhí)行時間上的非因果(non-causal)或因果操作。

研究結(jié)果表明,ResNet模型在所有模型中表現(xiàn)最佳,在48位參與者中達到了最高的皮爾森相關(guān)系數(shù)(PCC),非因果和因果的平均PCC分別為0.806和0.797,緊隨其后的是Swin模型(非因果和因果的平均PCC分別為0.792和0.798)(圖2a)。

通過STOI 指標的評估也得到了相似的發(fā)現(xiàn)。解碼模型的因果性對大腦-計算機接口(BCI)應(yīng)用具有重大意義:因果模型僅利用過去和當前的神經(jīng)信號生成語音,而非因果模型還會使用未來的神經(jīng)信號。過去的研究通常采用非因果模型,這在實時應(yīng)用中不可行。因此,研究者專注于比較相同模型在執(zhí)行非因果和因果操作時的性能。

研究發(fā)現(xiàn),即使是因果版本的ResNet模型也能與非因果版本媲美,二者之間沒有顯著差異。同樣,因果和非因果版本的Swin模型性能相近,但因果版本的LSTM模型性能顯著低于非因果版本,因此研究者后續(xù)主要關(guān)注ResNet和Swin模型。

為確保本文提出的框架能夠很好地泛化于未見過的單詞,研究者進行了更為嚴格的單詞級交叉驗證,這意味著相同單詞的不同試驗不會同時出現(xiàn)在訓練集和測試集中。

如圖2b所示,對未見單詞的性能與文中的標準試驗方法相當,表明即使在訓練期間未見過的單詞,模型也能夠很好地進行解碼,這主要得益于本文構(gòu)建的模型在進行音素(phoneme)或類似水平的語音解碼。

進一步,研究者展示了ResNet因果解碼器在單個單詞級別上的性能,展示了兩位參與者(低密度采樣率ECoG)的數(shù)據(jù)。解碼后的頻譜圖準確保留了原始語音的頻譜-時間結(jié)構(gòu)(圖2c,d)。

研究人員還對比了神經(jīng)解碼器預測的語音參數(shù)與語音編碼器編碼的參數(shù)(作為參考值),研究者展示了幾個關(guān)鍵語音參數(shù)的平均PCC值(N=48),包括聲音權(quán)重(用于區(qū)分元音和輔音)、響度、音高f0、第一共振峰f1和第二共振峰f2。準確重建這些語音參數(shù),尤其是音高、聲音權(quán)重和前兩個共振峰,對于實現(xiàn)精確的語音解碼和自然地模仿參與者聲音的重建至關(guān)重要。

研究發(fā)現(xiàn)表明,無論是非因果還是因果模型,都能得到合理的解碼結(jié)果,這為未來的研究和應(yīng)用提供了積極的指引。

對左右大腦神經(jīng)信號語音解碼以及空間采樣率的研究

AI助力腦機接口研究,紐約大學突破性神經(jīng)語音解碼技術(shù),登Nature子刊

圖3:3D ResNet 和 3D Swin 模型不同設(shè)置下的解碼性能比較。(來源:論文)

研究者進一步對左右大腦半球的語音解碼結(jié)果進行了比較。多數(shù)研究集中關(guān)注主導語音和語言功能的左腦半球。然而,我們對于如何從右腦半球解碼語言信息知之甚少。針對這一點,研究者比較了參與者左右大腦半球的解碼表現(xiàn),以此驗證使用右腦半球進行語音恢復的可能性。

在研究收集的48位受試者中,有16位受試者的ECoG信號采集自右腦。通過對比 ResNet 和 Swin 解碼器的表現(xiàn),研究者發(fā)現(xiàn)右腦半球也能夠穩(wěn)定地進行語音解碼(ResNet 的 PCC值為 0.790,Swin 的 PCC值為 0.798),與左腦半球的解碼效果相差較?。ㄈ鐖D 3a 所示)。

這一發(fā)現(xiàn)同樣適用于 STOI 的評估。這意味著,對于左腦半球受損、失去語言能力的患者來說,利用右腦半球的神經(jīng)信號恢復語言也許是一個可行的方案。

接著,研究者探討了電極采樣密度對語音解碼效果的影響。之前的研究多采用較高密度的電極網(wǎng)格(0.4 mm),而臨床中通常使用的電極網(wǎng)格密度較低(LD 1 cm)。

有五位參與者使用了混合類型(HB)的電極網(wǎng)格(見圖 3b),這類網(wǎng)格雖然主要是低密度采樣,但其中加入了額外的電極。剩余的四十三位參與者都采用低密度采樣。這些混合采樣(HB)的解碼表現(xiàn)與傳統(tǒng)的低密度采樣(LD)相似,但在 STOI 上表現(xiàn)稍好。

研究者比較了僅利用低密度電極與使用所有混合電極進行解碼的效果,發(fā)現(xiàn)兩者之間的差異并不顯著(參見圖 3d),這表明模型能夠從不同空間采樣密度的大腦皮層中學習到語音信息,這也暗示臨床通常使用的采樣密度對于未來的腦機接口應(yīng)用也許是足夠的。

對于左右腦不同腦區(qū)對語音解碼貢獻度的研究

AI助力腦機接口研究,紐約大學突破性神經(jīng)語音解碼技術(shù),登Nature子刊
圖4:貢獻度分析。(來源:論文)

最后,研究者考察了大腦的語音相關(guān)區(qū)域在語音解碼過程中的貢獻程度,這對于未來在左右腦半球植入語音恢復設(shè)備提供了重要的參考。研究者采用了遮擋技術(shù)(occlusion analysis)來評估不同大腦區(qū)域?qū)φZ音解碼的貢獻度。

簡而言之,如果某個區(qū)域?qū)獯a至關(guān)重要,那么遮擋該區(qū)域的電極信號(即將信號設(shè)為零)會降低重構(gòu)語音的準確率(PCC值)。

通過這種方法,研究者測量了遮擋每個區(qū)域時,PCC值的減少情況。通過對比 ResNet 和 Swin 解碼器的因果與非因果模型發(fā)現(xiàn),聽覺皮層在非因果模型中的貢獻更大;這強調(diào)了在實時語音解碼應(yīng)用中,必須使用因果模型;因為在實時語音解碼中,我們無法利用神經(jīng)反饋信號。

此外,無論是在右腦還是左腦半球,傳感運動皮層尤其是腹部區(qū)域的貢獻度相似,這暗示在右半球植入神經(jīng)假肢也許是可行的。

結(jié)論&啟發(fā)展望

研究者開發(fā)了一個新型的可微分語音合成器,可以利用一個輕型的卷積神經(jīng)網(wǎng)絡(luò)將語音編碼為一系列可解釋的語音參數(shù)(如音高,響度,共振峰頻率等)并通過可微分語音合成器重新合成語音。

通過將神經(jīng)信號映射到這些語音參數(shù),研究者構(gòu)建了一個高度可解釋且可應(yīng)用于小數(shù)據(jù)量情形的神經(jīng)語音解碼系統(tǒng),可生成聽起來自然的語音。此方法在參與者間高度可復現(xiàn)(共48人),研究者成功展示了利用卷積和Transformer(3D Swin)架構(gòu)進行因果解碼的有效性,均優(yōu)于循環(huán)架構(gòu)(LSTM)。

該框架能夠處理高低不同空間采樣密度,并且可以處理左、右半球的腦電信號,顯示出了強大的語音解碼潛力。

大多數(shù)之前的研究沒有考慮到實時腦機接口應(yīng)用中解碼操作的時序因果性。許多非因果模型依賴于聽覺感覺反饋信號。研究者的分析顯示,非因果模型主要依賴于顳上回(superior temporal gyrus)的貢獻,而因果模型則基本消除了這一點。研究者認為,由于過分依賴反饋信號,非因果模型在實時BCI應(yīng)用中的通用性受限。

有些方法嘗試避開訓練中的反饋,如解碼受試者想象中的語音。盡管如此,大多數(shù)研究依然采用非因果模型,無法排除訓練和推斷過程中的反饋影響。此外,文獻中廣泛使用的循環(huán)神經(jīng)網(wǎng)絡(luò)通常是雙向的,導致非因果行為和預測延遲,而研究者的實驗表明,單向訓練的循環(huán)網(wǎng)絡(luò)表現(xiàn)最差。

盡管該研究并沒有測試實時解碼,但研究者實現(xiàn)了從神經(jīng)信號合成語音小于50毫秒的延遲,幾乎不影響聽覺延遲,允許正常語音產(chǎn)出。

研究中探討了是否更高密度的覆蓋能改善解碼性能。研究者發(fā)現(xiàn)低密度和高(混合)密度網(wǎng)格覆蓋都能實現(xiàn)高解碼性能(見圖 3c)。此外,研究者發(fā)現(xiàn)使用所有電極的解碼性能與僅使用低密度電極的性能沒有顯著差異(圖3d)。

這證明了只要圍顳覆蓋足夠,即使在低密度參與者中,研究者提出的ECoG解碼器也能夠從神經(jīng)信號中提取語音參數(shù)用于重建語音。另外一個顯著的發(fā)現(xiàn)是右半球皮質(zhì)結(jié)構(gòu)以及右圍顳皮層對語音解碼的貢獻。盡管以前的一些研究展示了對元音和句子的解碼中,右半球可能提供貢獻,研究者的結(jié)果提供了右半球中魯棒的語音表示的證據(jù)。

研究者還提到了目前模型的一些限制,比如解碼流程需要有與ECoG記錄配對的語音訓練數(shù)據(jù),這對失語患者可能不適用。未來,研究者也希望開發(fā)能處理非網(wǎng)格數(shù)據(jù)的模型架構(gòu),以及更好地利用多病人、多模態(tài)腦電數(shù)據(jù)。

本文第一作者:Xupeng Chen, Ran Wang,通訊作者:Adeen Flinker。

基金支持:National Science Foundation under Grant No. IIS-1912286, 2309057 (Y.W., A.F.) and National Institute of Health R01NS109367, R01NS115929, R01DC018805 (A.F.)

更多關(guān)于神經(jīng)語音解碼中的因果性討論,可以參考作者們的另一篇論文《Distributed feedforward and feedback cortical processing supports human speech production 》:https://www.pnas.org/doi/10.1073/pnas.2300255120

來源:腦機接口社區(qū)

以上是AI助力腦機接口研究,紐約大學突破性神經(jīng)語音解碼技術(shù),登Nature子刊的詳細內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻,版權(quán)歸原作者所有,本站不承擔相應(yīng)法律責任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機

Video Face Swap

Video Face Swap

使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

pycharm第一次打開教程 首次使用必看設(shè)置指南 pycharm第一次打開教程 首次使用必看設(shè)置指南 May 23, 2025 pm 10:48 PM

第一次打開PyCharm時,應(yīng)先創(chuàng)建新項目并選擇虛擬環(huán)境,然后熟悉編輯器區(qū)、工具欄、導航欄和狀態(tài)欄。設(shè)置Darcula主題和Consolas字體,利用智能提示和調(diào)試工具提高效率,并學習Git集成。

PHP中如何驗證社保號字符串? PHP中如何驗證社保號字符串? May 23, 2025 pm 08:21 PM

社保號驗證在PHP中通過正則表達式和簡單邏輯實現(xiàn)。1)使用正則表達式清理輸入,去除非數(shù)字字符。2)檢查字符串長度是否為18位。3)計算并驗證校驗位,確保與輸入的最后一位匹配。

git如何使用圖形化工具對比版本差異 git如何使用圖形化工具對比版本差異 May 22, 2025 pm 10:48 PM

有效使用圖形化工具對比Git版本差異的步驟包括:1.打開GitKraken并加載倉庫,2.選擇要對比的版本,3.查看差異,4.深入分析。圖形化工具如GitKraken提供了直觀的界面和豐富的功能,幫助開發(fā)者更深入地理解代碼的演變過程。

gitstatus查看倉庫狀態(tài)的深入解析 gitstatus查看倉庫狀態(tài)的深入解析 May 22, 2025 pm 10:54 PM

gitstatus命令用于顯示工作目錄和暫存區(qū)的狀態(tài)。1.它會檢查當前分支,2.比較工作目錄和暫存區(qū),3.比較暫存區(qū)和最后一次提交,4.檢查未跟蹤的文件,幫助開發(fā)者了解倉庫狀態(tài)并確保提交前無遺漏。

怎樣開發(fā)一個完整的PythonWeb應(yīng)用程序? 怎樣開發(fā)一個完整的PythonWeb應(yīng)用程序? May 23, 2025 pm 10:39 PM

要開發(fā)一個完整的PythonWeb應(yīng)用程序,應(yīng)遵循以下步驟:1.選擇合適的框架,如Django或Flask。2.集成數(shù)據(jù)庫,使用ORM如SQLAlchemy。3.設(shè)計前端,使用Vue或React。4.進行測試,使用pytest或unittest。5.部署應(yīng)用,使用Docker和平臺如Heroku或AWS。通過這些步驟,可以構(gòu)建出功能強大且高效的Web應(yīng)用。

PHP中如何驗證IMEISV字符串? PHP中如何驗證IMEISV字符串? May 28, 2025 pm 03:39 PM

在PHP中驗證IMEISV字符串需要以下步驟:1.使用正則表達式驗證16位數(shù)字格式。2.通過Luhn算法校驗IMEI部分的有效性。3.檢查軟件版本號的有效性。完整的驗證過程包括格式驗證、Luhn校驗和軟件版本號檢查,以確保IMEISV的有效性。

git如何在遠程倉庫上創(chuàng)建和刪除標簽 git如何在遠程倉庫上創(chuàng)建和刪除標簽 May 22, 2025 pm 10:33 PM

在遠程倉庫上創(chuàng)建標簽使用gitpushorigin,刪除標簽使用gitpushorigin--delete。具體步驟包括:1.創(chuàng)建本地標簽:gittagv1.0。2.推送到遠程:gitpushoriginv1.0。3.刪除本地標簽:gittag-dv1.0。4.刪除遠程標簽:gitpushorigin--deletev1.0。

VSCode 在處理多語言項目時的編碼設(shè)置與亂碼問題解決 VSCode 在處理多語言項目時的編碼設(shè)置與亂碼問題解決 May 22, 2025 pm 10:57 PM

VSCode解決多語言項目編碼和亂碼問題的方法包括:1.確保文件以正確編碼保存,使用“重新檢測編碼”功能;2.設(shè)置文件編碼為UTF-8并自動檢測編碼;3.控制是否添加BOM;4.使用“EncodingConverter”插件轉(zhuǎn)換編碼;5.利用多根工作區(qū)功能為不同子項目設(shè)置編碼;6.優(yōu)化性能,忽略不必要的文件監(jiān)控。通過這些步驟,可以有效處理多語言項目的編碼問題。

See all articles