国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
介紹
學(xué)習(xí)目標(biāo)
目錄
如何安裝pynlpl?
通過PYPI
通過github
如何使用pynlpl進(jìn)行文本分析?
術(shù)語共發(fā)生矩陣
頻率列表
文本分配分析
使用pynlpl實施
Levenshtein距離
測量文件相似性
結(jié)論
關(guān)鍵要點
常見問題
首頁 科技周邊 人工智能 使用pynlpl庫的文本統(tǒng)計分析

使用pynlpl庫的文本統(tǒng)計分析

Apr 20, 2025 am 09:29 AM

介紹

文本的統(tǒng)計分析是文本預(yù)處理的重要步驟之一。它可以幫助我們以一種深刻的數(shù)學(xué)方式理解文本數(shù)據(jù)。這種類型的分析可以幫助我們理解隱藏的模式,以及句子中特定單詞的重量,總體上有助于構(gòu)建良好的語言模型。 Pynlpl或我們稱其為菠蘿庫,是文本統(tǒng)計分析的最佳Python庫之一。該庫也可用于其他任務(wù),例如清潔和分析文本,并提供文本預(yù)處理功能,例如Tokenizers,N-gram提取器等。此外,Pynlpl可用于構(gòu)建簡單的語言模型。

在此博客中,您將了解如何使用Pynlpl執(zhí)行文本分析。我們將首先了解在系統(tǒng)上安裝此庫的所有方法。接下來,我們將使用PYNLPL庫理解一詞共發(fā)生矩陣及其實現(xiàn)。之后,我們將學(xué)習(xí)如何創(chuàng)建頻率列表以識別最重復(fù)的單詞。接下來,我們將執(zhí)行文本分布分析,以衡量兩個文本文檔或字符串之間的相似性。最后,我們將使用此庫理解并計算Leveshtein的距離。您可以獨自關(guān)注并編碼,也可以單擊此鏈接中的“復(fù)制和編輯”按鈕即可執(zhí)行所有程序。

學(xué)習(xí)目標(biāo)

  • 了解如何通過所有可用方法詳細(xì)安裝此庫。
  • 了解如何創(chuàng)建一個術(shù)語共發(fā)生矩陣來分析單詞關(guān)系。
  • 學(xué)會執(zhí)行常用任務(wù),例如生成頻率列表和計算Levenshtein距離。
  • 學(xué)會執(zhí)行高級任務(wù),例如進(jìn)行文本分配分析和衡量文檔相似性。

本文作為數(shù)據(jù)科學(xué)博客馬拉松的一部分發(fā)表。

目錄

  • 如何安裝pynlpl?
  • 如何使用pynlpl進(jìn)行文本分析?
    • 術(shù)語共發(fā)生矩陣
    • 頻率列表
    • 文本分配分析
    • Levenshtein距離
    • 測量文件相似性
  • 常見問題

如何安裝pynlpl?

我們可以以兩種方式安裝此庫,首先使用PYPI,然后使用GitHub安裝。

通過PYPI

使用pypi粘貼在您的終端中安裝下面的命令。

 PIP安裝pynlpl

如果您使用的是Jupyter筆記本,Kaggle Notebook或Google Colab之類的筆記本,請?zhí)砑印埃 痹谏鲜雒钪啊?/p>

通過github

要使用GitHub安裝此庫,請使用以下命令將官方Pynlpl存儲庫克隆到您的系統(tǒng)中。

 git克隆https://github.com/proycon/pynlpl.git

然后使用“ CD”將終端的目錄更改為此文件夾,然后將以下命令粘貼到安裝庫。

 python3設(shè)置。py安裝

如何使用pynlpl進(jìn)行文本分析?

現(xiàn)在讓我們探討如何使用Pynlpl進(jìn)行文本分析。

術(shù)語共發(fā)生矩陣

術(shù)語共發(fā)生矩陣(TCM)是一種統(tǒng)計方法,可以識別單詞與文本中另一個特定單詞共同相關(guān)的頻率。該矩陣有助于我們了解單詞之間的關(guān)系,并可以揭示有用的隱藏模式。它通常用于構(gòu)建文本摘要中,因為它提供了可以幫助產(chǎn)生簡潔摘要的單詞之間的關(guān)系。現(xiàn)在,讓我們看看如何使用Pynlpl庫構(gòu)建此矩陣。

我們將首先從pynlpl.Statistics導(dǎo)入頻列函數(shù),該功能用于計算在文本中重復(fù)一個單詞的次數(shù)。我們將在以后的部分中更詳細(xì)地探討這一點。此外,我們將從集合模塊中導(dǎo)入默認(rèn)方法。接下來,我們將創(chuàng)建一個名為create_cooccurrence_matrix的函數(shù),該函數(shù)獲取文本輸入和窗口大小,并返回矩陣。在此功能中,我們將首先將文本分為單個單詞,并使用DefaultDict創(chuàng)建一個共發(fā)生矩陣。對于文本中的每個單詞,我們將在指定的窗口大小中識別其上下文單詞,并更新共發(fā)生矩陣。最后,我們將打印矩陣并顯示每個項的頻率。

從pynlpl.Statistics導(dǎo)入頻列表
從集合導(dǎo)入違約

def create_cooccurrence_matrix(text,window_size = 2):
    單詞= text.split()
    COOCCURRENCE_MATRIX = DEFAULTDICT(fryserlist)
    
    對于我,列舉中的單詞(單詞):
        start = max(i -window_size,0)
        end = min(i window_size 1,len(單詞))
        context =單詞[start:i]單詞[i 1:end]
        
        對于上下文中的Context_word:
            cooccurrence_matrix [word.lower()]。count(context_word.lower())
    
    返回Cooccurrence_matrix

text =“你好,這是分析性的vidhya,到目前為止,您正在做得很好。探索數(shù)據(jù)科學(xué)主題。分析Vidhya是學(xué)習(xí)數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的絕佳平臺?!?
#創(chuàng)建術(shù)語共發(fā)生矩陣
Cooccurrence_matrix = create_cooccurrence_matrix(text)

#打印一詞共發(fā)生矩陣
打?。ā靶g(shù)語共發(fā)生矩陣:”)
對于術(shù)語,context_freq_list in Cooccurrence_matrix.items():
    打印(f“ {term}:{dict(context_freq_list)}”)

輸出:

使用pynlpl庫的文本統(tǒng)計分析

頻率列表

頻率列表將包含在文檔或段落中重復(fù)特定單詞的次數(shù)。這是一個有用的功能,可以理解整個文檔的主要主題和上下文。我們通常在語言學(xué),信息檢索和文本挖掘等領(lǐng)域中使用頻率列表。例如,搜索引擎使用頻率列表來對網(wǎng)頁進(jìn)行排名。我們還可以將其用作營銷策略來分析產(chǎn)品評論并了解產(chǎn)品的主要公眾情感。

現(xiàn)在,讓我們看看如何使用Pynlpl庫創(chuàng)建此頻率列表。我們將首先從pynlpl.statistics導(dǎo)入頻列函數(shù)。然后,我們將將示例文本帶入變量中,然后將整個文本分為單個單詞。然后,我們將將此“單詞”變量傳遞到頻列函數(shù)中。最后,我們將遍歷頻率列表中的項目,并打印每個單詞及其相應(yīng)的頻率。

從pynlpl.Statistics導(dǎo)入頻列表

text =“你好,這是分析性的vidhya,到目前為止,您正在做得很好。探索數(shù)據(jù)科學(xué)主題。分析Vidhya是學(xué)習(xí)數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的絕佳平臺。”

單詞= text.lower()。split()

freq_list = firenserlist(單詞)

對于Word,freq_list.items()中的freq:
    print(f“ {word}:{freq}”)

輸出:

使用pynlpl庫的文本統(tǒng)計分析

文本分配分析

在文本分布分析中,我們計算句子中單詞的頻率和概率分布,以了解構(gòu)成句子上下文的哪個單詞。通過計算單詞頻率的分布,我們可以識別最常見的單詞及其統(tǒng)計屬性,例如熵,困惑,模式和最大熵。讓我們一一了解這些屬性:

  • :熵是分布中隨機性的度量。在文本數(shù)據(jù)方面,較高的熵意味著文本具有廣泛的詞匯范圍,并且單詞不再重復(fù)。
  • 困惑:困惑是語言模型在樣本數(shù)據(jù)上的預(yù)測程度的度量。如果困惑性較低,則文本遵循可預(yù)測的模式。
  • 模式:由于我們從小就學(xué)到了這個學(xué)期,因此它告訴我們文本中最重復(fù)的單詞。
  • 最大熵:此屬性告訴我們文本可以擁有的最大熵。這意味著它提供了一個參考點來比較分布的實際熵。

我們還可以計算特定單詞的信息內(nèi)容,這意味著我們可以計算單詞提供的信息量。

使用pynlpl實施

現(xiàn)在,讓我們看看如何使用pynlpl實施所有這些。

我們將從pynlpl.Statistic模塊和數(shù)學(xué)模塊中導(dǎo)入分布和頻列函數(shù)。接下來,我們將創(chuàng)建一個示例文本,并計算該文本中每個單詞的頻率。為此,我們將遵循與上面相同的步驟。然后,我們將通過傳遞頻率列表來創(chuàng)建分布函數(shù)的對象。然后,我們將通過循環(huán)瀏覽分布變量的項目來顯示每個單詞的分布。要計算熵,我們將調(diào)用分布。entropy()函數(shù)。

要計算困惑,我們將調(diào)用分布。perplexity()。對于模式,我們將調(diào)用Distributs.mode()。為了計算最大熵,我們將調(diào)用分布。maxentRopy()。最后,要獲取特定單詞的信息內(nèi)容,我們將調(diào)用分布。信息(word)。在下面的示例中,我們將將模式單詞作為參數(shù)傳遞給此函數(shù)。

導(dǎo)入數(shù)學(xué)
從pynlpl.Statistics進(jìn)口分布,頻率清單

text =“你好,這是分析性的vidhya,到目前為止,您正在做得很好。探索數(shù)據(jù)科學(xué)主題。分析Vidhya是學(xué)習(xí)數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的絕佳平臺?!?
#計數(shù)單詞頻率
單詞= text.lower()。split()

freq_list = firenserlist(單詞)
word_counts = dict(freq_list.items())

#從單詞頻率創(chuàng)建分發(fā)對象
分銷=分布(Word_counts)

#顯示分布
打印(“發(fā)行:”)
對于單詞,概率分配。ITEMS():
    print(f“ {word}:{prob:.4f}”)

#各種統(tǒng)計
打?。ā?\ nstatistics:”)
print(f“熵:{distribal.entropy():。4f}”)
print(f“困惑:{distribut.perplexity():。4f}”)
print(f“模式:{distributs.mode()}”)
打?。╢“最大熵:{Distribal.maxentropy():。4f}”)

?!澳J健眴卧~的信息內(nèi)容
Word = Distribut.Mode()
信息_content =發(fā)行。
print(f“ {word}'的信息內(nèi)容:{inovery_content:.4f}”)

輸出:

使用pynlpl庫的文本統(tǒng)計分析

Levenshtein距離

Levenshtein距離是兩個單詞之間差異的度量。它計算兩個單詞相同需要進(jìn)行多少個單字符更改。它根據(jù)單詞中字符的插入,刪除或替換來計算。此距離度量通常用于檢查拼寫,DNA序列分析和自然語言處理任務(wù),例如文本相似性,我們將在下一節(jié)中實現(xiàn),并且可以用于構(gòu)建pla竊檢測器。通過計算Levenshtein的距離,我們可以理解兩個單詞之間的關(guān)系,我們可以分辨兩個單詞是否相似。如果Levenshtein的距離非常小,那么這些單詞可能具有相同的含義或上下文,如果它非常高,則意味著它們完全不同。

為了計算此距離,我們將首先從pynlpl.Statistic模塊導(dǎo)入Levenshtein函數(shù)。然后,我們將定義兩個單詞:“分析”和“分析”。接下來,我們將將這些單詞傳遞到Levenshtein函數(shù)中,該功能將返回距離值。如您在輸出中所見,這兩個單詞之間的Levenshtein距離是2,這意味著將“分析”轉(zhuǎn)換為“分析”僅需兩個單字符編輯。第一個編輯是將字符“ t ”用“分析”中的“ s ”代替,第二個編輯是在“分析”中刪除index 8的字符“ c ”。

從Pynlpl.Statistics進(jìn)口Levenshtein

Word1 =“分析”
Word2 =“分析”
距離= Levenshtein(Word1,Word2)
    
print(f“'{word1}'和'{word2}':{distand}”之間的levenshtein距離

輸出:

使用pynlpl庫的文本統(tǒng)計分析

測量文件相似性

在許多應(yīng)用程序中衡量如何相似的兩個文檔或句子可以有用。它使我們能夠了解這兩個文檔的密切相關(guān)。該技術(shù)用于許多應(yīng)用程序,例如竊棋子檢查器,代碼差異檢查器等。通過分析兩個文檔的相似之處,我們可以識別副本。這也可以在推薦系統(tǒng)中使用,其中向用戶A顯示的搜索結(jié)果可以向輸入相同查詢的用戶B顯示。

現(xiàn)在,為了實施此功能,我們將使用余弦相似性度量。首先,我們將導(dǎo)入兩個函數(shù):從pynlpl庫中的頻列和數(shù)學(xué)模塊的SQRT?,F(xiàn)在,我們將在兩個變量中添加兩個字符串,代替僅字符串,我們也可以打開兩個文本文檔。接下來,我們將通過將它們傳遞到我們之前導(dǎo)入的頻列函數(shù)來創(chuàng)建這些字符串的頻率列表。然后,我們將編寫一個名為Cosine_simarlity的函數(shù),其中我們將通過這兩個頻率列表作為輸入。在此功能中,我們將首先從頻率列表中創(chuàng)建向量,然后計算這些向量之間的角度的余弦,從而提供其相似性的度量。最后,我們將調(diào)用該功能并打印結(jié)果。

從pynlpl.Statistics導(dǎo)入頻列表
從數(shù)學(xué)導(dǎo)入sqrt

doc1 =“ Analytics Vidhya為數(shù)據(jù)科學(xué)和機器學(xué)習(xí)提供了寶貴的見解和教程。”
doc2 =“如果您想要有關(guān)數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的教程,請查看分析Vidhya?!?
#為兩個文檔創(chuàng)建頻列對象
FREQ_LIST1 = fircellist(doc1.lower()。split())
FREQ_LIST2 = fircellist(doc2.lower()。split())

def cosine_simurility(freq_list1,freq_list2):
    vec1 = {word:freq_list1 [word] for Word,_ in freq_list1}
    vec2 = {word:freq_list2 [word] for Word,_ in freq_list2}

    交點= set(vec1.keys())&set(vec2.keys())
    分子= sum(vec1 [word] * vec2 [word] for introsection中的單詞)

    sum1 = sum(vec1 [word] ** 2 for vec1.keys()中的單詞)
    sum2 = sum(vec2 [word] ** 2 for vec2.keys()中的單詞)
    分母= sqrt(sum1) * sqrt(sum2)

    如果不是分母:
        返回0.0
    返回float(分子) /分母

#計算余弦相似性
相似性= cosine_simurarity(freq_list1,freq_list2)
打?。╢“余弦相似性:{相似:.4f}”)

輸出:

使用pynlpl庫的文本統(tǒng)計分析

結(jié)論

Pynlpl是一個強大的庫,我們可以執(zhí)行文本統(tǒng)計分析。不僅文本分析,我們還可以將此庫用于某些文本預(yù)處理技術(shù),例如令牌化,詞干,n-gram提取,甚至構(gòu)建一些簡單的語言模型。在此博客中,我們首先了解了安裝此庫的所有方法,然后我們使用該庫執(zhí)行各種任務(wù),例如實現(xiàn)術(shù)語共存矩陣,創(chuàng)建頻率列表以識別常見單詞,執(zhí)行文本分布分析,并了解如何計算LevenShtein距離,并計算文檔相似性。這些技術(shù)中的每一個都可以用來從我們的文本數(shù)據(jù)中提取有價值的見解,使其成為有價值的庫。下次您進(jìn)行文本分析時,請考慮嘗試Pynlpl(菠蘿)庫。

關(guān)鍵要點

  • Pynlpl(菠蘿)庫是文本統(tǒng)計分析的最佳庫之一。
  • “共存在矩陣”一詞有助于我們了解單詞之間的關(guān)系,并且在構(gòu)建摘要中可能有用。
  • 頻率列表可用于了解文本或文檔的主要主題。
  • 文本分配分析和Levenshtein距離可以幫助我們了解文本相似性。
  • 我們還可以使用PYNLPL庫進(jìn)行文本預(yù)處理,而不僅僅是用于文本統(tǒng)計分析。

常見問題

Q1。什么是pynlpl?

A. pynlpl,也稱為菠蘿,是一個用于文本統(tǒng)計分析和文本預(yù)處理的Python庫。

Q2。衡量文件相似性有什么好處?

答:這項技術(shù)使我們能夠衡量兩個文檔或文本的相似性,并且可以在竊式檢查器,代碼差檢查器等中使用。

Q3。術(shù)語共發(fā)生矩陣使用了什么?

答:術(shù)語共發(fā)生矩陣可用于識別文檔中兩個單詞共發(fā)生的頻率。

Q4。 Levenshtein距離如何有用?

答:我們可以使用Levenshtein距離來找到兩個單詞之間的差異,這對于構(gòu)建咒語檢查器很有用。

本文所示的媒體不由Analytics Vidhya擁有,并由作者酌情使用。

以上是使用pynlpl庫的文本統(tǒng)計分析的詳細(xì)內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機

Video Face Swap

Video Face Swap

使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

前7個筆記本替代品 前7個筆記本替代品 Jun 17, 2025 pm 04:32 PM

Google的NotebookLM是由Gemini 2.5提供動力的智能AI筆記工具,它在匯總文檔方面表現(xiàn)出色。但是,它在工具使用方面仍然有局限性,例如源蓋,云依賴性和最近的“發(fā)現(xiàn)”功能

從采用到優(yōu)勢:2025年塑造企業(yè)LLM的10個趨勢 從采用到優(yōu)勢:2025年塑造企業(yè)LLM的10個趨勢 Jun 20, 2025 am 11:13 AM

以下是重塑企業(yè)AI景觀的十種引人注目的趨勢。對LLMSorganizations的財務(wù)承諾正在大大增加其在LLMS的投資,其中72%的人預(yù)計他們的支出今年會增加。目前,近40%a

AI投資者停滯不前? 3條購買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨特性的衰落,以AI為中心的風(fēng)險投資的投資者必須做出關(guān)鍵決定:購買,建立或合作伙伴才能獲得優(yōu)勢?這是評估每個選項和PR的方法

生成AI的不可阻擋的增長(AI Outlook第1部分) 生成AI的不可阻擋的增長(AI Outlook第1部分) Jun 21, 2025 am 11:11 AM

披露:我的公司Tirias Research已向IBM,NVIDIA和本文提到的其他公司咨詢。Growth驅(qū)動力的生成AI采用的激增比最樂觀的預(yù)測更具戲劇性。然后,

這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 Jun 20, 2025 am 11:16 AM

由于AI,那些日子是編號的。根據(jù)一個螺柱,搜索企業(yè)諸如Travel網(wǎng)站皮劃艇和Edtech Company Chegg之類的企業(yè)正在下降,部分原因是60%的網(wǎng)站搜索不會導(dǎo)致用戶單擊任何鏈接。

新蓋洛普報告:AI文化準(zhǔn)備就緒需要新的心態(tài) 新蓋洛普報告:AI文化準(zhǔn)備就緒需要新的心態(tài) Jun 19, 2025 am 11:16 AM

廣泛采用和情感準(zhǔn)備之間的差距揭示了人類如何與越來越多的數(shù)字伴侶互動。我們正在進(jìn)入共存階段,算法編織到我們的日常現(xiàn)場

AGI和AI超級智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 AGI和AI超級智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來談?wù)劇? 對創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI復(fù)雜性(請參閱此處的鏈接)。 前往Agi和

思科在美國2025 思科在美國2025 Jun 19, 2025 am 11:10 AM

讓我們仔細(xì)研究一下我發(fā)現(xiàn)的最重要的東西,以及思科如何以其目前的努力來進(jìn)一步實現(xiàn)其野心。

See all articles