放荡人妻1～19,r级无码视频在线观看,a级国产乱理论片在线观看

文本的統(tǒng)計(jì)分析是文本預(yù)處理的重要步驟之一。它可以幫助我們以一種深刻的數(shù)學(xué)方式理解文本數(shù)據(jù)。這種類型的分析可以幫助我們理解隱藏的模式，以及句子中特定單詞的重量，總體上有助於構(gòu)建良好的語言模型。 Pynlpl或我們稱其為菠蘿庫，是文本統(tǒng)計(jì)分析的最佳Python庫之一。該庫也可用於其他任務(wù)，例如清潔和分析文本，並提供文本預(yù)處理功能，例如Tokenizers，N-gram提取器等。此外，Pynlpl可用於構(gòu)建簡單的語言模型。

在此博客中，您將了解如何使用Pynlpl執(zhí)行文本分析。我們將首先了解在系統(tǒng)上安裝此庫的所有方法。接下來，我們將使用PYNLPL庫理解一詞共發(fā)生矩陣及其實(shí)現(xiàn)。之後，我們將學(xué)習(xí)如何創(chuàng)建頻率列表以識別最重複的單詞。接下來，我們將執(zhí)行文本分佈分析，以衡量兩個文本文檔或字符串之間的相似性。最後，我們將使用此庫理解併計(jì)算Leveshtein的距離。您可以獨(dú)自關(guān)注並編碼，也可以單擊此鏈接中的“複製和編輯”按鈕即可執(zhí)行所有程序。

學(xué)習(xí)目標(biāo)

了解如何通過所有可用方法詳細(xì)安裝此庫。
了解如何創(chuàng)建一個術(shù)語共發(fā)生矩陣來分析單詞關(guān)係。
學(xué)會執(zhí)行常用任務(wù)，例如生成頻率列表和計(jì)算Levenshtein距離。
學(xué)會執(zhí)行高級任務(wù)，例如進(jìn)行文本分配分析和衡量文檔相似性。

本文作為數(shù)據(jù)科學(xué)博客馬拉鬆的一部分發(fā)表。

如何安裝pynlpl？

我們可以以兩種方式安裝此庫，首先使用PYPI，然後使用GitHub安裝。

通過PYPI

使用pypi粘貼在您的終端中安裝下面的命令。

 PIP安裝pynlpl

如果您使用的是Jupyter筆記本，Kaggle Notebook或Google Colab之類的筆記本，請?zhí)砑印?！”在上述命令之前?/p>

通過github

要使用GitHub安裝此庫，請使用以下命令將官方Pynlpl存儲庫克隆到您的系統(tǒng)中。

 git克隆https://github.com/proycon/pynlpl.git

然後使用“ CD”將終端的目錄更改為此文件夾，然後將以下命令粘貼到安裝庫。

 python3設(shè)置。 py安裝

如何使用pynlpl進(jìn)行文本分析？

現(xiàn)在讓我們探討如何使用Pynlpl進(jìn)行文本分析。

術(shù)語共發(fā)生矩陣

術(shù)語共發(fā)生矩陣（TCM）是一種統(tǒng)計(jì)方法，可以識別單詞與文本中另一個特定單詞共同相關(guān)的頻率。該矩陣有助於我們了解單詞之間的關(guān)係，並可以揭示有用的隱藏模式。它通常用於構(gòu)建文本摘要中，因?yàn)樗峁┝丝梢詭椭a(chǎn)生簡潔摘要的單詞之間的關(guān)係?，F(xiàn)在，讓我們看看如何使用Pynlpl庫構(gòu)建此矩陣。

我們將首先從pynlpl.Statistics導(dǎo)入頻列函數(shù)，該功能用於計(jì)算在文本中重複一個單詞的次數(shù)。我們將在以後的部分中更詳細(xì)地探討這一點(diǎn)。此外，我們將從集合模塊中導(dǎo)入默認(rèn)方法。接下來，我們將創(chuàng)建一個名為create_cooccurrence_matrix的函數(shù)，該函數(shù)獲取文本輸入和窗口大小，並返回矩陣。在此功能中，我們將首先將文本分為單個單詞，並使用DefaultDict創(chuàng)建一個共發(fā)生矩陣。對於文本中的每個單詞，我們將在指定的窗口大小中識別其上下文單詞，並更新共發(fā)生矩陣。最後，我們將打印矩陣並顯示每個項(xiàng)的頻率。

從pynlpl.Statistics導(dǎo)入頻列表
從集合導(dǎo)入違約

def create_cooccurrence_matrix（text，window_size = 2）：
    單詞= text.split（）
    COOCCURRENCE_MATRIX = DEFAULTDICT（fryserlist）
    
    對於我，列舉中的單詞（單詞）：
        start = max（i -window_size，0）
        end = min（i window_size 1，len（單詞））
        context =單詞[start：i]單詞[i 1：end]
        
        對於上下文中的Context_word：
            cooccurrence_matrix [word.lower（）]。 count（context_word.lower（））
    
    返回Cooccurrence_matrix

text =“你好，這是分析性的vidhya，到目前為止，您正在做得很好。探索數(shù)據(jù)科學(xué)主題。分析Vidhya是學(xué)習(xí)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的絕佳平臺?！?
＃創(chuàng)建術(shù)語共發(fā)生矩陣
Cooccurrence_matrix = create_cooccurrence_matrix（text）

＃打印一詞共發(fā)生矩陣
打印（“術(shù)語共發(fā)生矩陣：”）
對於術(shù)語，context_freq_list in Cooccurrence_matrix.items（）：
    打印（f“ {term}：{dict（context_freq_list）}”）

輸出：

使用pynlpl庫的文本統(tǒng)計(jì)分析

頻率列表

頻率列表將包含在文檔或段落中重複特定單詞的次數(shù)。這是一個有用的功能，可以理解整個文檔的主要主題和上下文。我們通常在語言學(xué)，信息檢索和文本挖掘等領(lǐng)域中使用頻率列表。例如，搜索引擎使用頻率列表來對網(wǎng)頁進(jìn)行排名。我們還可以將其用作營銷策略來分析產(chǎn)品評論並了解產(chǎn)品的主要公眾情感。

現(xiàn)在，讓我們看看如何使用Pynlpl庫創(chuàng)建此頻率列表。我們將首先從pynlpl.statistics導(dǎo)入頻列函數(shù)。然後，我們將將示例文本帶入變量中，然後將整個文本分為單個單詞。然後，我們將將此“單詞”變量傳遞到頻列函數(shù)中。最後，我們將遍歷頻率列表中的項(xiàng)目，並打印每個單詞及其相應(yīng)的頻率。

從pynlpl.Statistics導(dǎo)入頻列表

text =“你好，這是分析性的vidhya，到目前為止，您正在做得很好。探索數(shù)據(jù)科學(xué)主題。分析Vidhya是學(xué)習(xí)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的絕佳平臺。”

單詞= text.lower（）。 split（）

freq_list = firenserlist（單詞）

對於Word，freq_list.items（）中的freq：
    print（f“ {word}：{freq}”）

輸出：

使用pynlpl庫的文本統(tǒng)計(jì)分析

文本分配分析

在文本分佈分析中，我們計(jì)算句子中單詞的頻率和概率分佈，以了解構(gòu)成句子上下文的哪個單詞。通過計(jì)算單詞頻率的分佈，我們可以識別最常見的單詞及其統(tǒng)計(jì)屬性，例如熵，困惑，模式和最大熵。讓我們一一了解這些屬性：

熵：熵是分佈中隨機(jī)性的度量。在文本數(shù)據(jù)方面，較高的熵意味著文本具有廣泛的詞彙範(fàn)圍，並且單詞不再重複。
困惑：困惑是語言模型在樣本數(shù)據(jù)上的預(yù)測程度的度量。如果困惑性較低，則文本遵循可預(yù)測的模式。
模式：由於我們從小就學(xué)到了這個學(xué)期，因此它告訴我們文本中最重複的單詞。
最大熵：此屬性告訴我們文本可以擁有的最大熵。這意味著它提供了一個參考點(diǎn)來比較分佈的實(shí)際熵。

我們還可以計(jì)算特定單詞的信息內(nèi)容，這意味著我們可以計(jì)算單詞提供的信息量。

使用pynlpl實(shí)施

現(xiàn)在，讓我們看看如何使用pynlpl實(shí)施所有這些。

我們將從pynlpl.Statistic模塊和數(shù)學(xué)模塊中導(dǎo)入分佈和頻列函數(shù)。接下來，我們將創(chuàng)建一個示例文本，併計(jì)算該文本中每個單詞的頻率。為此，我們將遵循與上面相同的步驟。然後，我們將通過傳遞頻率列表來創(chuàng)建分佈函數(shù)的對象。然後，我們將通過循環(huán)瀏覽分佈變量的項(xiàng)目來顯示每個單詞的分佈。要計(jì)算熵，我們將調(diào)用分佈。 entropy（）函數(shù)。

要計(jì)算困惑，我們將調(diào)用分佈。 perplexity（）。對於模式，我們將調(diào)用Distributs.mode（）。為了計(jì)算最大熵，我們將調(diào)用分佈。 maxentRopy（）。最後，要獲取特定單詞的信息內(nèi)容，我們將調(diào)用分佈。信息（word）。在下面的示例中，我們將將模式單詞作為參數(shù)傳遞給此函數(shù)。

導(dǎo)入數(shù)學(xué)
從pynlpl.Statistics進(jìn)口分佈，頻率清單

text =“你好，這是分析性的vidhya，到目前為止，您正在做得很好。探索數(shù)據(jù)科學(xué)主題。分析Vidhya是學(xué)習(xí)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的絕佳平臺?！?
＃計(jì)數(shù)單詞頻率
單詞= text.lower（）。 split（）

freq_list = firenserlist（單詞）
word_counts = dict（freq_list.items（））

＃從單詞頻率創(chuàng)建分發(fā)對象
分銷=分佈（Word_counts）

＃顯示分佈
打?。ā鞍l(fā)行：”）
對於單詞，概率分配。 ITEMS（）：
    print（f“ {word}：{prob：.4f}”）

＃各種統(tǒng)計(jì)
打?。ā?\ nstatistics：”）
print（f“熵：{distribal.entropy（）：。4f}”）
print（f“困惑：{distribut.perplexity（）：。4f}”）
print（f“模式：{distributs.mode（）}”）
打?。╢“最大熵：{Distribal.maxentropy（）：。4f}”）

＃“模式”單詞的信息內(nèi)容
Word = Distribut.Mode（）
信息_content =發(fā)行。
print（f“ {word}'的信息內(nèi)容：{inovery_content：.4f}”）

輸出：

使用pynlpl庫的文本統(tǒng)計(jì)分析

Levenshtein距離

Levenshtein距離是兩個單詞之間差異的度量。它計(jì)算兩個單詞相同需要進(jìn)行多少個單字符更改。它根據(jù)單詞中字符的插入，刪除或替換來計(jì)算。此距離度量通常用於檢查拼寫，DNA序列分析和自然語言處理任務(wù)，例如文本相似性，我們將在下一節(jié)中實(shí)現(xiàn)，並且可以用於構(gòu)建pla竊檢測器。通過計(jì)算Levenshtein的距離，我們可以理解兩個單詞之間的關(guān)係，我們可以分辨兩個單詞是否相似。如果Levenshtein的距離非常小，那麼這些單詞可能具有相同的含義或上下文，如果它非常高，則意味著它們完全不同。

為了計(jì)算此距離，我們將首先從pynlpl.Statistic模塊導(dǎo)入Levenshtein函數(shù)。然後，我們將定義兩個單詞：“分析”和“分析”。接下來，我們將將這些單詞傳遞到Levenshtein函數(shù)中，該功能將返回距離值。如您在輸出中所見，這兩個單詞之間的Levenshtein距離是2，這意味著將“分析”轉(zhuǎn)換為“分析”僅需兩個單字符編輯。第一個編輯是將字符“ t ”用“分析”中的“ s ”代替，第二個編輯是在“分析”中刪除index 8的字符“ c ”。

從Pynlpl.Statistics進(jìn)口Levenshtein

Word1 =“分析”
Word2 =“分析”
距離= Levenshtein（Word1，Word2）
    
print（f“'{word1}'和'{word2}'：{distand}”之間的levenshtein距離

輸出：

使用pynlpl庫的文本統(tǒng)計(jì)分析

測量文件相似性

在許多應(yīng)用程序中衡量如何相似的兩個文檔或句子可以有用。它使我們能夠了解這兩個文檔的密切相關(guān)。該技術(shù)用於許多應(yīng)用程序，例如竊棋子檢查器，代碼差異檢查器等。通過分析兩個文檔的相似之處，我們可以識別副本。這也可以在推薦系統(tǒng)中使用，其中向用戶A顯示的搜索結(jié)果可以向輸入相同查詢的用戶B顯示。

現(xiàn)在，為了實(shí)施此功能，我們將使用餘弦相似性度量。首先，我們將導(dǎo)入兩個函數(shù)：從pynlpl庫中的頻列和數(shù)學(xué)模塊的SQRT。現(xiàn)在，我們將在兩個變量中添加兩個字符串，代替僅字符串，我們也可以打開兩個文本文檔。接下來，我們將通過將它們傳遞到我們之前導(dǎo)入的頻列函數(shù)來創(chuàng)建這些字符串的頻率列表。然後，我們將編寫一個名為Cosine_simarlity的函數(shù)，其中我們將通過這兩個頻率列表作為輸入。在此功能中，我們將首先從頻率列表中創(chuàng)建向量，然後計(jì)算這些向量之間的角度的餘弦，從而提供其相似性的度量。最後，我們將調(diào)用該功能並打印結(jié)果。

從pynlpl.Statistics導(dǎo)入頻列表
從數(shù)學(xué)導(dǎo)入sqrt

doc1 =“ Analytics Vidhya為數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)提供了寶貴的見解和教程?！?doc2 =“如果您想要有關(guān)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的教程，請查看分析Vidhya?！?
＃為兩個文檔創(chuàng)建頻列對象
FREQ_LIST1 = fircellist（doc1.lower（）。split（））
FREQ_LIST2 = fircellist（doc2.lower（）。split（））

def cosine_simurility（freq_list1，freq_list2）：
    vec1 = {word：freq_list1 [word] for Word，_ in freq_list1}
    vec2 = {word：freq_list2 [word] for Word，_ in freq_list2}

    交點(diǎn)= set（vec1.keys（））＆set（vec2.keys（））
    分子= sum（vec1 [word] * vec2 [word] for introsection中的單詞）

    sum1 = sum（vec1 [word] ** 2 for vec1.keys（）中的單詞）
    sum2 = sum（vec2 [word] ** 2 for vec2.keys（）中的單詞）
    分母= sqrt（sum1） * sqrt（sum2）

    如果不是分母：
        返回0.0
    返回float（分子） /分母

＃計(jì)算餘弦相似性
相似性= cosine_simurarity（freq_list1，freq_list2）
打?。╢“餘弦相似性：{相似：.4f}”）

輸出：

使用pynlpl庫的文本統(tǒng)計(jì)分析

結(jié)論

Pynlpl是一個強(qiáng)大的庫，我們可以執(zhí)行文本統(tǒng)計(jì)分析。不僅文本分析，我們還可以將此庫用於某些文本預(yù)處理技術(shù)，例如令牌化，詞幹，n-gram提取，甚至構(gòu)建一些簡單的語言模型。在此博客中，我們首先了解了安裝此庫的所有方法，然後我們使用該庫執(zhí)行各種任務(wù)，例如實(shí)現(xiàn)術(shù)語共存矩陣，創(chuàng)建頻率列表以識別常見單詞，執(zhí)行文本分佈分析，並了解如何計(jì)算LevenShtein距離，併計(jì)算文檔相似性。這些技術(shù)中的每一個都可以用來從我們的文本數(shù)據(jù)中提取有價(jià)值的見解，使其成為有價(jià)值的庫。下次您進(jìn)行文本分析時，請考慮嘗試Pynlpl（菠蘿）庫。