国产l精品国产亚洲区在线观看,大荫蒂黑又大毛茸茸高清

文本的統(tǒng)計分析是文本預(yù)處理的重要步驟之一。它可以幫助我們以一種深刻的數(shù)學(xué)方式理解文本數(shù)據(jù)。這種類型的分析可以幫助我們理解隱藏的模式，以及句子中特定單詞的重量，總體上有助于構(gòu)建良好的語言模型。 Pynlpl或我們稱其為菠蘿庫，是文本統(tǒng)計分析的最佳Python庫之一。該庫也可用于其他任務(wù)，例如清潔和分析文本，并提供文本預(yù)處理功能，例如Tokenizers，N-gram提取器等。此外，Pynlpl可用于構(gòu)建簡單的語言模型。

在此博客中，您將了解如何使用Pynlpl執(zhí)行文本分析。我們將首先了解在系統(tǒng)上安裝此庫的所有方法。接下來，我們將使用PYNLPL庫理解一詞共發(fā)生矩陣及其實現(xiàn)。之后，我們將學(xué)習(xí)如何創(chuàng)建頻率列表以識別最重復(fù)的單詞。接下來，我們將執(zhí)行文本分布分析，以衡量兩個文本文檔或字符串之間的相似性。最后，我們將使用此庫理解并計算Leveshtein的距離。您可以獨自關(guān)注并編碼，也可以單擊此鏈接中的“復(fù)制和編輯”按鈕即可執(zhí)行所有程序。

學(xué)習(xí)目標(biāo)

了解如何通過所有可用方法詳細(xì)安裝此庫。
了解如何創(chuàng)建一個術(shù)語共發(fā)生矩陣來分析單詞關(guān)系。
學(xué)會執(zhí)行常用任務(wù)，例如生成頻率列表和計算Levenshtein距離。
學(xué)會執(zhí)行高級任務(wù)，例如進(jìn)行文本分配分析和衡量文檔相似性。

本文作為數(shù)據(jù)科學(xué)博客馬拉松的一部分發(fā)表。

如何安裝pynlpl？

我們可以以兩種方式安裝此庫，首先使用PYPI，然后使用GitHub安裝。

通過PYPI

使用pypi粘貼在您的終端中安裝下面的命令。

 PIP安裝pynlpl

如果您使用的是Jupyter筆記本，Kaggle Notebook或Google Colab之類的筆記本，請?zhí)砑印埃　痹谏鲜雒钪啊?/p>

通過github

要使用GitHub安裝此庫，請使用以下命令將官方Pynlpl存儲庫克隆到您的系統(tǒng)中。

 git克隆https://github.com/proycon/pynlpl.git

然后使用“ CD”將終端的目錄更改為此文件夾，然后將以下命令粘貼到安裝庫。

 python3設(shè)置。py安裝

如何使用pynlpl進(jìn)行文本分析？

現(xiàn)在讓我們探討如何使用Pynlpl進(jìn)行文本分析。

術(shù)語共發(fā)生矩陣

術(shù)語共發(fā)生矩陣（TCM）是一種統(tǒng)計方法，可以識別單詞與文本中另一個特定單詞共同相關(guān)的頻率。該矩陣有助于我們了解單詞之間的關(guān)系，并可以揭示有用的隱藏模式。它通常用于構(gòu)建文本摘要中，因為它提供了可以幫助產(chǎn)生簡潔摘要的單詞之間的關(guān)系。現(xiàn)在，讓我們看看如何使用Pynlpl庫構(gòu)建此矩陣。

我們將首先從pynlpl.Statistics導(dǎo)入頻列函數(shù)，該功能用于計算在文本中重復(fù)一個單詞的次數(shù)。我們將在以后的部分中更詳細(xì)地探討這一點。此外，我們將從集合模塊中導(dǎo)入默認(rèn)方法。接下來，我們將創(chuàng)建一個名為create_cooccurrence_matrix的函數(shù)，該函數(shù)獲取文本輸入和窗口大小，并返回矩陣。在此功能中，我們將首先將文本分為單個單詞，并使用DefaultDict創(chuàng)建一個共發(fā)生矩陣。對于文本中的每個單詞，我們將在指定的窗口大小中識別其上下文單詞，并更新共發(fā)生矩陣。最后，我們將打印矩陣并顯示每個項的頻率。

從pynlpl.Statistics導(dǎo)入頻列表
從集合導(dǎo)入違約

def create_cooccurrence_matrix（text，window_size = 2）：
    單詞= text.split（）
    COOCCURRENCE_MATRIX = DEFAULTDICT（fryserlist）
    
    對于我，列舉中的單詞（單詞）：
        start = max（i -window_size，0）
        end = min（i window_size 1，len（單詞））
        context =單詞[start：i]單詞[i 1：end]
        
        對于上下文中的Context_word：
            cooccurrence_matrix [word.lower（）]。count（context_word.lower（））
    
    返回Cooccurrence_matrix

text =“你好，這是分析性的vidhya，到目前為止，您正在做得很好。探索數(shù)據(jù)科學(xué)主題。分析Vidhya是學(xué)習(xí)數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的絕佳平臺?！?
＃創(chuàng)建術(shù)語共發(fā)生矩陣
Cooccurrence_matrix = create_cooccurrence_matrix（text）

＃打印一詞共發(fā)生矩陣
打?。ā靶g(shù)語共發(fā)生矩陣：”）
對于術(shù)語，context_freq_list in Cooccurrence_matrix.items（）：
    打印（f“ {term}：{dict（context_freq_list）}”）

輸出：

使用pynlpl庫的文本統(tǒng)計分析

頻率列表

頻率列表將包含在文檔或段落中重復(fù)特定單詞的次數(shù)。這是一個有用的功能，可以理解整個文檔的主要主題和上下文。我們通常在語言學(xué)，信息檢索和文本挖掘等領(lǐng)域中使用頻率列表。例如，搜索引擎使用頻率列表來對網(wǎng)頁進(jìn)行排名。我們還可以將其用作營銷策略來分析產(chǎn)品評論并了解產(chǎn)品的主要公眾情感。

現(xiàn)在，讓我們看看如何使用Pynlpl庫創(chuàng)建此頻率列表。我們將首先從pynlpl.statistics導(dǎo)入頻列函數(shù)。然后，我們將將示例文本帶入變量中，然后將整個文本分為單個單詞。然后，我們將將此“單詞”變量傳遞到頻列函數(shù)中。最后，我們將遍歷頻率列表中的項目，并打印每個單詞及其相應(yīng)的頻率。

從pynlpl.Statistics導(dǎo)入頻列表

text =“你好，這是分析性的vidhya，到目前為止，您正在做得很好。探索數(shù)據(jù)科學(xué)主題。分析Vidhya是學(xué)習(xí)數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的絕佳平臺。”

單詞= text.lower（）。split（）

freq_list = firenserlist（單詞）

對于Word，freq_list.items（）中的freq：
    print（f“ {word}：{freq}”）

輸出：

使用pynlpl庫的文本統(tǒng)計分析

文本分配分析

在文本分布分析中，我們計算句子中單詞的頻率和概率分布，以了解構(gòu)成句子上下文的哪個單詞。通過計算單詞頻率的分布，我們可以識別最常見的單詞及其統(tǒng)計屬性，例如熵，困惑，模式和最大熵。讓我們一一了解這些屬性：

熵：熵是分布中隨機性的度量。在文本數(shù)據(jù)方面，較高的熵意味著文本具有廣泛的詞匯范圍，并且單詞不再重復(fù)。
困惑：困惑是語言模型在樣本數(shù)據(jù)上的預(yù)測程度的度量。如果困惑性較低，則文本遵循可預(yù)測的模式。
模式：由于我們從小就學(xué)到了這個學(xué)期，因此它告訴我們文本中最重復(fù)的單詞。
最大熵：此屬性告訴我們文本可以擁有的最大熵。這意味著它提供了一個參考點來比較分布的實際熵。

我們還可以計算特定單詞的信息內(nèi)容，這意味著我們可以計算單詞提供的信息量。

使用pynlpl實施

現(xiàn)在，讓我們看看如何使用pynlpl實施所有這些。

我們將從pynlpl.Statistic模塊和數(shù)學(xué)模塊中導(dǎo)入分布和頻列函數(shù)。接下來，我們將創(chuàng)建一個示例文本，并計算該文本中每個單詞的頻率。為此，我們將遵循與上面相同的步驟。然后，我們將通過傳遞頻率列表來創(chuàng)建分布函數(shù)的對象。然后，我們將通過循環(huán)瀏覽分布變量的項目來顯示每個單詞的分布。要計算熵，我們將調(diào)用分布。entropy（）函數(shù)。

要計算困惑，我們將調(diào)用分布。perplexity（）。對于模式，我們將調(diào)用Distributs.mode（）。為了計算最大熵，我們將調(diào)用分布。maxentRopy（）。最后，要獲取特定單詞的信息內(nèi)容，我們將調(diào)用分布。信息（word）。在下面的示例中，我們將將模式單詞作為參數(shù)傳遞給此函數(shù)。

導(dǎo)入數(shù)學(xué)
從pynlpl.Statistics進(jìn)口分布，頻率清單

text =“你好，這是分析性的vidhya，到目前為止，您正在做得很好。探索數(shù)據(jù)科學(xué)主題。分析Vidhya是學(xué)習(xí)數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的絕佳平臺?！?
＃計數(shù)單詞頻率
單詞= text.lower（）。split（）

freq_list = firenserlist（單詞）
word_counts = dict（freq_list.items（））

＃從單詞頻率創(chuàng)建分發(fā)對象
分銷=分布（Word_counts）

＃顯示分布
打印（“發(fā)行：”）
對于單詞，概率分配。ITEMS（）：
    print（f“ {word}：{prob：.4f}”）

＃各種統(tǒng)計
打?。ā?\ nstatistics：”）
print（f“熵：{distribal.entropy（）：。4f}”）
print（f“困惑：{distribut.perplexity（）：。4f}”）
print（f“模式：{distributs.mode（）}”）
打?。╢“最大熵：{Distribal.maxentropy（）：。4f}”）

?！澳Ｊ健眴卧~的信息內(nèi)容
Word = Distribut.Mode（）
信息_content =發(fā)行。
print（f“ {word}'的信息內(nèi)容：{inovery_content：.4f}”）

輸出：

使用pynlpl庫的文本統(tǒng)計分析

Levenshtein距離

Levenshtein距離是兩個單詞之間差異的度量。它計算兩個單詞相同需要進(jìn)行多少個單字符更改。它根據(jù)單詞中字符的插入，刪除或替換來計算。此距離度量通常用于檢查拼寫，DNA序列分析和自然語言處理任務(wù)，例如文本相似性，我們將在下一節(jié)中實現(xiàn)，并且可以用于構(gòu)建pla竊檢測器。通過計算Levenshtein的距離，我們可以理解兩個單詞之間的關(guān)系，我們可以分辨兩個單詞是否相似。如果Levenshtein的距離非常小，那么這些單詞可能具有相同的含義或上下文，如果它非常高，則意味著它們完全不同。

為了計算此距離，我們將首先從pynlpl.Statistic模塊導(dǎo)入Levenshtein函數(shù)。然后，我們將定義兩個單詞：“分析”和“分析”。接下來，我們將將這些單詞傳遞到Levenshtein函數(shù)中，該功能將返回距離值。如您在輸出中所見，這兩個單詞之間的Levenshtein距離是2，這意味著將“分析”轉(zhuǎn)換為“分析”僅需兩個單字符編輯。第一個編輯是將字符“ t ”用“分析”中的“ s ”代替，第二個編輯是在“分析”中刪除index 8的字符“ c ”。

從Pynlpl.Statistics進(jìn)口Levenshtein

Word1 =“分析”
Word2 =“分析”
距離= Levenshtein（Word1，Word2）
    
print（f“'{word1}'和'{word2}'：{distand}”之間的levenshtein距離

輸出：

使用pynlpl庫的文本統(tǒng)計分析

測量文件相似性

在許多應(yīng)用程序中衡量如何相似的兩個文檔或句子可以有用。它使我們能夠了解這兩個文檔的密切相關(guān)。該技術(shù)用于許多應(yīng)用程序，例如竊棋子檢查器，代碼差異檢查器等。通過分析兩個文檔的相似之處，我們可以識別副本。這也可以在推薦系統(tǒng)中使用，其中向用戶A顯示的搜索結(jié)果可以向輸入相同查詢的用戶B顯示。

現(xiàn)在，為了實施此功能，我們將使用余弦相似性度量。首先，我們將導(dǎo)入兩個函數(shù)：從pynlpl庫中的頻列和數(shù)學(xué)模塊的SQRT?，F(xiàn)在，我們將在兩個變量中添加兩個字符串，代替僅字符串，我們也可以打開兩個文本文檔。接下來，我們將通過將它們傳遞到我們之前導(dǎo)入的頻列函數(shù)來創(chuàng)建這些字符串的頻率列表。然后，我們將編寫一個名為Cosine_simarlity的函數(shù)，其中我們將通過這兩個頻率列表作為輸入。在此功能中，我們將首先從頻率列表中創(chuàng)建向量，然后計算這些向量之間的角度的余弦，從而提供其相似性的度量。最后，我們將調(diào)用該功能并打印結(jié)果。

從pynlpl.Statistics導(dǎo)入頻列表
從數(shù)學(xué)導(dǎo)入sqrt

doc1 =“ Analytics Vidhya為數(shù)據(jù)科學(xué)和機器學(xué)習(xí)提供了寶貴的見解和教程。”
doc2 =“如果您想要有關(guān)數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的教程，請查看分析Vidhya?！?
＃為兩個文檔創(chuàng)建頻列對象
FREQ_LIST1 = fircellist（doc1.lower（）。split（））
FREQ_LIST2 = fircellist（doc2.lower（）。split（））

def cosine_simurility（freq_list1，freq_list2）：
    vec1 = {word：freq_list1 [word] for Word，_ in freq_list1}
    vec2 = {word：freq_list2 [word] for Word，_ in freq_list2}

    交點= set（vec1.keys（））＆set（vec2.keys（））
    分子= sum（vec1 [word] * vec2 [word] for introsection中的單詞）

    sum1 = sum（vec1 [word] ** 2 for vec1.keys（）中的單詞）
    sum2 = sum（vec2 [word] ** 2 for vec2.keys（）中的單詞）
    分母= sqrt（sum1） * sqrt（sum2）

    如果不是分母：
        返回0.0
    返回float（分子） /分母

＃計算余弦相似性
相似性= cosine_simurarity（freq_list1，freq_list2）
打?。╢“余弦相似性：{相似：.4f}”）

輸出：

使用pynlpl庫的文本統(tǒng)計分析

結(jié)論

Pynlpl是一個強大的庫，我們可以執(zhí)行文本統(tǒng)計分析。不僅文本分析，我們還可以將此庫用于某些文本預(yù)處理技術(shù)，例如令牌化，詞干，n-gram提取，甚至構(gòu)建一些簡單的語言模型。在此博客中，我們首先了解了安裝此庫的所有方法，然后我們使用該庫執(zhí)行各種任務(wù)，例如實現(xiàn)術(shù)語共存矩陣，創(chuàng)建頻率列表以識別常見單詞，執(zhí)行文本分布分析，并了解如何計算LevenShtein距離，并計算文檔相似性。這些技術(shù)中的每一個都可以用來從我們的文本數(shù)據(jù)中提取有價值的見解，使其成為有價值的庫。下次您進(jìn)行文本分析時，請考慮嘗試Pynlpl（菠蘿）庫。