国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
介紹
學(xué)習(xí)目標(biāo)
目錄
如何安裝pynlpl?
通過PYPI
通過github
如何使用pynlpl進(jìn)行文本分析?
術(shù)語共發(fā)生矩陣
頻率列表
文本分配分析
使用pynlpl實(shí)施
Levenshtein距離
測量文件相似性
結(jié)論
關(guān)鍵要點(diǎn)
常見問題
首頁 科技週邊 人工智慧 使用pynlpl庫的文本統(tǒng)計(jì)分析

使用pynlpl庫的文本統(tǒng)計(jì)分析

Apr 20, 2025 am 09:29 AM

介紹

文本的統(tǒng)計(jì)分析是文本預(yù)處理的重要步驟之一。它可以幫助我們以一種深刻的數(shù)學(xué)方式理解文本數(shù)據(jù)。這種類型的分析可以幫助我們理解隱藏的模式,以及句子中特定單詞的重量,總體上有助於構(gòu)建良好的語言模型。 Pynlpl或我們稱其為菠蘿庫,是文本統(tǒng)計(jì)分析的最佳Python庫之一。該庫也可用於其他任務(wù),例如清潔和分析文本,並提供文本預(yù)處理功能,例如Tokenizers,N-gram提取器等。此外,Pynlpl可用於構(gòu)建簡單的語言模型。

在此博客中,您將了解如何使用Pynlpl執(zhí)行文本分析。我們將首先了解在系統(tǒng)上安裝此庫的所有方法。接下來,我們將使用PYNLPL庫理解一詞共發(fā)生矩陣及其實(shí)現(xiàn)。之後,我們將學(xué)習(xí)如何創(chuàng)建頻率列表以識別最重複的單詞。接下來,我們將執(zhí)行文本分佈分析,以衡量兩個文本文檔或字符串之間的相似性。最後,我們將使用此庫理解併計(jì)算Leveshtein的距離。您可以獨(dú)自關(guān)注並編碼,也可以單擊此鏈接中的“複製和編輯”按鈕即可執(zhí)行所有程序。

學(xué)習(xí)目標(biāo)

  • 了解如何通過所有可用方法詳細(xì)安裝此庫。
  • 了解如何創(chuàng)建一個術(shù)語共發(fā)生矩陣來分析單詞關(guān)係。
  • 學(xué)會執(zhí)行常用任務(wù),例如生成頻率列表和計(jì)算Levenshtein距離。
  • 學(xué)會執(zhí)行高級任務(wù),例如進(jìn)行文本分配分析和衡量文檔相似性。

本文作為數(shù)據(jù)科學(xué)博客馬拉鬆的一部分發(fā)表。

目錄

  • 如何安裝pynlpl?
  • 如何使用pynlpl進(jìn)行文本分析?
    • 術(shù)語共發(fā)生矩陣
    • 頻率列表
    • 文本分配分析
    • Levenshtein距離
    • 測量文件相似性
  • 常見問題

如何安裝pynlpl?

我們可以以兩種方式安裝此庫,首先使用PYPI,然後使用GitHub安裝。

通過PYPI

使用pypi粘貼在您的終端中安裝下面的命令。

 PIP安裝pynlpl

如果您使用的是Jupyter筆記本,Kaggle Notebook或Google Colab之類的筆記本,請?zhí)砑印?!”在上述命令之前?/p>

通過github

要使用GitHub安裝此庫,請使用以下命令將官方Pynlpl存儲庫克隆到您的系統(tǒng)中。

 git克隆https://github.com/proycon/pynlpl.git

然後使用“ CD”將終端的目錄更改為此文件夾,然後將以下命令粘貼到安裝庫。

 python3設(shè)置。 py安裝

如何使用pynlpl進(jìn)行文本分析?

現(xiàn)在讓我們探討如何使用Pynlpl進(jìn)行文本分析。

術(shù)語共發(fā)生矩陣

術(shù)語共發(fā)生矩陣(TCM)是一種統(tǒng)計(jì)方法,可以識別單詞與文本中另一個特定單詞共同相關(guān)的頻率。該矩陣有助於我們了解單詞之間的關(guān)係,並可以揭示有用的隱藏模式。它通常用於構(gòu)建文本摘要中,因?yàn)樗峁┝丝梢詭椭a(chǎn)生簡潔摘要的單詞之間的關(guān)係?,F(xiàn)在,讓我們看看如何使用Pynlpl庫構(gòu)建此矩陣。

我們將首先從pynlpl.Statistics導(dǎo)入頻列函數(shù),該功能用於計(jì)算在文本中重複一個單詞的次數(shù)。我們將在以後的部分中更詳細(xì)地探討這一點(diǎn)。此外,我們將從集合模塊中導(dǎo)入默認(rèn)方法。接下來,我們將創(chuàng)建一個名為create_cooccurrence_matrix的函數(shù),該函數(shù)獲取文本輸入和窗口大小,並返回矩陣。在此功能中,我們將首先將文本分為單個單詞,並使用DefaultDict創(chuàng)建一個共發(fā)生矩陣。對於文本中的每個單詞,我們將在指定的窗口大小中識別其上下文單詞,並更新共發(fā)生矩陣。最後,我們將打印矩陣並顯示每個項(xiàng)的頻率。

從pynlpl.Statistics導(dǎo)入頻列表
從集合導(dǎo)入違約

def create_cooccurrence_matrix(text,window_size = 2):
    單詞= text.split()
    COOCCURRENCE_MATRIX = DEFAULTDICT(fryserlist)
    
    對於我,列舉中的單詞(單詞):
        start = max(i -window_size,0)
        end = min(i window_size 1,len(單詞))
        context =單詞[start:i]單詞[i 1:end]
        
        對於上下文中的Context_word:
            cooccurrence_matrix [word.lower()]。 count(context_word.lower())
    
    返回Cooccurrence_matrix

text =“你好,這是分析性的vidhya,到目前為止,您正在做得很好。探索數(shù)據(jù)科學(xué)主題。分析Vidhya是學(xué)習(xí)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的絕佳平臺?!?
#創(chuàng)建術(shù)語共發(fā)生矩陣
Cooccurrence_matrix = create_cooccurrence_matrix(text)

#打印一詞共發(fā)生矩陣
打印(“術(shù)語共發(fā)生矩陣:”)
對於術(shù)語,context_freq_list in Cooccurrence_matrix.items():
    打印(f“ {term}:{dict(context_freq_list)}”)

輸出:

使用pynlpl庫的文本統(tǒng)計(jì)分析

頻率列表

頻率列表將包含在文檔或段落中重複特定單詞的次數(shù)。這是一個有用的功能,可以理解整個文檔的主要主題和上下文。我們通常在語言學(xué),信息檢索和文本挖掘等領(lǐng)域中使用頻率列表。例如,搜索引擎使用頻率列表來對網(wǎng)頁進(jìn)行排名。我們還可以將其用作營銷策略來分析產(chǎn)品評論並了解產(chǎn)品的主要公眾情感。

現(xiàn)在,讓我們看看如何使用Pynlpl庫創(chuàng)建此頻率列表。我們將首先從pynlpl.statistics導(dǎo)入頻列函數(shù)。然後,我們將將示例文本帶入變量中,然後將整個文本分為單個單詞。然後,我們將將此“單詞”變量傳遞到頻列函數(shù)中。最後,我們將遍歷頻率列表中的項(xiàng)目,並打印每個單詞及其相應(yīng)的頻率。

從pynlpl.Statistics導(dǎo)入頻列表

text =“你好,這是分析性的vidhya,到目前為止,您正在做得很好。探索數(shù)據(jù)科學(xué)主題。分析Vidhya是學(xué)習(xí)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的絕佳平臺。”

單詞= text.lower()。 split()

freq_list = firenserlist(單詞)

對於Word,freq_list.items()中的freq:
    print(f“ {word}:{freq}”)

輸出:

使用pynlpl庫的文本統(tǒng)計(jì)分析

文本分配分析

在文本分佈分析中,我們計(jì)算句子中單詞的頻率和概率分佈,以了解構(gòu)成句子上下文的哪個單詞。通過計(jì)算單詞頻率的分佈,我們可以識別最常見的單詞及其統(tǒng)計(jì)屬性,例如熵,困惑,模式和最大熵。讓我們一一了解這些屬性:

  • :熵是分佈中隨機(jī)性的度量。在文本數(shù)據(jù)方面,較高的熵意味著文本具有廣泛的詞彙範(fàn)圍,並且單詞不再重複。
  • 困惑:困惑是語言模型在樣本數(shù)據(jù)上的預(yù)測程度的度量。如果困惑性較低,則文本遵循可預(yù)測的模式。
  • 模式:由於我們從小就學(xué)到了這個學(xué)期,因此它告訴我們文本中最重複的單詞。
  • 最大熵:此屬性告訴我們文本可以擁有的最大熵。這意味著它提供了一個參考點(diǎn)來比較分佈的實(shí)際熵。

我們還可以計(jì)算特定單詞的信息內(nèi)容,這意味著我們可以計(jì)算單詞提供的信息量。

使用pynlpl實(shí)施

現(xiàn)在,讓我們看看如何使用pynlpl實(shí)施所有這些。

我們將從pynlpl.Statistic模塊和數(shù)學(xué)模塊中導(dǎo)入分佈和頻列函數(shù)。接下來,我們將創(chuàng)建一個示例文本,併計(jì)算該文本中每個單詞的頻率。為此,我們將遵循與上面相同的步驟。然後,我們將通過傳遞頻率列表來創(chuàng)建分佈函數(shù)的對象。然後,我們將通過循環(huán)瀏覽分佈變量的項(xiàng)目來顯示每個單詞的分佈。要計(jì)算熵,我們將調(diào)用分佈。 entropy()函數(shù)。

要計(jì)算困惑,我們將調(diào)用分佈。 perplexity()。對於模式,我們將調(diào)用Distributs.mode()。為了計(jì)算最大熵,我們將調(diào)用分佈。 maxentRopy()。最後,要獲取特定單詞的信息內(nèi)容,我們將調(diào)用分佈。信息(word)。在下面的示例中,我們將將模式單詞作為參數(shù)傳遞給此函數(shù)。

導(dǎo)入數(shù)學(xué)
從pynlpl.Statistics進(jìn)口分佈,頻率清單

text =“你好,這是分析性的vidhya,到目前為止,您正在做得很好。探索數(shù)據(jù)科學(xué)主題。分析Vidhya是學(xué)習(xí)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的絕佳平臺?!?
#計(jì)數(shù)單詞頻率
單詞= text.lower()。 split()

freq_list = firenserlist(單詞)
word_counts = dict(freq_list.items())

#從單詞頻率創(chuàng)建分發(fā)對象
分銷=分佈(Word_counts)

#顯示分佈
打?。ā鞍l(fā)行:”)
對於單詞,概率分配。 ITEMS():
    print(f“ {word}:{prob:.4f}”)

#各種統(tǒng)計(jì)
打?。ā?\ nstatistics:”)
print(f“熵:{distribal.entropy():。4f}”)
print(f“困惑:{distribut.perplexity():。4f}”)
print(f“模式:{distributs.mode()}”)
打?。╢“最大熵:{Distribal.maxentropy():。4f}”)

#“模式”單詞的信息內(nèi)容
Word = Distribut.Mode()
信息_content =發(fā)行。
print(f“ {word}'的信息內(nèi)容:{inovery_content:.4f}”)

輸出:

使用pynlpl庫的文本統(tǒng)計(jì)分析

Levenshtein距離

Levenshtein距離是兩個單詞之間差異的度量。它計(jì)算兩個單詞相同需要進(jìn)行多少個單字符更改。它根據(jù)單詞中字符的插入,刪除或替換來計(jì)算。此距離度量通常用於檢查拼寫,DNA序列分析和自然語言處理任務(wù),例如文本相似性,我們將在下一節(jié)中實(shí)現(xiàn),並且可以用於構(gòu)建pla竊檢測器。通過計(jì)算Levenshtein的距離,我們可以理解兩個單詞之間的關(guān)係,我們可以分辨兩個單詞是否相似。如果Levenshtein的距離非常小,那麼這些單詞可能具有相同的含義或上下文,如果它非常高,則意味著它們完全不同。

為了計(jì)算此距離,我們將首先從pynlpl.Statistic模塊導(dǎo)入Levenshtein函數(shù)。然後,我們將定義兩個單詞:“分析”和“分析”。接下來,我們將將這些單詞傳遞到Levenshtein函數(shù)中,該功能將返回距離值。如您在輸出中所見,這兩個單詞之間的Levenshtein距離是2,這意味著將“分析”轉(zhuǎn)換為“分析”僅需兩個單字符編輯。第一個編輯是將字符“ t ”用“分析”中的“ s ”代替,第二個編輯是在“分析”中刪除index 8的字符“ c ”。

從Pynlpl.Statistics進(jìn)口Levenshtein

Word1 =“分析”
Word2 =“分析”
距離= Levenshtein(Word1,Word2)
    
print(f“'{word1}'和'{word2}':{distand}”之間的levenshtein距離

輸出:

使用pynlpl庫的文本統(tǒng)計(jì)分析

測量文件相似性

在許多應(yīng)用程序中衡量如何相似的兩個文檔或句子可以有用。它使我們能夠了解這兩個文檔的密切相關(guān)。該技術(shù)用於許多應(yīng)用程序,例如竊棋子檢查器,代碼差異檢查器等。通過分析兩個文檔的相似之處,我們可以識別副本。這也可以在推薦系統(tǒng)中使用,其中向用戶A顯示的搜索結(jié)果可以向輸入相同查詢的用戶B顯示。

現(xiàn)在,為了實(shí)施此功能,我們將使用餘弦相似性度量。首先,我們將導(dǎo)入兩個函數(shù):從pynlpl庫中的頻列和數(shù)學(xué)模塊的SQRT。現(xiàn)在,我們將在兩個變量中添加兩個字符串,代替僅字符串,我們也可以打開兩個文本文檔。接下來,我們將通過將它們傳遞到我們之前導(dǎo)入的頻列函數(shù)來創(chuàng)建這些字符串的頻率列表。然後,我們將編寫一個名為Cosine_simarlity的函數(shù),其中我們將通過這兩個頻率列表作為輸入。在此功能中,我們將首先從頻率列表中創(chuàng)建向量,然後計(jì)算這些向量之間的角度的餘弦,從而提供其相似性的度量。最後,我們將調(diào)用該功能並打印結(jié)果。

從pynlpl.Statistics導(dǎo)入頻列表
從數(shù)學(xué)導(dǎo)入sqrt

doc1 =“ Analytics Vidhya為數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)提供了寶貴的見解和教程?!?doc2 =“如果您想要有關(guān)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的教程,請查看分析Vidhya?!?
#為兩個文檔創(chuàng)建頻列對象
FREQ_LIST1 = fircellist(doc1.lower()。split())
FREQ_LIST2 = fircellist(doc2.lower()。split())

def cosine_simurility(freq_list1,freq_list2):
    vec1 = {word:freq_list1 [word] for Word,_ in freq_list1}
    vec2 = {word:freq_list2 [word] for Word,_ in freq_list2}

    交點(diǎn)= set(vec1.keys())&set(vec2.keys())
    分子= sum(vec1 [word] * vec2 [word] for introsection中的單詞)

    sum1 = sum(vec1 [word] ** 2 for vec1.keys()中的單詞)
    sum2 = sum(vec2 [word] ** 2 for vec2.keys()中的單詞)
    分母= sqrt(sum1) * sqrt(sum2)

    如果不是分母:
        返回0.0
    返回float(分子) /分母

#計(jì)算餘弦相似性
相似性= cosine_simurarity(freq_list1,freq_list2)
打?。╢“餘弦相似性:{相似:.4f}”)

輸出:

使用pynlpl庫的文本統(tǒng)計(jì)分析

結(jié)論

Pynlpl是一個強(qiáng)大的庫,我們可以執(zhí)行文本統(tǒng)計(jì)分析。不僅文本分析,我們還可以將此庫用於某些文本預(yù)處理技術(shù),例如令牌化,詞幹,n-gram提取,甚至構(gòu)建一些簡單的語言模型。在此博客中,我們首先了解了安裝此庫的所有方法,然後我們使用該庫執(zhí)行各種任務(wù),例如實(shí)現(xiàn)術(shù)語共存矩陣,創(chuàng)建頻率列表以識別常見單詞,執(zhí)行文本分佈分析,並了解如何計(jì)算LevenShtein距離,併計(jì)算文檔相似性。這些技術(shù)中的每一個都可以用來從我們的文本數(shù)據(jù)中提取有價(jià)值的見解,使其成為有價(jià)值的庫。下次您進(jìn)行文本分析時,請考慮嘗試Pynlpl(菠蘿)庫。

關(guān)鍵要點(diǎn)

  • Pynlpl(菠蘿)庫是文本統(tǒng)計(jì)分析的最佳庫之一。
  • “共存在矩陣”一詞有助於我們了解單詞之間的關(guān)係,並且在構(gòu)建摘要中可能有用。
  • 頻率列表可用於了解文本或文檔的主要主題。
  • 文本分配分析和Levenshtein距離可以幫助我們了解文本相似性。
  • 我們還可以使用PYNLPL庫進(jìn)行文本預(yù)處理,而不僅僅是用於文本統(tǒng)計(jì)分析。

常見問題

Q1。什麼是pynlpl?

A. pynlpl,也稱為菠蘿,是一個用於文本統(tǒng)計(jì)分析和文本預(yù)處理的Python庫。

Q2。衡量文件相似性有什麼好處?

答:這項(xiàng)技術(shù)使我們能夠衡量兩個文檔或文本的相似性,並且可以在竊式檢查器,代碼差檢查器等中使用。

Q3。術(shù)語共發(fā)生矩陣使用了什麼?

答:術(shù)語共發(fā)生矩陣可用於識別文檔中兩個單詞共發(fā)生的頻率。

Q4。 Levenshtein距離如何有用?

答:我們可以使用Levenshtein距離來找到兩個單詞之間的差異,這對於構(gòu)建咒語檢查器很有用。

本文所示的媒體不由Analytics Vidhya擁有,並由作者酌情使用。

以上是使用pynlpl庫的文本統(tǒng)計(jì)分析的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

前7個筆記本替代品 前7個筆記本替代品 Jun 17, 2025 pm 04:32 PM

Google的NotebookLM是由Gemini 2.5提供動力的智能AI筆記工具,它在匯總文檔方面表現(xiàn)出色。但是,它在工具使用方面仍然有局限性,例如源蓋,雲(yún)依賴性和最近的“發(fā)現(xiàn)”功能

從採用到優(yōu)勢:2025年塑造企業(yè)LLM的10個趨勢 從採用到優(yōu)勢:2025年塑造企業(yè)LLM的10個趨勢 Jun 20, 2025 am 11:13 AM

以下是重塑企業(yè)AI景觀的十種引人注目的趨勢。對LLMSorganizations的財(cái)務(wù)承諾正在大大增加其在LLMS的投資,其中72%的人預(yù)計(jì)他們的支出今年會增加。目前,近40%a

AI投資者停滯不前? 3條購買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨(dú)特性的衰落,以AI為中心的風(fēng)險(xiǎn)投資的投資者必須做出關(guān)鍵決定:購買,建立或合作夥伴才能獲得優(yōu)勢?這是評估每個選項(xiàng)和PR的方法

生成AI的不可阻擋的增長(AI Outlook第1部分) 生成AI的不可阻擋的增長(AI Outlook第1部分) Jun 21, 2025 am 11:11 AM

披露:我的公司Tirias Research已向IBM,NVIDIA和本文提到的其他公司諮詢。 Growth驅(qū)動力的生成AI採用的激增比最樂觀的預(yù)測更具戲劇性。然後,

這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 Jun 20, 2025 am 11:16 AM

由於AI,那些日子是編號的。根據(jù)一個螺柱,搜索企業(yè)諸如Travel網(wǎng)站皮劃艇和Edtech Company Chegg之類的企業(yè)正在下降,部分原因是60%的網(wǎng)站搜索不會導(dǎo)致用戶單擊任何鏈接。

新蓋洛普報(bào)告:AI文化準(zhǔn)備就緒需要新的心態(tài) 新蓋洛普報(bào)告:AI文化準(zhǔn)備就緒需要新的心態(tài) Jun 19, 2025 am 11:16 AM

廣泛採用和情感準(zhǔn)備之間的差距揭示了人類如何與越來越多的數(shù)字伴侶互動。我們正在進(jìn)入共存階段,算法編織到我們的日?,F(xiàn)場

AGI和AI超級智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 AGI和AI超級智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來談?wù)劇? 對創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI複雜性(請參閱此處的鏈接)。 前往Agi和

思科在美國2025 思科在美國2025 Jun 19, 2025 am 11:10 AM

讓我們仔細(xì)研究一下我發(fā)現(xiàn)的最重要的東西,以及思科如何以其目前的努力來進(jìn)一步實(shí)現(xiàn)其野心。

See all articles