国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 後端開發(fā) Python教學(xué) 建立您自己的語言模型:Python 和 NumPy 的簡單指南

建立您自己的語言模型:Python 和 NumPy 的簡單指南

Oct 19, 2024 am 08:10 AM

Build Your Own Language Model: A Simple Guide with Python and NumPy

人工智慧如今無所不在,而語言模型是其中的重要組成部分。當 ChatGPT 推出時,您可能想知道人工智慧如何預(yù)測句子中的下一個單詞,甚至寫出整個段落。在本教程中,我們將建立一個超級簡單的語言模型,而不依賴 TensorFlow 或 PyTorch 等花哨的框架 - 只需簡單的 Python 和 NumPy。

在開始教學(xué)之前,讓我先解釋一下什麼是大語言模型(LLM)。

  • LLM 是經(jīng)過大量文字資料訓(xùn)練來理解和產(chǎn)生人類語言的人工智慧模型。
  • 這些法學(xué)碩士能夠完成回答問題、寫論文甚至進行對話等任務(wù)。本質(zhì)上,法學(xué)碩士根據(jù)先前的單字來預(yù)測序列中的下一個單字。

在本教程中,我們將建立一個更簡單的版本 - 二元模型 -

聽起來很酷嗎?讓我們開始吧! ?

我們正在建設(shè)什麼:

我們將建立一個二元模型,它將讓您了解語言模型如何運作的基本概念。它根據(jù)當前單字預(yù)測句子中的下一個單字。我們將保持簡單易懂,這樣您就可以了解事情是如何運作的,而不會陷入太多細節(jié)。 ??


第 1 步:設(shè)定

在開始之前,讓我們確保您已準備好 Python 和 NumPy。如果您尚未安裝 NumPy,請使用以下命令快速安裝:

pip install numpy

第 2 步:了解基礎(chǔ)知識

語言模型預(yù)測句子中的下一個單字。我們將讓事情變得簡單並建立一個二元模型。這僅意味著我們的模型將僅使用當前單字來預(yù)測下一個單字。

我們將從一段簡短的文字開始來訓(xùn)練模型。這是我們將要使用的小樣本:

import numpy as np

# Sample dataset: A small text corpus
corpus = """Artificial Intelligence is the new electricity.
Machine learning is the future of AI.
AI is transforming industries and shaping the future."""

第三步:準備文本

首先,我們需要將這段文本分解為單獨的單字並創(chuàng)建一個詞彙表(基本上是所有獨特單字的清單)。這給了我們一些可以利用的東西。

# Tokenize the corpus into words
words = corpus.lower().split()

# Create a vocabulary of unique words
vocab = list(set(words))
vocab_size = len(vocab)

print(f"Vocabulary: {vocab}")
print(f"Vocabulary size: {vocab_size}")

在這裡,我們將文字轉(zhuǎn)換為小寫並將其拆分為單字。之後,我們建立一個獨特單字清單作為我們的詞彙表。

第 4 步:將單字映射到數(shù)字

計算機處理的是數(shù)字,而不是文字。因此,我們將每個單字映射到索引,並創(chuàng)建一個反向映射(這將有助於我們稍後將它們轉(zhuǎn)換回單字)。

word_to_idx = {word: idx for idx, word in enumerate(vocab)}
idx_to_word = {idx: word for word, idx in word_to_idx.items()}

# Convert the words in the corpus to indices
corpus_indices = [word_to_idx[word] for word in words]

基本上,我們只是將單字轉(zhuǎn)換為我們的模型可以理解的數(shù)字。每個單字都有自己的編號,例如「AI」可能會變成 0,「learning」可能會變成 1,取決於順序。

第 5 步:建構(gòu)模型

現(xiàn)在,讓我們進入核心:建立二元模型。我們想要計算出一個單字出現(xiàn)在另一個單字之後的機率。為此,我們將計算每個單字對(二元組)在資料集中出現(xiàn)的頻率。

pip install numpy

這是發(fā)生的事情:

我們正在計算每個單字跟隨另一個單字的頻率(即二元組)。
然後,我們透過標準化將這些計數(shù)轉(zhuǎn)換為機率。
簡單來說,這意味著如果“AI”後面經(jīng)常跟著“is”,那麼該對的機率會更高。

第 6 步:預(yù)測下一個單字

現(xiàn)在讓我們測試我們的模型,讓它根據(jù)任何給定的單字預(yù)測下一個單字。我們透過從下一個單字的機率分佈中採樣來做到這一點。

import numpy as np

# Sample dataset: A small text corpus
corpus = """Artificial Intelligence is the new electricity.
Machine learning is the future of AI.
AI is transforming industries and shaping the future."""

函數(shù)接受一個單詞,找出其機率,並根據(jù)這些機率隨機選擇下一個單字。如果您傳入“AI”,模型可能會預(yù)測類似“is”的內(nèi)容作為下一個單字。

第 7 步:產(chǎn)生一個句子

最後,讓我們產(chǎn)生一個完整的句子!我們將從一個單字開始,並不斷預(yù)測下一個單字幾次。

# Tokenize the corpus into words
words = corpus.lower().split()

# Create a vocabulary of unique words
vocab = list(set(words))
vocab_size = len(vocab)

print(f"Vocabulary: {vocab}")
print(f"Vocabulary size: {vocab_size}")

函數(shù)採用一個初始單字並預(yù)測下一個單詞,然後使用該單字來預(yù)測下一個單詞,依此類推。不知不覺中,你已經(jīng)得到了一個完整的句子!

總結(jié)

現(xiàn)在你已經(jīng)有了它——一個僅使用 Python 和 NumPy 從頭開始建立的簡單二元語言模型。我們沒有使用任何花俏的函式庫,現(xiàn)在您已經(jīng)對人工智慧如何預(yù)測文字有了基本的了解。您可以使用此程式碼,為其提供不同的文本,甚至使用更高級的模型來擴展它。

嘗試一下,然後告訴我效果如何??鞓肪幋a!

以上是建立您自己的語言模型:Python 和 NumPy 的簡單指南的詳細內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1600
29
PHP教程
1500
276
如何處理Python中的API身份驗證 如何處理Python中的API身份驗證 Jul 13, 2025 am 02:22 AM

處理API認證的關(guān)鍵在於理解並正確使用認證方式。 1.APIKey是最簡單的認證方式,通常放在請求頭或URL參數(shù)中;2.BasicAuth使用用戶名和密碼進行Base64編碼傳輸,適合內(nèi)部系統(tǒng);3.OAuth2需先通過client_id和client_secret獲取Token,再在請求頭中帶上BearerToken;4.為應(yīng)對Token過期,可封裝Token管理類自動刷新Token;總之,根據(jù)文檔選擇合適方式,並安全存儲密鑰信息是關(guān)鍵。

解釋Python斷言。 解釋Python斷言。 Jul 07, 2025 am 12:14 AM

Assert是Python用於調(diào)試的斷言工具,當條件不滿足時拋出AssertionError。其語法為assert條件加可選錯誤信息,適用於內(nèi)部邏輯驗證如參數(shù)檢查、狀態(tài)確認等,但不能用於安全或用戶輸入檢查,且應(yīng)配合清晰提示信息使用,僅限開發(fā)階段輔助調(diào)試而非替代異常處理。

什麼是Python型提示? 什麼是Python型提示? Jul 07, 2025 am 02:55 AM

typeHintsInpyThonsolverbromblemboyofambiguityandPotentialBugSindyNamalytyCodeByallowingDevelopsosteSpecefectifyExpectedTypes.theyenhancereadability,enablellybugdetection,andimprovetool.typehintsupport.typehintsareadsareadsareadsareadsareadsareadsareadsareadsareaddedusidocolon(

如何一次迭代兩個列表 如何一次迭代兩個列表 Jul 09, 2025 am 01:13 AM

在Python中同時遍歷兩個列表的常用方法是使用zip()函數(shù),它會按順序配對多個列表並以最短為準;若列表長度不一致,可使用itertools.zip_longest()以最長為準並填充缺失值;結(jié)合enumerate()可同時獲取索引。 1.zip()簡潔實用,適合成對數(shù)據(jù)迭代;2.zip_longest()處理不一致長度時可填充默認值;3.enumerate(zip())可在遍歷時獲取索引,滿足多種複雜場景需求。

什麼是Python迭代器? 什麼是Python迭代器? Jul 08, 2025 am 02:56 AM

Inpython,IteratorSareObjectSthallowloopingThroughCollectionsByImplementing_iter __()和__next __()。 1)iteratorsWiaTheIteratorProtocol,使用__ITER __()toreTurnterateratoratoranteratoratoranteratoratorAnterAnteratoratorant antheittheext__()

Python Fastapi教程 Python Fastapi教程 Jul 12, 2025 am 02:42 AM

要使用Python創(chuàng)建現(xiàn)代高效的API,推薦使用FastAPI;其基於標準Python類型提示,可自動生成文檔,性能優(yōu)越。安裝FastAPI和ASGI服務(wù)器uvicorn後,即可編寫接口代碼。通過定義路由、編寫處理函數(shù)並返回數(shù)據(jù),可以快速構(gòu)建API。 FastAPI支持多種HTTP方法,並提供自動生成的SwaggerUI和ReDoc文檔系統(tǒng)。 URL參數(shù)可通過路徑定義捕獲,查詢參數(shù)則通過函數(shù)參數(shù)設(shè)置默認值實現(xiàn)。合理使用Pydantic模型有助於提升開發(fā)效率和準確性。

設(shè)置並使用Python虛擬環(huán)境 設(shè)置並使用Python虛擬環(huán)境 Jul 06, 2025 am 02:56 AM

虛擬環(huán)境能隔離不同項目的依賴。使用Python自帶的venv模塊創(chuàng)建,命令為python-mvenvenv;激活方式:Windows用env\Scripts\activate,macOS/Linux用sourceenv/bin/activate;安裝包使用pipinstall,生成需求文件用pipfreeze>requirements.txt,恢復(fù)環(huán)境用pipinstall-rrequirements.txt;注意事項包括不提交到Git、每次新開終端需重新激活、可用IDE自動識別切換。

如何用Python測試API 如何用Python測試API Jul 12, 2025 am 02:47 AM

要測試API需使用Python的Requests庫,步驟為安裝庫、發(fā)送請求、驗證響應(yīng)、設(shè)置超時與重試。首先通過pipinstallrequests安裝庫;接著用requests.get()或requests.post()等方法發(fā)送GET或POST請求;然後檢查response.status_code和response.json()確保返回結(jié)果符合預(yù)期;最後可添加timeout參數(shù)設(shè)置超時時間,並結(jié)合retrying庫實現(xiàn)自動重試以增強穩(wěn)定性。

See all articles