国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目次
エンコードとデコードに加えて、他の2つのユースケースも考えました。
入力長検証
結(jié)論
トップAI認(rèn)定を取得
ホームページ テクノロジー周辺機(jī)器 AI Tiktokenチュートリアル:テキストをトークン化するためのOpenai'のPythonライブラリ

Tiktokenチュートリアル:テキストをトークン化するためのOpenai'のPythonライブラリ

Mar 05, 2025 am 10:30 AM

Tiktoken Tutorial: OpenAI's Python Library for Tokenizing Text

粒子分詞は、自然言語処理(NLP)タスクを扱うための基本的なステップです。これには、単語、サブワード、または文字などと呼ばれるマーカーと呼ばれる小さなユニットにテキストを壊すことが含まれます。

効率的な単語セグメンテーションは、言語モデルのパフォーマンスにとって重要であり、テキスト生成、翻訳、抽象化などのさまざまなNLPタスクの重要なステップとなっています。

Tiktokenは、Openaiによって開発された高速で効率的なシソーラスです。テキストをタグに変換するための強(qiáng)力なソリューションとその逆を提供します。その速度と効率性により、大規(guī)模なデータセットと複雑なモデルを扱う開発者とデータサイエンティストに最適です。

このガイドは、開発者、データサイエンティスト、およびTiktokenの使用を計畫している人を?qū)澫螭趣筏皮?、例を含む実用的なガイドを必要とする人向けに設(shè)計されています。

Openaiの基本

Openai APIなどを始めましょう!

今すぐ開始

get tiktokenを始めましょう Tiktokenを開始するには、Python環(huán)境にインストールする必要があります(Tiktokenは他のプログラミング言語にも適しています)。これは、次のコマンドを使用して実行できます 次のGithubリポジトリで、Tiktoken Open Source Pythonバージョンのコードを表示できます。

ライブラリをインポートするには、実行されます

コーディングモデル
<code>pip install tiktoken</code>

Tiktokenのエンコーディングモデルは、テキストをタグに分割するルールを決定します。これらのモデルは、テキストのセグメント化とエンコードの方法を定義し、言語処理タスクの効率と精度に影響するため、重要です。異なるOpenAIモデルは、異なるエンコーディングを使用しています。

Tiktokenは、異なるユースケースに最適化された3つのコーディングモデルを提供します:

  • O200K_Base:最新のGPT-4O-MINIモデルのエンコード。
  • CL100K_BASE:GPT-4やGPT-3.5-ターボなどの新しいOpenAIモデルのコーディングモデル。
  • p50k_base:コードアプリケーションで使用されるコーデックスモデル。
  • R50K_Base:GPT-3の異なるバージョンの古いエンコード。

これらのモデルはすべて、OpenAIのAPIで使用できます。 APIは、ここにリストされているモデルよりもはるかに多くのモデルを提供することに注意してください。幸いなことに、Tiktokenライブラリは、どのエンコードをどのモデルで使用するかを簡単に確認(rèn)する方法を提供します。

たとえば、

テキスト埋め込みモデルが使用するエンコーディングモデルを知る必要がある場合、次のコマンドを?qū)g行して出力として答えを取得できます。

<code>pip install tiktoken</code>
出力として

を取得します。 Tiktokenを直接使用する前に、Openaiにはさまざまな文字列がどのようにトークン化されているかを確認(rèn)できるトークン化Webアプリケーションがあることに言及したいと思います。ここでアクセスできます。また、非オペナイモデルをサポートするサードパーティのオンラインタガー、Tiktokenizerもあります。

テキストをマーカー

としてエンコードします

tiktokenを使用してタグとしてテキストをエンコードするには、最初にエンコードされたオブジェクトを取得する必要があります。初期化するには2つの方法があります。まず、トークネイザーの名前を使用してこれを行うことができます:

<code>import tiktoken</code>

あるいは、特定のモデルのエンコーダーを取得するために、前述のencoding_for_model関數(shù)を?qū)g行することができます:

<code>print(tiktoken.encoding_for_model('text-embedding-3-small'))</code>
ここで、エンコードオブジェクトのエンコードメソッドを?qū)g行して、文字列をエンコードできます。たとえば、「I Love Datacamp」文字列を次のようにエンコードできます。ここでは、CL100K_BASEエンコーダーを使用します:

<code>encoding = tiktoken.get_encoding("[標(biāo)記器名稱]")</code>
[40、3021、2956、34955]を出力として取得します。

マークをテキストにデコードします

マークをテキストにデコードするには、エンコードされたオブジェクトで.decode()メソッドを使用できます。

次のタグ[40、4048、264、2763、505、2956、34955]をデコードしましょう。

これらのマークは、「Datacampから多くのことを?qū)Wんだ」と解読されます。
<code>encoding = tiktoken.encoding_for_model("[模型名稱]")</code>

実用的なユースケースとヒント

エンコードとデコードに加えて、他の2つのユースケースも考えました。

コストの見積もりと管理

Openai APIにリクエストを送信する前にタグカウントを理解することで、コストを効率的に管理するのに役立ちます。 Openaiの請求は、処理されたタグの數(shù)に基づいているため、事前にタグ付きテキストを使用すると、API使用量のコストを見積もることができます。 Tiktokenを使用してテキストのタグを計算する方法は次のとおりです。

アレイの長さをチェックして、マークの數(shù)を確認(rèn)する必要があります。事前にタグの數(shù)を知ることにより、テキストを短縮するか、予算內(nèi)にとどまるために使用法を調(diào)整するかを決定できます。

<code>print(encoding.encode("我愛 DataCamp"))</code>
この方法の詳細(xì)については、PythonのTiktokenライブラリを使用してGPTのコストを推定するこのチュートリアルで読むことができます。

入力長検証

APIからOpenAIモデルを使用する場合、マーカーの入力と出力の最大數(shù)によって制限されます。これらの制限を超えると、エラーや出力が切り捨てられる可能性があります。 Tiktokenを使用すると、入力の長さを確認(rèn)し、マーキングの制限に準(zhǔn)拠していることを確認(rèn)できます。

結(jié)論

Tiktokenは、Openai言語モデルに合わせて調(diào)整された速度と効率を提供するオープンソースのシソーラスです。

Tiktokenを使用してテキストとそのさまざまなコーディングモデルをエンコードおよびデコードする方法を?qū)Wぶことで、大規(guī)模な言語モデルで作業(yè)を大幅に強(qiáng)化できます。

トップAI認(rèn)定を取得

AIを効果的かつ責(zé)任を持って使用できることを証明します。認(rèn)定され、雇われます

以上がTiktokenチュートリアル:テキストをトークン化するためのOpenai&#x27;のPythonライブラリの詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國語 Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國語版

SublimeText3 中國語版

中國語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

トップ7ノートブックルムの代替 トップ7ノートブックルムの代替 Jun 17, 2025 pm 04:32 PM

GoogleのNoteBookLMは、Gemini 2.5を搭載したスマートAIノートテイキングツールであり、ドキュメントの要約に優(yōu)れています。ただし、ソースキャップ、クラウド依存、最近の「発見」機(jī)能など、ツールの使用にはまだ制限があります。

採用から利點(diǎn)まで:2025年にエンタープライズLLMを形作る10のトレンド 採用から利點(diǎn)まで:2025年にエンタープライズLLMを形作る10のトレンド Jun 20, 2025 am 11:13 AM

エンタープライズAIランドスケープを再構(gòu)築する10の説得力のある傾向があります。LLMSORGANIZATIONSへの財政的コミットメントは、LLMSへの投資を大幅に増加させており、72%が今年の支出が増加することを期待しています?,F(xiàn)在、ほぼ40%a

AI投資家は停滯していますか? AIベンダーと購入、構(gòu)築、またはパートナーになる3つの戦略的なパス AI投資家は停滯していますか? AIベンダーと購入、構(gòu)築、またはパートナーになる3つの戦略的なパス Jul 02, 2025 am 11:13 AM

投資は活況を呈していますが、資本だけでは十分ではありません。評価が上昇し、獨(dú)特の衰退があるため、AIに焦點(diǎn)を當(dāng)てたベンチャーファンドの投資家は、優(yōu)位性を獲得するために購入、構(gòu)築、またはパートナーの重要な決定を下す必要がありますか?各オプションを評価する方法とpr

生成AIの止められない成長(AI Outlookパート1) 生成AIの止められない成長(AI Outlookパート1) Jun 21, 2025 am 11:11 AM

開示:私の會社であるTirias Researchは、IBM、Nvidia、およびこの記事で述べた他の企業(yè)に相談しました。成長ドライバー生成AI採用の急増は、最も楽観的な予測でさえ予測できるよりも劇的でした。次に、a

これらのスタートアップは、企業(yè)がAI検索の概要に登場するのを支援しています これらのスタートアップは、企業(yè)がAI検索の概要に登場するのを支援しています Jun 20, 2025 am 11:16 AM

AIのおかげで、それらの日は番號が付けられています。 1つのスタッドによると、Googleのようなサイトでの検索の60%がユーザーがリンクをクリックしていないため、旅行サイトKayakやEdtech Company Cheggなどの企業(yè)の検索トラフィックが減少しています。

新しいギャラップレポート:AI文化の準(zhǔn)備が新しいマインドセットを要求します 新しいギャラップレポート:AI文化の準(zhǔn)備が新しいマインドセットを要求します Jun 19, 2025 am 11:16 AM

広範(fàn)囲にわたる採用と感情的な準(zhǔn)備のギャップは、人間が成長しているデジタルコンパニオンの配列にどのように関與しているかについて不可欠な何かを明らかにしています。アルゴリズムが毎日のライブに織り込む共存の段階に入っています

AGIとAIのスーパーインテリジェンスは、人間の天井の仮定の障壁に急激に衝突するでしょう AGIとAIのスーパーインテリジェンスは、人間の天井の仮定の障壁に急激に衝突するでしょう Jul 04, 2025 am 11:10 AM

それについて話しましょう。 革新的なAIブレークスルーのこの分析は、さまざまなインパクトのあるAIの複雑さの特定と説明など、最新のAIで進(jìn)行中のForbes列のカバレッジの一部です(こちらのリンクを參照)。 アギに向かっています

Ciscoは、Cisco Live U.S. 2025でそのエージェントAIジャーニーをチャートします Ciscoは、Cisco Live U.S. 2025でそのエージェントAIジャーニーをチャートします Jun 19, 2025 am 11:10 AM

私が最も重要だと思ったものと、Ciscoがその野心をさらに実現(xiàn)するための現(xiàn)在の取り組みにどのように構(gòu)築されるかを詳しく見てみましょう。

See all articles