成人免费网站,丁香婷婷激情综合俺也去

Table des matières

Bases d'Openai

coder le texte en tant que marqueur

décoder la marque dans le texte

cas d'utilisation pratiques et conseils

Estimation et gestion des co?ts

Vérification de la longueur d'entrée

Conclusion

Obtenez la certification AI Top

Maison

Périphériques technologiques

Tutoriel Tiktoken: Bibliothèque Python Openai & # x27;

Jennifer Aniston

Mar 05, 2025 am 10:30 AM

Tiktoken Tutorial: OpenAI's Python Library for Tokenizing Text

Le participe de particules est une étape de base dans le traitement des taches de traitement du langage naturel (NLP). Cela implique de diviser le texte en unités plus petites, appelées marqueurs, qui peuvent être des mots, des sous-mots ou des caractères.

La segmentation efficace des mots est essentielle aux performances des modèles de langage, ce qui en fait une étape importante dans une variété de taches PNL telles que la génération de texte, la traduction et l'abstraction.

tiktoken est un thésaurus rapide et efficace développé par Openai. Il fournit une solution puissante pour convertir le texte en balises et vice versa. Sa vitesse et son efficacité en font un excellent choix pour les développeurs et les scientifiques des données qui travaillent avec de grands ensembles de données et des modèles complexes.

Ce guide est con?u pour les développeurs, les scientifiques des données et toute personne qui prévoit d'utiliser TikToken et a besoin d'un guide pratique qui contient des exemples.

Bases d'Openai

Commencez avec API Openai et plus encore!

Démarrez maintenant Vous pouvez afficher le code de la version Python Open Source TikToken dans le référentiel GitHub suivant.

Pour importer la bibliothèque, nous exécutons:

<code>pip install tiktoken</code>

Modèle de codage

Le modèle de codage dans TikToken détermine les règles de divulguer du texte en balises. Ces modèles sont cruciaux car ils définissent comment le texte est segmenté et codé, ce qui affecte l'efficacité et la précision des taches de traitement du langage. Différents modèles OpenAI utilisent différents encodages.

<code>import tiktoken</code>

TikToken fournit trois modèles de codage optimisés pour différents cas d'utilisation:

O200K_BASE: Encodage du dernier modèle GPT-4O-MINI.

CL100K_BASE: Modèles de codage pour les nouveaux modèles OpenAI tels que GPT-4 et GPT-3.5-Turbo.

p50k_base: modèles de codex utilisés dans les applications de code.

R50K_BASE: Encodage plus ancien pour différentes versions de GPT-3.

Tous ces modèles sont disponibles pour l'API d'Openai. Notez que l'API fournit beaucoup plus de modèles que ceux énumérés ici. Heureusement, la bibliothèque Tiktoken offre un moyen facile de vérifier quel codage doit être utilisé avec quel modèle.

Par exemple, si j'ai besoin de savoir quel modèle de codage le modèle de texte-3 utilise, je peux exécuter la commande suivante et obtenir la réponse en sortie:

<code>pip install tiktoken</code>

Nous obtenons en tant que sortie. Avant d'utiliser directement TikToken, je voudrais mentionner qu'Openai a une application Web à jetons où vous pouvez voir comment différentes cha?nes sont tokenisées - vous pouvez y accéder ici. Il existe également un tagger en ligne tiers, TikTokenizer, qui prend en charge les modèles non openai.

coder le texte en tant que marqueur

Pour coder le texte comme une balise en utilisant TikToken, vous devez d'abord obtenir l'objet codé. Il existe deux fa?ons de l'initialiser. Tout d'abord, vous pouvez le faire en utilisant le nom du tokenzer:

<code>import tiktoken</code>

Alternativement, vous pouvez exécuter la fonction coding_for_model mentionnée plus t?t pour obtenir le codeur d'un modèle spécifique:

<code>print(tiktoken.encoding_for_model('text-embedding-3-small'))</code>

Maintenant, nous pouvons exécuter la méthode d'encoder de l'objet Encode pour coder la cha?ne. Par exemple, nous pouvons coder la cha?ne "j'aime datacamp" comme suit - Ici, j'utilise le codeur CL100K_BASE:

<code>encoding = tiktoken.get_encoding("[標(biāo)記器名稱]")</code>

Nous obtenons [40, 3021, 2956, 34955] comme sortie.

décoder la marque dans le texte

Pour décoder la marque vers le texte, nous pouvons utiliser la méthode .decode () sur l'objet codé.

Décodons la balise suivante [40, 4048, 264, 2763, 505, 2956, 34955]:

<code>encoding = tiktoken.encoding_for_model("[模型名稱]")</code>

Ces marques sont décodées comme "J'ai beaucoup appris de Datacamp".

cas d'utilisation pratiques et conseils

En plus du codage et du décodage, j'ai également pensé à deux autres cas d'utilisation.

Estimation et gestion des co?ts

Comprendre le comptage des balises avant d'envoyer une demande à l'API OpenAI peut vous aider à gérer efficacement les co?ts. Parce que la facturation d'Openai est basée sur le nombre d'étiquettes traitées, le texte pré-marqué vous permet d'estimer le co?t de l'utilisation de l'API. Voici comment calculer les balises dans le texte en utilisant tiktoken:

<code>print(encoding.encode("我愛(ài) DataCamp"))</code>

Nous avons juste besoin de vérifier la longueur du tableau pour voir combien de notes nous obtenons. En connaissant le nombre d'étiquettes à l'avance, vous pouvez décider de raccourcir le texte ou d'ajuster l'utilisation pour rester dans votre budget.

Vous pouvez en savoir plus sur cette méthode dans ce tutoriel sur l'estimation du co?t de GPT en utilisant la bibliothèque Tiktoken à Python.

Vérification de la longueur d'entrée

Lorsque vous utilisez des modèles OpenAI de l'API, vous êtes limité par le nombre maximum de marqueurs d'entrée et de sortie. Le dépassement de ces limites peut entra?ner des erreurs ou une sortie tronquée. Avec TikToken, vous pouvez vérifier la longueur d'entrée et vous assurer qu'elle est conforme à la limite de marquage.

Conclusion

TikToken est un thésaurus open source qui offre une vitesse et une efficacité adaptées au modèle de langue Openai.

Apprendre à utiliser TikToken pour encoder et décoder du texte et ses différents modèles de codage peuvent améliorer considérablement votre travail avec de grands modèles de langue.

Obtenez la certification AI Top

prouver que vous pouvez utiliser l'IA efficace et de manière responsable. Soyez certifié, soyez embauché

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefa?on, veuillez contacter admin@php.cn

Outils d'IA chauds

Undress AI Tool

Images de déshabillage gratuites

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Afficher plus

Article chaud

Guide: Stellar Blade Enregistrer le fichier Emplacement / enregistrer le fichier perdu / ne pas enregistrer

4 Il y a quelques semaines By DDD

Oguri Cap Build Guide | Un joli Musume Derby

2 Il y a quelques semaines By Jack chen

Guide de construction d'Agnes Tachyon | Un joli Musume Derby

2 Il y a quelques semaines By Jack chen

Dune: Awakening - Planétologue avancé Procédure pas à pas

4 Il y a quelques semaines By Jack chen

Datez tout: guide relationnel de Dirk et Harper

4 Il y a quelques semaines By Jack chen

Afficher plus

Outils chauds

Bloc-notes++7.3.1

éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

8638

Tutoriel Java

1784

Tutoriel CakePHP

1729

Tutoriel Laravel

1580

Tutoriel PHP

1445

Afficher plus

Related knowledge

Top 7 Alternatives Notebooklm Jun 17, 2025 pm 04:32 PM

Notebooklm de Google est un outil de prise de notes SMART IA propulsé par Gemini 2.5, qui excelle à résumer les documents. Cependant, il a toujours des limites dans l'utilisation des outils, comme les bouchons de source, la dépendance au nuage et la fonction récentes ?Discover?

De l'adoption à l'avantage: 10 tendances fa?onnant les LLM de l'entreprise en 2025 Jun 20, 2025 am 11:13 AM

Voici dix tendances convaincantes qui remodèlent le paysage de l'IA de l'entreprise. L'engagement financier de la lancement envers les organisations LLMS augmente considérablement leurs investissements dans les LLM, 72% s'attendant à ce que leurs dépenses augmentent cette année. Actuellement, près de 40% A

L'investisseur de l'IA est resté à l'arrêt? 3 chemins stratégiques pour acheter, construire ou s'associer avec les fournisseurs d'IA Jul 02, 2025 am 11:13 AM

L'investissement est en plein essor, mais le capital seul ne suffit pas. Avec la montée et la décoloration des évaluations, les investisseurs dans les fonds de capital-risque axés sur l'IA doivent prendre une décision clé: acheter, construire ou partenaire pour gagner un avantage? Voici comment évaluer chaque option et PR

La croissance imparable de l'IA générative (Perspectives de l'IA partie 1) Jun 21, 2025 am 11:11 AM

Divulgation: mon entreprise, Tirias Research, a consulté IBM, NVIDIA et d'autres sociétés mentionnées dans cet article.Les moteurs de croissance La poussée de l'adoption générative de l'IA était plus dramatique que même les projections les plus optimistes ne pourraient prévoir. Ensuite, un

Nouveau rapport Gallup: la préparation à la culture de l'IA exige de nouveaux mentalités Jun 19, 2025 am 11:16 AM

L'écart entre l'adoption généralisée et la préparation émotionnelle révèle quelque chose d'essentiel sur la fa?on dont les humains s'engagent avec leur gamme croissante de compagnons numériques. Nous entrons dans une phase de coexistence où les algorithmes se tissent dans notre quotidien en direct

Ces startups aident les entreprises à se présenter dans des résumés de recherche d'IA Jun 20, 2025 am 11:16 AM

Ces jours sont comptés, grace à l'IA. Le trafic de recherche pour des entreprises comme le site de voyage Kayak et Edtech Company Chegg en baisse, en partie parce que 60% des recherches sur des sites comme Google ne font pas que les utilisateurs cliquent sur des liens, selon un étalon

AGI et AI Superintelligence vont fortement frapper la barrière d'hypothèse du plafond humain Jul 04, 2025 am 11:10 AM

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Se dirigeant vers Agi et

Cisco traque son voyage d'origine AI chez Cisco Live U.S.2025 Jun 19, 2025 am 11:10 AM

Examinons de plus près ce que j'ai trouvé le plus important - et comment Cisco pourrait s'appuyer sur ses efforts actuels pour réaliser davantage ses ambitions. (Remarque: Cisco est un client consultatif de mon entreprise, Moor Insights & Strategy.)

See all articles

国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

Tutoriel Tiktoken: Bibliothèque Python Openai & # x27;

Bases d'Openai

O200K_BASE: Encodage du dernier modèle GPT-4O-MINI. CL100K_BASE: Modèles de codage pour les nouveaux modèles OpenAI tels que GPT-4 et GPT-3.5-Turbo. p50k_base: modèles de codex utilisés dans les applications de code. R50K_BASE: Encodage plus ancien pour différentes versions de GPT-3.

coder le texte en tant que marqueur

décoder la marque dans le texte

cas d'utilisation pratiques et conseils

Estimation et gestion des co?ts

Vérification de la longueur d'entrée

Conclusion

Obtenez la certification AI Top

Outils d'IA chauds

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

Article chaud

Outils chauds

Bloc-notes++7.3.1

SublimeText3 version chinoise

Envoyer Studio 13.0.1

Dreamweaver CS6

SublimeText3 version Mac

Sujets chauds

O200K_BASE: Encodage du dernier modèle GPT-4O-MINI.

CL100K_BASE: Modèles de codage pour les nouveaux modèles OpenAI tels que GPT-4 et GPT-3.5-Turbo.

p50k_base: modèles de codex utilisés dans les applications de code.

R50K_BASE: Encodage plus ancien pour différentes versions de GPT-3.