国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目次
Sklearn などの標準 Python ライブラリは、階層クラスタリングとも呼ばれる凝集クラスタリングを提供します。ただし、この例では、通常、1 億 x 1 億の距離行列が必要です。これは明らかに機能しません。実際には、ランダムな単語 A と B が同時に出現(xiàn)することはほとんどないため、距離行列は非常に離散的になります。解決策には、質(zhì)問 1 で説明したネストされたハッシュの使用など、離散グラフに適した方法の使用が含まれます。そのようなアプローチの 1 つは、基礎(chǔ)となるグラフ內(nèi)の接続コンポーネントのクラスタリングの検出に基づいています。
4. コンテキスト トークンを使用して LLM 埋め込みを強化するにはどうすればよいですか?
5. モデルの評価とトレーニングに関連する多くの問題を解決するための自己調(diào)整を?qū)g裝するにはどうすればよいですか?
6. ベクトル検索の速度を數(shù)桁向上させるにはどうすればよいですか?
7. モデルから最良の結(jié)果を得る理想的な損失関數(shù)は何ですか?
ホームページ テクノロジー周辺機器 AI GenAI および LLM の技術(shù)面接に関する 7 つのクールな質(zhì)問

GenAI および LLM の技術(shù)面接に関する 7 つのクールな質(zhì)問

Jun 07, 2024 am 10:06 AM
AI llm 大規(guī)模な言語モデル

七個很酷的GenAI & LLM技術(shù)性面試問題

AIGC について詳しく知りたい場合は、

51CTO AI を參照してください。これらの質(zhì)問は、インターネット上のどこにでもある従來の質(zhì)問バンクとは異なります。 -ボックス思考。

大規(guī)模言語モデル (LLM) は、データ サイエンス、生成人工知能 (GenAI)、人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業(yè)界で効率とイノベーションを推進し、企業(yè)が競爭力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音聲認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は、大量のデータから學習することで、テキストを生成して質(zhì)問に答え、人間と會話して、正確で価値のある情報を提供することができます。 GenAI は、さまざまなクリエイティブな機能を生成できる LLM アルゴリズムとモデルに依存しています。ただし、GenAI と LLM はますます一般的になりつつありますが、その複雑さを深く理解できる詳細なリソースがまだ不足しています。職場に新しく入社した人は、GenAI や LLM の機能や実際の応用について面接を行うと、未知の領(lǐng)域に行き詰まっていると感じることがよくあります。

この目的のために、GenAI と LLM に関する技術(shù)面接の質(zhì)問を記録するこのガイドブックを作成しました。詳細な回答を備えたこのガイドは、面接の準備をし、自信を持って課題に取り組み、AI とデータ サイエンスの未來を形作る上での GenAI と LLM の影響と可能性をより深く理解できるように設(shè)計されています。

1. Python で埋め込み辭書を使用してナレッジ グラフを構(gòu)築するにはどうすればよいですか?

1 つの方法は、キーが単語、トークン、概念であるハッシュ (Python の辭書、キー値テーブルとも呼ばれます) を使用することです。または「數(shù)學」などのカテゴリ。各キーは値に対応し、それ自體がハッシュ、つまりネストされたハッシュです。ネストされたハッシュのキーは、「微積分」のような単語など、親ハッシュの親キーに関連する?yún)g語でもあります。値は重みです?!肝⒎e分」と「數(shù)學」は関連しており、一緒に現(xiàn)れることが多いため、「微積分」の値は高くなります。逆に、「レストラン」と「數(shù)學」が一緒に現(xiàn)れることはほとんどないため、「レストラン」の値は低くなります。

LLM では、ネストされたハッシュが埋め込み (高次元データを低次元空間にマッピングする方法。通常、コンピューター処理を容易にするために、離散的で非連続なデータを連続ベクトル表現(xiàn)に変換するために使用されます) である可能性があります。ネストされたハッシュには固定數(shù)の要素がないため、ベクトル データベースや行列よりもはるかに適切に離散グラフを処理できます。アルゴリズムが高速化され、必要なメモリが少なくなります。

2. データに 1 億個のキーワードが含まれている場合に階層的クラスタリングを?qū)g行するにはどうすればよいですか?

キーワードをクラスター化したい場合は、キーワード {A, B} の各ペアについて、學習する 2 つの単語間の A と B の類似度を計算できます。どれだけ似ているか。目標は、類似したキーワードのクラスターを生成することです。

Sklearn などの標準 Python ライブラリは、階層クラスタリングとも呼ばれる凝集クラスタリングを提供します。ただし、この例では、通常、1 億 x 1 億の距離行列が必要です。これは明らかに機能しません。実際には、ランダムな単語 A と B が同時に出現(xiàn)することはほとんどないため、距離行列は非常に離散的になります。解決策には、質(zhì)問 1 で説明したネストされたハッシュの使用など、離散グラフに適した方法の使用が含まれます。そのようなアプローチの 1 つは、基礎(chǔ)となるグラフ內(nèi)の接続コンポーネントのクラスタリングの検出に基づいています。

3. Wikipedia のような大規(guī)模なリポジトリをクロールして、個々のエントリだけでなく、基礎(chǔ)となる構(gòu)造を取得するにはどうすればよいですか?

これらのリポジトリはすべて、構(gòu)造化された要素を Web ページに埋め込んでおり、一見したところよりも興味深いコンテンツになっています。メタデータなど、一部の構(gòu)造要素は肉眼では見えません。インデックス、関連項目、ブレッドクラム、カテゴリなど、一部の項目は表示され、クロールされたデータにも存在します。これらの要素を個別に検索して、適切なナレッジ グラフや分類法を構(gòu)築できます。ただし、Beautiful Soup のようなツールに頼るのではなく、獨自のクローラーを最初から作成することもできます。構(gòu)造情報が豊富な LLM (xLLM など) により、より良い結(jié)果が得られます。さらに、リポジトリに構(gòu)造が不足している場合は、外部ソースから取得した構(gòu)造を使用してスクレイピングしたデータを拡張できます。このプロセスは「構(gòu)造拡張」と呼ばれます。

4. コンテキスト トークンを使用して LLM 埋め込みを強化するにはどうすればよいですか?

埋め込みは、あらゆるドキュメント內(nèi)で見つかる最小のテキスト要素で構(gòu)成されます。 「data」と「science」のように必ずしも 2 つのトークンを持つ必要はなく、「data^science」、「data」、「science」、「data~science」の 4 つのトークンを持つことができます。最後のものは、「データサイエンス」という用語の発見を表しています。 1 つ目は、「データ」と「サイエンス」の両方が、隣接する位置ではなく、特定の段落內(nèi)のランダムな位置に存在することを意味します。このようなトークンは、マルチトークンまたはコンテキスト トークンと呼ばれます。これらはある程度の優(yōu)れた冗長性を提供しますが、注意しないと巨大な埋め込みが発生する可能性があります。解決策には、不要なトークンを削除する (最も長いトークンを保持する) ことや、可変サイズの埋め込みを使用することが含まれます。コンテキストに応じたコンテンツは、LLM の錯覚を軽減するのに役立ちます。

5. モデルの評価とトレーニングに関連する多くの問題を解決するための自己調(diào)整を?qū)g裝するにはどうすればよいですか?

これは、ニューラル ネットワークのブラック ボックスではなく、説明可能な AI に基づくシステムに適用されます。アプリケーションのユーザーがハイパーパラメータを選択し、気に入ったパラメータをマークできるようにします。この情報を使用して、理想的なハイパーパラメータを見つけ、デフォルト値に設(shè)定します。これは、ユーザー入力に基づいた自動強化學習です。また、ユーザーが希望する結(jié)果に基づいてお気に入りのスーツを選択できるため、アプリケーションをカスタマイズできるようになります。 LLM 內(nèi)では、ユーザーが特定のサブ LLM を選択できるようにすることで (検索タイプやカテゴリに基づいて)、パフォーマンスをさらに向上させることができます。出力內(nèi)の各項目に関連性スコアを追加すると、システムを微調(diào)整するのにも役立ちます。

6. ベクトル検索の速度を數(shù)桁向上させるにはどうすればよいですか?

LLM では、可変長の埋め込みを使用すると、埋め込みのサイズが大幅に削減されます。したがって、フロントエンド プロンプトでキャプチャされたものと同様のバックエンド埋め込みの検索が高速化されます。ただし、キーと値のテーブルなど、異なるタイプのデータベースが必要になる場合があります。トークンのサイズと埋め込みテーブルを減らすことも別の解決策です。1 兆トークンのシステムでは、プロンプトに答えるためにトークンの 95% が抽出されることはありません。ただのノイズなので取り除きましょう。コンテキスト トークンの使用 (質(zhì)問 4 を參照) は、情報をよりコンパクトな方法で保存するもう 1 つの方法です。最後に、圧縮された埋め込みに対して近似最近傍 (ANN) 検索が実行されます。確率的バージョン (pANN) ははるかに高速に実行できます。以下の図を參照してください。最後に、キャッシュ メカニズムを使用して、最も頻繁にアクセスされる埋め込みまたはクエリを保存し、リアルタイム パフォーマンスを向上させます。

七個很酷的GenAI & LLM技術(shù)性面試問題

確率的近似最近傍探索 (pANN)

経験によれば、トレーニング セットのサイズを 50% 削減するとより良い結(jié)果が得られ、過學習効果は大幅に減少します。 LLM では、インターネット全體を検索するよりも、いくつかの適切な入力ソースを選択する方が良いでしょう。萬能ではなく、トップレベル カテゴリごとに専用の LLM を使用すると、埋め込みの數(shù)がさらに削減されます。各チップは、データベース全體ではなく、特定のサブ LLM をターゲットにします。

7. モデルから最良の結(jié)果を得る理想的な損失関數(shù)は何ですか?

最良の解決策は、モデル評価メトリクスを損失関數(shù)として使用することです。これがめったに行われない理由は、ニューラル ネットワーク內(nèi)でニューロンが活性化されるたびに非常に迅速に更新できる損失関數(shù)が必要であるためです。ニューラル ネットワークのコンテキストでは、別の解決策は、各エポックの後に評価メトリックを計算し、損失が最小のエポック生成ソリューションではなく、最良の評価スコアを持つエポック生成ソリューションに留まるというものです。

私は現(xiàn)在、評価指標と損失関數(shù)が同じであるシステムに取り組んでいます。ニューラル ネットワークに基づいていません。當初、私の評価指標は多変量コルモゴロフ-スミルノフ距離 (KS) でした。しかし、多くの計算を行わないと、ビッグ データの KS でアトミックな更新を?qū)g行することは非常に困難です。これにより、何十億ものアトミックな更新が必要になるため、KS は損失関數(shù)としては不適切になります。しかし、累積分布関數(shù)を數(shù)百萬のビンを含む確率密度関數(shù)に変更することで、損失関數(shù)としても機能する優(yōu)れた評価指標を思いつくことができました。

原題: 7 Cool Technical GenAI & LLM Job Interviewquestions、著者: Vincent Granville

リンク: https://www.datasciencecentral.com/7-cool-technical-genai-llm-job-interview-questions/。

AIGC について詳しくは、こちらをご覧ください:

51CTO AI.x コミュニティ

https://www.51cto.com/aigc/

以上がGenAI および LLM の技術(shù)面接に関する 7 つのクールな質(zhì)問の詳細內(nèi)容です。詳細については、PHP 中國語 Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當する法的責任を負いません。盜作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國語版

SublimeText3 中國語版

中國語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Jun 28, 2024 am 03:51 AM

このサイトは6月27日、JianyingはByteDanceの子會社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティング システム。 Jianyingは會員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年會費は599元(當サイト注:月額49.9元に相當)、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元(月額41.6元に相當)です。さらに、カット擔當者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

Groq Llama 3 70B をローカルで使用するためのステップバイステップ ガイド Groq Llama 3 70B をローカルで使用するためのステップバイステップ ガイド Jun 10, 2024 am 09:16 AM

翻訳者 | Bugatti レビュー | Chonglou この記事では、GroqLPU 推論エンジンを使用して JanAI と VSCode で超高速応答を生成する方法について説明します。 Groq は AI のインフラストラクチャ側(cè)に焦點を當てているなど、誰もがより優(yōu)れた大規(guī)模言語モデル (LLM) の構(gòu)築に取り組んでいます。これらの大型モデルがより迅速に応答するためには、これらの大型モデルからの迅速な応答が鍵となります。このチュートリアルでは、GroqLPU 解析エンジンと、API と JanAI を使用してラップトップ上でローカルにアクセスする方法を紹介します。この記事では、これを VSCode に統(tǒng)合して、コードの生成、コードのリファクタリング、ドキュメントの入力、テスト ユニットの生成を支援します。この記事では、獨自の人工知能プログラミングアシスタントを無料で作成します。 GroqLPU 推論エンジン Groq の概要

Rag と Sem-Rag を使用したコンテキスト拡張 AI コーディング アシスタント Rag と Sem-Rag を使用したコンテキスト拡張 AI コーディング アシスタント Jun 10, 2024 am 11:08 AM

検索強化生成およびセマンティック メモリを AI コーディング アシスタントに組み込むことで、開発者の生産性、効率、精度を向上させます。 JanakiramMSV 著者の EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG から翻訳?;镜膜?AI プログラミング アシスタントは當然役に立ちますが、ソフトウェア言語とソフトウェア作成の最も一般的なパターンに関する一般的な理解に依存しているため、最も適切で正しいコードの提案を提供できないことがよくあります。これらのコーディング アシスタントによって生成されたコードは、彼らが解決する責任を負っている問題の解決には適していますが、多くの場合、個々のチームのコーディング標準、規(guī)約、スタイルには準拠していません。これにより、コードがアプリケーションに受け入れられるように修正または調(diào)整する必要がある提案が得られることがよくあります。

GenAI および LLM の技術(shù)面接に関する 7 つのクールな質(zhì)問 GenAI および LLM の技術(shù)面接に関する 7 つのクールな質(zhì)問 Jun 07, 2024 am 10:06 AM

AIGC について詳しくは、51CTOAI.x コミュニティ https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou を參照してください。これらの質(zhì)問は、インターネット上のどこでも見られる従來の質(zhì)問バンクとは異なります。既成概念にとらわれずに考える必要があります。大規(guī)模言語モデル (LLM) は、データ サイエンス、生成人工知能 (GenAI)、および人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業(yè)界で効率とイノベーションを推進し、企業(yè)が競爭力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音聲認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は大量のデータから學習することでテキストを生成できます。

ナレッジグラフ検索用に強化された GraphRAG (Neo4j コードに基づいて実裝) ナレッジグラフ検索用に強化された GraphRAG (Neo4j コードに基づいて実裝) Jun 12, 2024 am 10:32 AM

Graph Retrieval Enhanced Generation (GraphRAG) は徐々に普及しており、従來のベクトル検索方法を強力に補完するものとなっています。この方法では、グラフ データベースの構(gòu)造的特徴を利用してデータをノードと関係の形式で編成し、それによって取得された情報の深さと文脈の関連性が強化されます。グラフには、相互に関連する多様な情報を表現(xiàn)および保存するという自然な利點があり、異なるデータ型間の複雑な関係やプロパティを簡単に把握できます。ベクトル データベースはこの種の構(gòu)造化情報を処理できず、高次元ベクトルで表される非構(gòu)造化データの処理に重點を置いています。 RAG アプリケーションでは、構(gòu)造化グラフ データと非構(gòu)造化テキスト ベクトル検索を組み合わせることで、両方の利點を同時に享受できます。これについてこの記事で説明します。構(gòu)造

Plaud、NotePin AI ウェアラブル レコーダーを 169 ドルで発売 Plaud、NotePin AI ウェアラブル レコーダーを 169 ドルで発売 Aug 29, 2024 pm 02:37 PM

Plaud Note AI ボイスレコーダー (Amazon で 159 ドルで購入可能) を開発した企業(yè) Plaud が新製品を発表しました。 NotePin と呼ばれるこのデバイスは AI メモリ カプセルとして説明されており、Humane AI Pin と同様にウェアラブルです。ノートピンは

新しい科學的で複雑な質(zhì)問応答ベンチマークと大規(guī)模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大學、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 新しい科學的で複雑な質(zhì)問応答ベンチマークと大規(guī)模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大學、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質(zhì)問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質(zhì)の QA データ セットは、モデルの微調(diào)整に使用できるだけでなく、大規(guī)模言語モデル (LLM) の機能、特に科學的知識を理解し推論する能力を効果的に評価することもできます?,F(xiàn)在、醫(yī)學、化學、生物學、その他の分野をカバーする多くの科學 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠點があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質(zhì)問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科學的な質(zhì)問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

See all articles