babescom欧美熟妇,国产chinese男男gaygay免费网站,成人免费a级毛片无码片2022

對(duì)於印地語(yǔ)等印度語(yǔ)系的自然語(yǔ)言處理(NLP) 任務(wù)（如機(jī)器翻譯、問(wèn)答和信息檢索）而言，詞嵌入至關(guān)重要。這些嵌入捕捉單詞的語(yǔ)義屬性，從而實(shí)現(xiàn)更準(zhǔn)確、更注重語(yǔ)境的NLP 應(yīng)用。鑑於印地語(yǔ)使用者眾多且印度語(yǔ)係數(shù)字內(nèi)容日益增長(zhǎng)，高質(zhì)量的嵌入對(duì)於提高這些語(yǔ)言的NLP 性能至關(guān)重要。定制化的嵌入可以特別解決印度語(yǔ)系的獨(dú)特語(yǔ)言特徵和資源限制問(wèn)題。新發(fā)布的Gemini Embedding 模型代表了多語(yǔ)言文本嵌入的重大進(jìn)步，它利用谷歌強(qiáng)大的Gemini AI 框架，在100 多種語(yǔ)言中實(shí)現(xiàn)了最先進(jìn)的性能。

Gemini Embedding 模型擅長(zhǎng)分類、檢索和語(yǔ)義搜索等任務(wù)，提供更高的效率和準(zhǔn)確性。通過(guò)支持更大的輸入規(guī)模和更高維度的輸出，Gemini Embedding 提供更豐富的文本表示，使其能夠廣泛應(yīng)用於各種應(yīng)用。

學(xué)習(xí)目標(biāo)

了解Gemini 嵌入及其與Gemini LLM 的集成。
使用Gemini 嵌入檢索印地語(yǔ)文檔的實(shí)踐教程。
與Jina AI 嵌入和Multilingual-e5-large 的比較分析。
對(duì)多語(yǔ)言文本檢索能力和應(yīng)用的見(jiàn)解。

*本文作為***數(shù)據(jù)科學(xué)博客馬拉松的一部分發(fā)表。 ***

什麼是Gemini 嵌入？
Gemini 嵌入的關(guān)鍵特性
Gemini 嵌入的模型架構(gòu)
與其他多語(yǔ)言嵌入模型的比較
使用Gemini 嵌入進(jìn)行檢索，並與Jina AI 嵌入和Multilingual-e5-large 進(jìn)行比較
- 步驟1. 安裝必要的庫(kù)
- 步驟2. 加載數(shù)據(jù)
- 步驟3. 對(duì)數(shù)據(jù)進(jìn)行分塊
- 步驟4. 將數(shù)據(jù)存儲(chǔ)在向量數(shù)據(jù)庫(kù)中
- 步驟5. 查詢數(shù)據(jù)庫(kù)
- 步驟6. 與Jina AI 嵌入進(jìn)行比較
嵌入檢索輸出的比較
- 解釋
結(jié)論
常見(jiàn)問(wèn)題

什麼是Gemini 嵌入？

2025 年3 月，谷歌發(fā)布了一個(gè)新的實(shí)驗(yàn)性Gemini Embedding 文本模型(gemini-embedding-exp-03-07)，可在Gemini API 中使用。

該高級(jí)嵌入模型源於Gemini 模型，據(jù)稱繼承了Gemini 對(duì)語(yǔ)言和細(xì)微語(yǔ)境細(xì)微差別的深刻理解，使其能夠廣泛應(yīng)用於各種應(yīng)用。它在MTEB 多語(yǔ)言排行榜上佔(zhàn)據(jù)榜首。

Comparison of Gemini Embedding with Multilingual-e5-large & Jina

Gemini Embedding 將文本表示為密集向量，其中語(yǔ)義相似的文本輸入映射到向量空間中彼此靠近的向量。目前，它支持100 多種語(yǔ)言，其嵌入可用於各種任務(wù)，例如檢索和分類。

Gemini 嵌入的關(guān)鍵特性

強(qiáng)大的多語(yǔ)言能力: 該模型在100 多種語(yǔ)言中展現(xiàn)出卓越的性能，不僅在英語(yǔ)等高資源語(yǔ)言中表現(xiàn)出色，而且在阿薩姆語(yǔ)和馬其頓語(yǔ)等低資源語(yǔ)言中也表現(xiàn)出色。
處理多達(dá)8000 個(gè)輸入標(biāo)記: 這種強(qiáng)大的能力使模型能夠無(wú)縫處理冗長(zhǎng)的文檔或複雜的查詢，而不會(huì)截?cái)?，從而以超越許多現(xiàn)有嵌入模型的方式保持上下文和含義。
3K 維的輸出維度: 該模型生成的嵌入維度高達(dá)3072，並支持768 和1536 等子維度，以便進(jìn)行特定於任務(wù)的優(yōu)化。
令人印象深刻的性能: Gemini Embedding 在海量文本嵌入基準(zhǔn)測(cè)試(MTEB) 中排名第一，平均任務(wù)得分為68.32，大大超過(guò)了其最接近的競(jìng)爭(zhēng)對(duì)手。

Gemini 嵌入的模型架構(gòu)

Comparison of Gemini Embedding with Multilingual-e5-large & Jina

Gemini Embedding 的核心是基於Transformer 架構(gòu)，並從Gemini LLM 初始化。這個(gè)基礎(chǔ)為模型提供了對(duì)語(yǔ)言結(jié)構(gòu)和語(yǔ)義的深刻理解。該模型使用雙向注意力機(jī)制來(lái)處理輸入序列，使其在生成嵌入時(shí)能夠考慮單詞或短語(yǔ)的完整上下文。

輸入序列T 由M（一個(gè)具有雙向注意力的Transformer，從Gemini 初始化）處理，產(chǎn)生一個(gè)標(biāo)記嵌入序列。
為了生成一個(gè)表示輸入中所有信息的單個(gè)嵌入，應(yīng)用池化函數(shù)。
最後，應(yīng)用線性投影將嵌入縮放至目標(biāo)維度，從而產(chǎn)生最終輸出嵌入。

損失函數(shù): Gemini Embedding 模型使用帶批內(nèi)負(fù)例的噪聲對(duì)比估計(jì)(NCE) 損失進(jìn)行訓(xùn)練。確切的損失會(huì)根據(jù)訓(xùn)練階段略有不同。一般來(lái)說(shuō)，一個(gè)訓(xùn)練示例包括一個(gè)查詢、一個(gè)正目標(biāo)和（可選）一個(gè)難負(fù)目標(biāo)。

訓(xùn)練策略

預(yù)微調(diào): 在此階段，模型在一個(gè)包含查詢-目標(biāo)對(duì)的大型多樣化數(shù)據(jù)集上進(jìn)行訓(xùn)練。這種曝光調(diào)整大型語(yǔ)言模型的參數(shù)以進(jìn)行編碼任務(wù)，為其適應(yīng)性奠定基礎(chǔ)。
微調(diào): 在第二階段，模型使用包含查詢-正例-難負(fù)例三元組的特定於任務(wù)的數(shù)據(jù)集進(jìn)行微調(diào)。此過(guò)程使用較小的批量大小和精心策劃的數(shù)據(jù)集來(lái)提高目標(biāo)任務(wù)的性能。

另請(qǐng)閱讀：Gemini Embedding：來(lái)自Gemini 的通用嵌入

與其他多語(yǔ)言嵌入模型的比較

我們將印地語(yǔ)文檔的檢索與新發(fā)布的最新Gemini 嵌入進(jìn)行比較，然後將其與Jina AI 嵌入和Multilingual-e5-large 嵌入進(jìn)行比較。如下表所示，就最大標(biāo)記數(shù)而言，Gemini 嵌入和Jina AI 嵌入很高，使模型能夠處理長(zhǎng)文檔或複雜的查詢。此外，如下表所示，Gemini 嵌入具有更高的嵌入維度，可以捕捉單詞之間更細(xì)緻和更細(xì)微的語(yǔ)義關(guān)係，使模型能夠表示複雜的語(yǔ)言模式和含義的細(xì)微差別。

	參數(shù)數(shù)量	嵌入維度	最大標(biāo)記	語(yǔ)言數(shù)量	套娃嵌入
gemini-embedding-exp-03-07	未知	3072	8192	100	支持將嵌入截?cái)酁楦鞣N尺寸，例如2048、1024、512、256 和128 維度，
jinaai/jina-embeddings-v3	5.72 億	1024	8194	100	支持靈活的嵌入大小(32、64、128、256、512、768、1024)，允許截?cái)嗲度胍赃m應(yīng)您的應(yīng)用程序
multilingual-e5-large-instruct	5.6 億	1024	514	94	NA

使用Gemini 嵌入進(jìn)行檢索，並與Jina AI 嵌入和Multilingual-e5-large 進(jìn)行比較

在以下實(shí)踐教程中，我們將印地語(yǔ)文檔的檢索與新發(fā)布的最新Gemini 嵌入進(jìn)行比較，然後將其與Jina AI 嵌入和Multilingual-e5-large 嵌入進(jìn)行比較。

步驟1. 安裝必要的庫(kù)

<code>!pip install langchain-community !pip install chromadb</code>

步驟2. 加載數(shù)據(jù)

我們使用來(lái)自網(wǎng)站的印地語(yǔ)數(shù)據(jù)來(lái)評(píng)估Gemini 嵌入在印地語(yǔ)語(yǔ)言檢索方面的性能。

 <code>from langchain_community.document_loaders import WebBaseLoader loader = WebBaseLoader("https://ckbirlahospitals.com/rbh/blog/pregnancy-early-symptoms-in-hindi") data = loader.load()</code>

步驟3. 對(duì)數(shù)據(jù)進(jìn)行分塊

下面的代碼使用RecursiveCharacterTextSplitter 將大型文本文檔拆分成500 個(gè)字符的小塊，沒(méi)有重疊。然後，它將此拆分應(yīng)用於datavariable 並將結(jié)果存儲(chǔ)在all_splits 中。由於Gemini Embedding API 的速率限制，我們只使用10 個(gè)拆分。

 <code>from langchain_text_splitters import RecursiveCharacterTextSplitter text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0) all_splits = text_splitter.split_documents(data) all_splits = all_splits[:10]</code>

步驟4. 將數(shù)據(jù)存儲(chǔ)在向量數(shù)據(jù)庫(kù)中

我們首先創(chuàng)建一個(gè)名為“GeminiEmbeddingFunction”的類，它有助於查詢Gemini Embedding API 並返回輸入查詢的嵌入值。然後，我們創(chuàng)建一個(gè)名為“create_chroma_db”的函數(shù)，用於在ChromaDB 中創(chuàng)建一個(gè)集合，該集合將存儲(chǔ)數(shù)據(jù)以及嵌入。

 <code>import chromadb from chromadb import Documents, EmbeddingFunction, Embeddings class GeminiEmbeddingFunction(EmbeddingFunction): def __call__(self, input: Documents) -> Embeddings: title = "Custom query" return client.models.embed_content( model="gemini-embedding-exp-03-07", contents=input).embeddings[0].values def create_chroma_db(documents, name): chroma_client = chromadb.Client() db = chroma_client.create_collection(name=name, embedding_function=GeminiEmbeddingFunction()) for i, d in enumerate(documents): db.add( documents=d.page_content, ids=str(i) ) return db db = create_chroma_db(all_splits, "datab")</code>

步驟5. 查詢數(shù)據(jù)庫(kù)

<code>def get_relevant_passage(query, db): passage = db.query(query_texts=[query], n_results=1)['documents'][0][0] return passage passage = get_relevant_passage("???? ?????????? ????? ?? ?????? ??????", db) print(passage)</code>

步驟6. 與Jina AI 嵌入進(jìn)行比較

下面的代碼使用Hugging Face transformer 模型定義了一個(gè)自定義嵌入函數(shù)，以及一種處理文本輸入以生成嵌入的方法。

來(lái)自transformers 的AutoTokenizer 和AutoModel 用於加載預(yù)訓(xùn)練模型(jinaai/jina-embeddings-v3)，並從chromadb 導(dǎo)入EmbeddingFunction 用於創(chuàng)建自定義嵌入。
average_pool 函數(shù)：此函數(shù)通過(guò)對(duì)模型的隱藏狀態(tài)執(zhí)行池化操作來(lái)聚合它們，在考慮注意力掩碼（忽略填充標(biāo)記）的同時(shí)對(duì)序列長(zhǎng)度取平均值。
CustomHuggingFace 類：它對(duì)文本進(jìn)行標(biāo)記化，將其饋送到模型中，並使用average_pool 函數(shù)計(jì)算嵌入。結(jié)果作為嵌入列表返回。

 <code>from transformers import AutoTokenizer, AutoModel from chromadb import EmbeddingFunction tokenizer = AutoTokenizer.from_pretrained('jinaai/jina-embeddings-v3') model = AutoModel.from_pretrained('jinaai/jina-embeddings-v3') # the model returns many hidden states per document so we must aggregate them def average_pool(last_hidden_states, attention_mask): last_hidden = last_hidden_states.masked_fill(~attention_mask[...,None].bool(), 0.0) return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[...,None] class CustomHuggingFace(EmbeddingFunction): def __call__(self, texts): queries = [f'query: {text}' for text in texts] batch_dict = tokenizer(texts, max_length=512, padding=True, truncation=True, return_tensors='pt') outputs = model(**batch_dict) embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask']) return embeddings.tolist()</code>

查詢

<code>def get_relevant_passage(query, db): passage = db.query(query_texts=[query], n_results=1)['documents'][0][0] return passage passage = get_relevant_passage("???? ?????????? ????? ?? ?????? ??????", db) print(passage)</code>

對(duì)於選擇Multilingual-e5-large 嵌入，我們只需將標(biāo)記器和模型替換為“intfloat/multilingual-e5-large-instruct”。

嵌入檢索輸出的比較

問(wèn)題編號(hào)	查詢	Gemini 嵌入	jinaai/jina-embeddings-v3	intfloat/multilingual-e5-large-instruct
1	???? ?????????? ????? ?? ?????? ??????	如果您想詳細(xì)了解懷孕的早期癥狀，那麼這篇博文非常適合您。您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試？ –錯(cuò)誤	如果您想詳細(xì)了解懷孕的早期癥狀，那麼這篇博文非常適合您。您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試？ –錯(cuò)誤	如果您想詳細(xì)了解懷孕的早期癥狀，那麼這篇博文非常適合您。您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試？ –錯(cuò)誤
2	Pregnancy ?? kuch symptoms ???? ???? ????	懷孕的早期癥狀是什麼？在懷孕期間，女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括噁心、嘔吐、頻繁排尿和疲勞等，我們將在本博文中討論這些癥狀。 –正確	懷孕的跡象：早期癥狀的完整信息！主頁(yè)快速諮詢患者登錄聯(lián)繫我們：08062136530 緊急電話：07340054470 打開(kāi)主菜單服務(wù)患者和訪客國(guó)際患者關(guān)於我們預(yù)約回電WhatsApp 了解懷孕的早期癥狀。婦產(chǎn)科\|作者：CP Dadhich 博士\| 發(fā)布日期：2025 年2 月6 日目錄您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試？懷孕的早期癥狀是什麼？懷孕的早期癥狀懷孕的–錯(cuò)誤	懷孕的早期癥狀是什麼？在懷孕期間，女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括噁心、嘔吐、頻繁排尿和疲勞等，我們將在本博文中討論這些癥狀。 –正確
3	?????????? ?? ????? ??????????? ??? ???? ?? ?? ???? ??????	在懷孕的最初幾天，卵子與精子受精，導(dǎo)致出血和腹痛等癥狀。在此期間，為了健康懷孕，建議女性避免服用抗生素，因?yàn)檫@可能會(huì)對(duì)母親和嬰兒造成危險(xiǎn)。懷孕的早期癥狀並非總是月經(jīng)推遲或嘔吐。此外，還可能出現(xiàn)其他癥狀，需要特別注意，例如–正確	在懷孕的最初幾天，卵子與精子受精，導(dǎo)致出血和腹痛等癥狀。在此期間，為了健康懷孕，建議女性避免服用抗生素，因?yàn)檫@可能會(huì)對(duì)母親和嬰兒造成危險(xiǎn)。懷孕的早期癥狀並非總是月經(jīng)推遲或嘔吐。此外，還可能出現(xiàn)其他癥狀，需要特別注意，例如–正確	每個(gè)女性都應(yīng)該了解的內(nèi)容。對(duì)於任何與懷孕相關(guān)的疑問(wèn)，我們建議您聯(lián)繫我們的婦科醫(yī)生，消除所有並發(fā)癥。 –錯(cuò)誤
4	?? ?????????? ??? ??????????? ??? ???? ?? ????? ????	在懷孕的最初幾天，卵子與精子受精，導(dǎo)致出血和腹痛等癥狀。在此期間，為了健康懷孕，建議女性避免服用抗生素，因?yàn)檫@可能會(huì)對(duì)母親和嬰兒造成危險(xiǎn)。懷孕的早期癥狀並非總是月經(jīng)推遲或嘔吐。此外，還可能出現(xiàn)其他癥狀，需要特別注意，例如–正確	在懷孕的最初幾天，卵子與精子受精，導(dǎo)致出血和腹痛等癥狀。在此期間，為了健康懷孕，建議女性避免服用抗生素，因?yàn)檫@可能會(huì)對(duì)母親和嬰兒造成危險(xiǎn)。懷孕的早期癥狀並非總是月經(jīng)推遲或嘔吐。此外，還可能出現(xiàn)其他癥狀，需要特別注意，例如–正確	每個(gè)女性都應(yīng)該了解的內(nèi)容。對(duì)於任何與懷孕相關(guān)的疑問(wèn)，我們建議您聯(lián)繫我們的婦科醫(yī)生，消除所有並發(fā)癥。 –錯(cuò)誤
5	???????? ?? ???? ???? ??????? ????? ???? ???	月經(jīng)推遲：這是懷孕的最早和最常見(jiàn)的癥狀。僅根據(jù)此癥狀來(lái)確認(rèn)懷孕並不完全正確。但是，如果月經(jīng)推遲一周或更長(zhǎng)時(shí)間，建議進(jìn)行懷孕測(cè)試。乳房變化：懷孕期間，乳房會(huì)腫脹、變嫩或顏色發(fā)生變化。主要是在乳頭（乳暈）的大小和顏色上發(fā)生變化。 –正確	考慮到這一點(diǎn)，如何確認(rèn)懷孕？懷孕第一個(gè)月如何護(hù)理？如何進(jìn)行懷孕檢查？懷孕期間應(yīng)該如何坐？懷孕期間應(yīng)該發(fā)生性行為嗎？懷孕期間應(yīng)該吃什麼水果？懷孕期間應(yīng)該喝多少水？成為母親的快樂(lè)是世界上最大的快樂(lè)。懷孕期間，女性的身體和心理都會(huì)發(fā)生許多變化。您將這些變化稱為懷孕的早期癥狀，–錯(cuò)誤	懷孕的早期癥狀是什麼？在懷孕期間，女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括噁心、嘔吐、頻繁排尿和疲勞等，我們將在本博文中討論這些癥狀。 –正確
6	???????? ?? ???? ????? ???? ???? ????	懷孕的跡象：早期癥狀的完整信息！主頁(yè)快速諮詢患者登錄聯(lián)繫我們：08062136530 緊急電話：07340054470 打開(kāi)主菜單服務(wù)患者和訪客國(guó)際患者關(guān)於我們預(yù)約回電WhatsApp 了解懷孕的早期癥狀。婦產(chǎn)科\|作者：CP Dadhich 博士\| 發(fā)布日期：2025 年2 月6 日目錄您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試？懷孕的早期癥狀是什麼？懷孕的早期癥狀懷孕的–錯(cuò)誤	考慮到這一點(diǎn)，如何確認(rèn)懷孕？懷孕第一個(gè)月如何護(hù)理？如何進(jìn)行懷孕檢查？懷孕期間應(yīng)該如何坐？懷孕期間應(yīng)該發(fā)生性行為嗎？懷孕期間應(yīng)該吃什麼水果？懷孕期間應(yīng)該喝多少水？成為母親的快樂(lè)是世界上最大的快樂(lè)。懷孕期間，女性的身體和心理都會(huì)發(fā)生許多變化。您將這些變化稱為懷孕的早期癥狀，–錯(cuò)誤	懷孕的早期癥狀是什麼？在懷孕期間，女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括噁心、嘔吐、頻繁排尿和疲勞等，我們將在本博文中討論這些癥狀。 –正確
7	?????????? ?? ?????? ?? ??? ??? ?? ??????? ?? ??? ????? ???? ???	進(jìn)行懷孕測(cè)試的最佳時(shí)間是在月經(jīng)推遲至少7 天后。您可以使用家用懷孕測(cè)試工具在家中檢測(cè)hCG 水平。在懷孕期間，這種激素的水平會(huì)顯著升高。您需要注意的一點(diǎn)是，過(guò)早進(jìn)行測(cè)試也可能導(dǎo)致錯(cuò)誤的結(jié)果，因此，如果您的月經(jīng)推遲並且測(cè)試結(jié)果為陰性，建議您至少再等3 天，然後再次進(jìn)行測(cè)試。 –正確	這樣做也有正確的方法，您也可以在測(cè)試工具說(shuō)明書(shū)上看到。為了獲得準(zhǔn)確的結(jié)果，您應(yīng)該使用早晨的第一泡尿，因?yàn)檫@時(shí)可以測(cè)量hCG 激素的正確水平。此外，如果您經(jīng)歷了懷孕的早期癥狀，並且測(cè)試結(jié)果為陰性，請(qǐng)立即去看醫(yī)生進(jìn)行血液測(cè)試。在任何情況下，如有任何疑問(wèn)，都必須諮詢醫(yī)生。 –正確	懷孕的早期癥狀是什麼？在懷孕期間，女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括噁心、嘔吐、頻繁排尿和疲勞等，我們將在本博文中討論這些癥狀。 –錯(cuò)誤

解釋

從上述印地語(yǔ)輸出中可以看出，使用Gemini 嵌入，我們從7 個(gè)查詢中得到了5 個(gè)正確的輸出，而使用Jina AI 嵌入和Multilingual-e5-large，我們只得到了3 個(gè)正確的響應(yīng)。

這表明，正如MTEB 基準(zhǔn)測(cè)試所反映的那樣，Gemini 嵌入可以很好地執(zhí)行，並且比其他嵌入模型更好地處理印地語(yǔ)等多語(yǔ)言。

結(jié)論

總之，Gemini 嵌入代表了多語(yǔ)言NLP 的重大進(jìn)步，特別是對(duì)於印地語(yǔ)等印度語(yǔ)系語(yǔ)言。憑藉其強(qiáng)大的多語(yǔ)言能力、對(duì)大型輸入尺寸的支持以及在MTEB 等基準(zhǔn)測(cè)試中的卓越性能，Gemini 在檢索、分類和語(yǔ)義搜索等任務(wù)中表現(xiàn)出色。通過(guò)實(shí)踐比較可以看出，Gemini 的性能優(yōu)於其他模型，提供更高的準(zhǔn)確性和效率，使其成為促進(jìn)多種語(yǔ)言NLP 的寶貴工具。

主要收穫

印地語(yǔ)系語(yǔ)言詞嵌入的重要性: 高質(zhì)量的嵌入增強(qiáng)了翻譯、問(wèn)答和檢索等NLP 任務(wù)，解決了語(yǔ)言挑戰(zhàn)和資源差距問(wèn)題。
Gemini Embedding 模型: 谷歌的Gemini 嵌入利用其AI 框架進(jìn)行多語(yǔ)言文本處理，涵蓋100 多種語(yǔ)言，包括低資源語(yǔ)言。
關(guān)鍵特性: 支持8000 個(gè)標(biāo)記和3072 維嵌入，能夠高效處理長(zhǎng)文檔和復(fù)雜查詢。
令人印象深刻的性能: 在MTEB 多語(yǔ)言排行榜上排名第一，平均任務(wù)得分為68.32，展示了其在多語(yǔ)言NLP 中的強(qiáng)大功能。

本文中顯示的媒體並非Analytics Vidhya 所有，作者可自行決定使用。

常見(jiàn)問(wèn)題

Q1. 什麼是Gemini Embedding 模型？答：Gemini Embedding 模型基於谷歌的Gemini AI，為包括印地語(yǔ)在內(nèi)的100 多種語(yǔ)言提供頂級(jí)多語(yǔ)言文本嵌入。

Q2. 與其他模型相比，Gemini Embedding 的獨(dú)特之處是什麼？答：Gemini Embedding 在多語(yǔ)言支持方面表現(xiàn)出色，可以處理8000 個(gè)標(biāo)記，並輸出3072 維，確保在分類、檢索和語(yǔ)義搜索方面的效率。

Q3. Gemini Embedding 在多語(yǔ)言任務(wù)中的表現(xiàn)如何？答：Gemini Embedding 在英語(yǔ)等高資源語(yǔ)言和阿薩姆語(yǔ)、馬其頓語(yǔ)等低資源語(yǔ)言中的表現(xiàn)都很好。它在MTEB 多語(yǔ)言排行榜上排名第一，展示了其強(qiáng)大的多語(yǔ)言能力。

Q4. Gemini Embedding 模型的架構(gòu)是什麼？答：該模型從Gemini LLM 初始化，使用具有雙向注意力的Transformer 架構(gòu)來(lái)生成高質(zhì)量的文本嵌入，捕捉上下文和含義。

Q5. Gemini Embedding 模型是如何訓(xùn)練的？答：Gemini Embedding 使用帶批內(nèi)負(fù)例的噪聲對(duì)比估計(jì)(NCE) 損失進(jìn)行訓(xùn)練。它經(jīng)歷了兩個(gè)訓(xùn)練階段：在一個(gè)大型數(shù)據(jù)集上進(jìn)行預(yù)微調(diào)，並在特定於任務(wù)的數(shù)據(jù)集上進(jìn)行微調(diào)，以提高NLP 性能。

以上是與多語(yǔ)言E5-Large和Jina嵌入雙子座的比較的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本網(wǎng)站聲明

本文內(nèi)容由網(wǎng)友自願(yuàn)投稿，版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容，請(qǐng)聯(lián)絡(luò)admin@php.cn