国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
學(xué)習(xí)目標(biāo)
目錄
什麼是Gemini 嵌入?
Gemini 嵌入的關(guān)鍵特性
Gemini 嵌入的模型架構(gòu)
訓(xùn)練策略
與其他多語(yǔ)言嵌入模型的比較
使用Gemini 嵌入進(jìn)行檢索,並與Jina AI 嵌入和Multilingual-e5-large 進(jìn)行比較
嵌入檢索輸出的比較
解釋
結(jié)論
主要收穫
常見(jiàn)問(wèn)題
首頁(yè) 科技週邊 人工智慧 與多語(yǔ)言E5-Large和Jina嵌入雙子座的比較

與多語(yǔ)言E5-Large和Jina嵌入雙子座的比較

Mar 20, 2025 pm 03:02 PM

Gemini Embedding:谷歌Gemini AI框架下的多語(yǔ)言文本嵌入模型

對(duì)於印地語(yǔ)等印度語(yǔ)系的自然語(yǔ)言處理(NLP) 任務(wù)(如機(jī)器翻譯、問(wèn)答和信息檢索)而言,詞嵌入至關(guān)重要。這些嵌入捕捉單詞的語(yǔ)義屬性,從而實(shí)現(xiàn)更準(zhǔn)確、更注重語(yǔ)境的NLP 應(yīng)用。鑑於印地語(yǔ)使用者眾多且印度語(yǔ)係數(shù)字內(nèi)容日益增長(zhǎng),高質(zhì)量的嵌入對(duì)於提高這些語(yǔ)言的NLP 性能至關(guān)重要。定制化的嵌入可以特別解決印度語(yǔ)系的獨(dú)特語(yǔ)言特徵和資源限制問(wèn)題。新發(fā)布的Gemini Embedding 模型代表了多語(yǔ)言文本嵌入的重大進(jìn)步,它利用谷歌強(qiáng)大的Gemini AI 框架,在100 多種語(yǔ)言中實(shí)現(xiàn)了最先進(jìn)的性能。

Gemini Embedding 模型擅長(zhǎng)分類、檢索和語(yǔ)義搜索等任務(wù),提供更高的效率和準(zhǔn)確性。通過(guò)支持更大的輸入規(guī)模和更高維度的輸出,Gemini Embedding 提供更豐富的文本表示,使其能夠廣泛應(yīng)用於各種應(yīng)用。

學(xué)習(xí)目標(biāo)

  • 了解Gemini 嵌入及其與Gemini LLM 的集成。
  • 使用Gemini 嵌入檢索印地語(yǔ)文檔的實(shí)踐教程。
  • 與Jina AI 嵌入和Multilingual-e5-large 的比較分析。
  • 對(duì)多語(yǔ)言文本檢索能力和應(yīng)用的見(jiàn)解。

*本文作為***數(shù)據(jù)科學(xué)博客馬拉松的一部分發(fā)表。 ***

目錄

  • 什麼是Gemini 嵌入?
  • Gemini 嵌入的關(guān)鍵特性
  • Gemini 嵌入的模型架構(gòu)
  • 與其他多語(yǔ)言嵌入模型的比較
  • 使用Gemini 嵌入進(jìn)行檢索,並與Jina AI 嵌入和Multilingual-e5-large 進(jìn)行比較
    • 步驟1. 安裝必要的庫(kù)
    • 步驟2. 加載數(shù)據(jù)
    • 步驟3. 對(duì)數(shù)據(jù)進(jìn)行分塊
    • 步驟4. 將數(shù)據(jù)存儲(chǔ)在向量數(shù)據(jù)庫(kù)中
    • 步驟5. 查詢數(shù)據(jù)庫(kù)
    • 步驟6. 與Jina AI 嵌入進(jìn)行比較
  • 嵌入檢索輸出的比較
    • 解釋
  • 結(jié)論
  • 常見(jiàn)問(wèn)題

什麼是Gemini 嵌入?

2025 年3 月,谷歌發(fā)布了一個(gè)新的實(shí)驗(yàn)性Gemini Embedding 文本模型(gemini-embedding-exp-03-07),可在Gemini API 中使用。

該高級(jí)嵌入模型源於Gemini 模型,據(jù)稱繼承了Gemini 對(duì)語(yǔ)言和細(xì)微語(yǔ)境細(xì)微差別的深刻理解,使其能夠廣泛應(yīng)用於各種應(yīng)用。它在MTEB 多語(yǔ)言排行榜上佔(zhàn)據(jù)榜首。

Comparison of Gemini Embedding with Multilingual-e5-large & Jina

Gemini Embedding 將文本表示為密集向量,其中語(yǔ)義相似的文本輸入映射到向量空間中彼此靠近的向量。目前,它支持100 多種語(yǔ)言,其嵌入可用於各種任務(wù),例如檢索和分類。

Gemini 嵌入的關(guān)鍵特性

  • 強(qiáng)大的多語(yǔ)言能力: 該模型在100 多種語(yǔ)言中展現(xiàn)出卓越的性能,不僅在英語(yǔ)等高資源語(yǔ)言中表現(xiàn)出色,而且在阿薩姆語(yǔ)和馬其頓語(yǔ)等低資源語(yǔ)言中也表現(xiàn)出色。
  • 處理多達(dá)8000 個(gè)輸入標(biāo)記: 這種強(qiáng)大的能力使模型能夠無(wú)縫處理冗長(zhǎng)的文檔或複雜的查詢,而不會(huì)截?cái)?,從而以超越許多現(xiàn)有嵌入模型的方式保持上下文和含義。
  • 3K 維的輸出維度: 該模型生成的嵌入維度高達(dá)3072,並支持768 和1536 等子維度,以便進(jìn)行特定於任務(wù)的優(yōu)化。
  • 令人印象深刻的性能: Gemini Embedding 在海量文本嵌入基準(zhǔn)測(cè)試(MTEB) 中排名第一,平均任務(wù)得分為68.32,大大超過(guò)了其最接近的競(jìng)爭(zhēng)對(duì)手。

Gemini 嵌入的模型架構(gòu)

Comparison of Gemini Embedding with Multilingual-e5-large & Jina

Gemini Embedding 的核心是基於Transformer 架構(gòu),並從Gemini LLM 初始化。這個(gè)基礎(chǔ)為模型提供了對(duì)語(yǔ)言結(jié)構(gòu)和語(yǔ)義的深刻理解。該模型使用雙向注意力機(jī)制來(lái)處理輸入序列,使其在生成嵌入時(shí)能夠考慮單詞或短語(yǔ)的完整上下文。

  1. 輸入序列T 由M(一個(gè)具有雙向注意力的Transformer,從Gemini 初始化)處理,產(chǎn)生一個(gè)標(biāo)記嵌入序列。
  2. 為了生成一個(gè)表示輸入中所有信息的單個(gè)嵌入,應(yīng)用池化函數(shù)。
  3. 最後,應(yīng)用線性投影將嵌入縮放至目標(biāo)維度,從而產(chǎn)生最終輸出嵌入。

損失函數(shù): Gemini Embedding 模型使用帶批內(nèi)負(fù)例的噪聲對(duì)比估計(jì)(NCE) 損失進(jìn)行訓(xùn)練。確切的損失會(huì)根據(jù)訓(xùn)練階段略有不同。一般來(lái)說(shuō),一個(gè)訓(xùn)練示例包括一個(gè)查詢、一個(gè)正目標(biāo)和(可選)一個(gè)難負(fù)目標(biāo)。

訓(xùn)練策略

  1. 預(yù)微調(diào): 在此階段,模型在一個(gè)包含查詢-目標(biāo)對(duì)的大型多樣化數(shù)據(jù)集上進(jìn)行訓(xùn)練。這種曝光調(diào)整大型語(yǔ)言模型的參數(shù)以進(jìn)行編碼任務(wù),為其適應(yīng)性奠定基礎(chǔ)。
  2. 微調(diào): 在第二階段,模型使用包含查詢-正例-難負(fù)例三元組的特定於任務(wù)的數(shù)據(jù)集進(jìn)行微調(diào)。此過(guò)程使用較小的批量大小和精心策劃的數(shù)據(jù)集來(lái)提高目標(biāo)任務(wù)的性能。

另請(qǐng)閱讀:Gemini Embedding:來(lái)自Gemini 的通用嵌入

與其他多語(yǔ)言嵌入模型的比較

我們將印地語(yǔ)文檔的檢索與新發(fā)布的最新Gemini 嵌入進(jìn)行比較,然後將其與Jina AI 嵌入和Multilingual-e5-large 嵌入進(jìn)行比較。如下表所示,就最大標(biāo)記數(shù)而言,Gemini 嵌入和Jina AI 嵌入很高,使模型能夠處理長(zhǎng)文檔或複雜的查詢。此外,如下表所示,Gemini 嵌入具有更高的嵌入維度,可以捕捉單詞之間更細(xì)緻和更細(xì)微的語(yǔ)義關(guān)係,使模型能夠表示複雜的語(yǔ)言模式和含義的細(xì)微差別。

參數(shù)數(shù)量 嵌入維度 最大標(biāo)記 語(yǔ)言數(shù)量 套娃嵌入
gemini-embedding-exp-03-07 未知 3072 8192 100 支持將嵌入截?cái)酁楦鞣N尺寸,例如2048、1024、512、256 和128 維度,
jinaai/jina-embeddings-v3 5.72 億 1024 8194 100 支持靈活的嵌入大小(32、64、128、256、512、768、1024),允許截?cái)嗲度胍赃m應(yīng)您的應(yīng)用程序
multilingual-e5-large-instruct 5.6 億 1024 514 94 NA

使用Gemini 嵌入進(jìn)行檢索,並與Jina AI 嵌入和Multilingual-e5-large 進(jìn)行比較

在以下實(shí)踐教程中,我們將印地語(yǔ)文檔的檢索與新發(fā)布的最新Gemini 嵌入進(jìn)行比較,然後將其與Jina AI 嵌入和Multilingual-e5-large 嵌入進(jìn)行比較。

步驟1. 安裝必要的庫(kù)

<code>!pip install langchain-community !pip install chromadb</code>

步驟2. 加載數(shù)據(jù)

我們使用來(lái)自網(wǎng)站的印地語(yǔ)數(shù)據(jù)來(lái)評(píng)估Gemini 嵌入在印地語(yǔ)語(yǔ)言檢索方面的性能。

 <code>from langchain_community.document_loaders import WebBaseLoader loader = WebBaseLoader("https://ckbirlahospitals.com/rbh/blog/pregnancy-early-symptoms-in-hindi") data = loader.load()</code>

步驟3. 對(duì)數(shù)據(jù)進(jìn)行分塊

下面的代碼使用RecursiveCharacterTextSplitter 將大型文本文檔拆分成500 個(gè)字符的小塊,沒(méi)有重疊。然後,它將此拆分應(yīng)用於datavariable 並將結(jié)果存儲(chǔ)在all_splits 中。由於Gemini Embedding API 的速率限制,我們只使用10 個(gè)拆分。

 <code>from langchain_text_splitters import RecursiveCharacterTextSplitter text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0) all_splits = text_splitter.split_documents(data) all_splits = all_splits[:10]</code>

步驟4. 將數(shù)據(jù)存儲(chǔ)在向量數(shù)據(jù)庫(kù)中

我們首先創(chuàng)建一個(gè)名為“GeminiEmbeddingFunction”的類,它有助於查詢Gemini Embedding API 並返回輸入查詢的嵌入值。然後,我們創(chuàng)建一個(gè)名為“create_chroma_db”的函數(shù),用於在ChromaDB 中創(chuàng)建一個(gè)集合,該集合將存儲(chǔ)數(shù)據(jù)以及嵌入。

 <code>import chromadb from chromadb import Documents, EmbeddingFunction, Embeddings class GeminiEmbeddingFunction(EmbeddingFunction): def __call__(self, input: Documents) -> Embeddings: title = "Custom query" return client.models.embed_content( model="gemini-embedding-exp-03-07", contents=input).embeddings[0].values def create_chroma_db(documents, name): chroma_client = chromadb.Client() db = chroma_client.create_collection(name=name, embedding_function=GeminiEmbeddingFunction()) for i, d in enumerate(documents): db.add( documents=d.page_content, ids=str(i) ) return db db = create_chroma_db(all_splits, "datab")</code>

步驟5. 查詢數(shù)據(jù)庫(kù)

<code>def get_relevant_passage(query, db): passage = db.query(query_texts=[query], n_results=1)['documents'][0][0] return passage passage = get_relevant_passage("???? ?????????? ????? ?? ?????? ??????", db) print(passage)</code>

步驟6. 與Jina AI 嵌入進(jìn)行比較

下面的代碼使用Hugging Face transformer 模型定義了一個(gè)自定義嵌入函數(shù),以及一種處理文本輸入以生成嵌入的方法。

  1. 來(lái)自transformers 的AutoTokenizer 和AutoModel 用於加載預(yù)訓(xùn)練模型(jinaai/jina-embeddings-v3),並從chromadb 導(dǎo)入EmbeddingFunction 用於創(chuàng)建自定義嵌入。
  2. average_pool 函數(shù):此函數(shù)通過(guò)對(duì)模型的隱藏狀態(tài)執(zhí)行池化操作來(lái)聚合它們,在考慮注意力掩碼(忽略填充標(biāo)記)的同時(shí)對(duì)序列長(zhǎng)度取平均值。
  3. CustomHuggingFace 類:它對(duì)文本進(jìn)行標(biāo)記化,將其饋送到模型中,並使用average_pool 函數(shù)計(jì)算嵌入。結(jié)果作為嵌入列表返回。
 <code>from transformers import AutoTokenizer, AutoModel from chromadb import EmbeddingFunction tokenizer = AutoTokenizer.from_pretrained('jinaai/jina-embeddings-v3') model = AutoModel.from_pretrained('jinaai/jina-embeddings-v3') # the model returns many hidden states per document so we must aggregate them def average_pool(last_hidden_states, attention_mask): last_hidden = last_hidden_states.masked_fill(~attention_mask[...,None].bool(), 0.0) return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[...,None] class CustomHuggingFace(EmbeddingFunction): def __call__(self, texts): queries = [f'query: {text}' for text in texts] batch_dict = tokenizer(texts, max_length=512, padding=True, truncation=True, return_tensors='pt') outputs = model(**batch_dict) embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask']) return embeddings.tolist()</code>

查詢

<code>def get_relevant_passage(query, db): passage = db.query(query_texts=[query], n_results=1)['documents'][0][0] return passage passage = get_relevant_passage("???? ?????????? ????? ?? ?????? ??????", db) print(passage)</code>

對(duì)於選擇Multilingual-e5-large 嵌入,我們只需將標(biāo)記器和模型替換為“intfloat/multilingual-e5-large-instruct”。

嵌入檢索輸出的比較

問(wèn)題編號(hào) 查詢 Gemini 嵌入 jinaai/jina-embeddings-v3 intfloat/multilingual-e5-large-instruct
1 ???? ?????????? ????? ?? ?????? ?????? 如果您想詳細(xì)了解懷孕的早期癥狀,那麼這篇博文非常適合您。您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試? –錯(cuò)誤 如果您想詳細(xì)了解懷孕的早期癥狀,那麼這篇博文非常適合您。您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試? –錯(cuò)誤 如果您想詳細(xì)了解懷孕的早期癥狀,那麼這篇博文非常適合您。您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試? –錯(cuò)誤
2 Pregnancy ?? kuch symptoms ???? ???? ???? 懷孕的早期癥狀是什麼?在懷孕期間,女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括噁心、嘔吐、頻繁排尿和疲勞等,我們將在本博文中討論這些癥狀。 –正確 懷孕的跡象:早期癥狀的完整信息!主頁(yè)快速諮詢患者登錄聯(lián)繫我們:08062136530 緊急電話:07340054470 打開(kāi)主菜單服務(wù)患者和訪客國(guó)際患者關(guān)於我們預(yù)約回電WhatsApp 了解懷孕的早期癥狀。婦產(chǎn)科|作者:CP Dadhich 博士| 發(fā)布日期:2025 年2 月6 日目錄您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試?懷孕的早期癥狀是什麼?懷孕的早期癥狀懷孕的–錯(cuò)誤 懷孕的早期癥狀是什麼?在懷孕期間,女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括噁心、嘔吐、頻繁排尿和疲勞等,我們將在本博文中討論這些癥狀。 –正確
3 ?????????? ?? ????? ??????????? ??? ???? ?? ?? ???? ?????? 在懷孕的最初幾天,卵子與精子受精,導(dǎo)致出血和腹痛等癥狀。在此期間,為了健康懷孕,建議女性避免服用抗生素,因?yàn)檫@可能會(huì)對(duì)母親和嬰兒造成危險(xiǎn)。懷孕的早期癥狀並非總是月經(jīng)推遲或嘔吐。此外,還可能出現(xiàn)其他癥狀,需要特別注意,例如–正確 在懷孕的最初幾天,卵子與精子受精,導(dǎo)致出血和腹痛等癥狀。在此期間,為了健康懷孕,建議女性避免服用抗生素,因?yàn)檫@可能會(huì)對(duì)母親和嬰兒造成危險(xiǎn)。懷孕的早期癥狀並非總是月經(jīng)推遲或嘔吐。此外,還可能出現(xiàn)其他癥狀,需要特別注意,例如–正確 每個(gè)女性都應(yīng)該了解的內(nèi)容。對(duì)於任何與懷孕相關(guān)的疑問(wèn),我們建議您聯(lián)繫我們的婦科醫(yī)生,消除所有並發(fā)癥。 –錯(cuò)誤
4 ?? ?????????? ??? ??????????? ??? ???? ?? ????? ???? 在懷孕的最初幾天,卵子與精子受精,導(dǎo)致出血和腹痛等癥狀。在此期間,為了健康懷孕,建議女性避免服用抗生素,因?yàn)檫@可能會(huì)對(duì)母親和嬰兒造成危險(xiǎn)。懷孕的早期癥狀並非總是月經(jīng)推遲或嘔吐。此外,還可能出現(xiàn)其他癥狀,需要特別注意,例如–正確 在懷孕的最初幾天,卵子與精子受精,導(dǎo)致出血和腹痛等癥狀。在此期間,為了健康懷孕,建議女性避免服用抗生素,因?yàn)檫@可能會(huì)對(duì)母親和嬰兒造成危險(xiǎn)。懷孕的早期癥狀並非總是月經(jīng)推遲或嘔吐。此外,還可能出現(xiàn)其他癥狀,需要特別注意,例如–正確 每個(gè)女性都應(yīng)該了解的內(nèi)容。對(duì)於任何與懷孕相關(guān)的疑問(wèn),我們建議您聯(lián)繫我們的婦科醫(yī)生,消除所有並發(fā)癥。 –錯(cuò)誤
5 ???????? ?? ???? ???? ??????? ????? ???? ??? 月經(jīng)推遲:這是懷孕的最早和最常見(jiàn)的癥狀。僅根據(jù)此癥狀來(lái)確認(rèn)懷孕並不完全正確。但是,如果月經(jīng)推遲一周或更長(zhǎng)時(shí)間,建議進(jìn)行懷孕測(cè)試。乳房變化:懷孕期間,乳房會(huì)腫脹、變嫩或顏色發(fā)生變化。主要是在乳頭(乳暈)的大小和顏色上發(fā)生變化。 –正確 考慮到這一點(diǎn),如何確認(rèn)懷孕?懷孕第一個(gè)月如何護(hù)理?如何進(jìn)行懷孕檢查?懷孕期間應(yīng)該如何坐?懷孕期間應(yīng)該發(fā)生性行為嗎?懷孕期間應(yīng)該吃什麼水果?懷孕期間應(yīng)該喝多少水?成為母親的快樂(lè)是世界上最大的快樂(lè)。懷孕期間,女性的身體和心理都會(huì)發(fā)生許多變化。您將這些變化稱為懷孕的早期癥狀,–錯(cuò)誤 懷孕的早期癥狀是什麼?在懷孕期間,女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括噁心、嘔吐、頻繁排尿和疲勞等,我們將在本博文中討論這些癥狀。 –正確
6 ???????? ?? ???? ????? ???? ???? ???? 懷孕的跡象:早期癥狀的完整信息!主頁(yè)快速諮詢患者登錄聯(lián)繫我們:08062136530 緊急電話:07340054470 打開(kāi)主菜單服務(wù)患者和訪客國(guó)際患者關(guān)於我們預(yù)約回電WhatsApp 了解懷孕的早期癥狀。婦產(chǎn)科|作者:CP Dadhich 博士| 發(fā)布日期:2025 年2 月6 日目錄您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試?懷孕的早期癥狀是什麼?懷孕的早期癥狀懷孕的–錯(cuò)誤 考慮到這一點(diǎn),如何確認(rèn)懷孕?懷孕第一個(gè)月如何護(hù)理?如何進(jìn)行懷孕檢查?懷孕期間應(yīng)該如何坐?懷孕期間應(yīng)該發(fā)生性行為嗎?懷孕期間應(yīng)該吃什麼水果?懷孕期間應(yīng)該喝多少水?成為母親的快樂(lè)是世界上最大的快樂(lè)。懷孕期間,女性的身體和心理都會(huì)發(fā)生許多變化。您將這些變化稱為懷孕的早期癥狀,–錯(cuò)誤 懷孕的早期癥狀是什麼?在懷孕期間,女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括噁心、嘔吐、頻繁排尿和疲勞等,我們將在本博文中討論這些癥狀。 –正確
7 ?????????? ?? ?????? ?? ??? ??? ?? ??????? ?? ??? ????? ???? ??? 進(jìn)行懷孕測(cè)試的最佳時(shí)間是在月經(jīng)推遲至少7 天后。您可以使用家用懷孕測(cè)試工具在家中檢測(cè)hCG 水平。在懷孕期間,這種激素的水平會(huì)顯著升高。您需要注意的一點(diǎn)是,過(guò)早進(jìn)行測(cè)試也可能導(dǎo)致錯(cuò)誤的結(jié)果,因此,如果您的月經(jīng)推遲並且測(cè)試結(jié)果為陰性,建議您至少再等3 天,然後再次進(jìn)行測(cè)試。 –正確 這樣做也有正確的方法,您也可以在測(cè)試工具說(shuō)明書(shū)上看到。為了獲得準(zhǔn)確的結(jié)果,您應(yīng)該使用早晨的第一泡尿,因?yàn)檫@時(shí)可以測(cè)量hCG 激素的正確水平。此外,如果您經(jīng)歷了懷孕的早期癥狀,並且測(cè)試結(jié)果為陰性,請(qǐng)立即去看醫(yī)生進(jìn)行血液測(cè)試。在任何情況下,如有任何疑問(wèn),都必須諮詢醫(yī)生。 –正確 懷孕的早期癥狀是什麼?在懷孕期間,女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括噁心、嘔吐、頻繁排尿和疲勞等,我們將在本博文中討論這些癥狀。 –錯(cuò)誤

解釋

從上述印地語(yǔ)輸出中可以看出,使用Gemini 嵌入,我們從7 個(gè)查詢中得到了5 個(gè)正確的輸出,而使用Jina AI 嵌入和Multilingual-e5-large,我們只得到了3 個(gè)正確的響應(yīng)。

這表明,正如MTEB 基準(zhǔn)測(cè)試所反映的那樣,Gemini 嵌入可以很好地執(zhí)行,並且比其他嵌入模型更好地處理印地語(yǔ)等多語(yǔ)言。

結(jié)論

總之,Gemini 嵌入代表了多語(yǔ)言NLP 的重大進(jìn)步,特別是對(duì)於印地語(yǔ)等印度語(yǔ)系語(yǔ)言。憑藉其強(qiáng)大的多語(yǔ)言能力、對(duì)大型輸入尺寸的支持以及在MTEB 等基準(zhǔn)測(cè)試中的卓越性能,Gemini 在檢索、分類和語(yǔ)義搜索等任務(wù)中表現(xiàn)出色。通過(guò)實(shí)踐比較可以看出,Gemini 的性能優(yōu)於其他模型,提供更高的準(zhǔn)確性和效率,使其成為促進(jìn)多種語(yǔ)言NLP 的寶貴工具。

主要收穫

  • 印地語(yǔ)系語(yǔ)言詞嵌入的重要性: 高質(zhì)量的嵌入增強(qiáng)了翻譯、問(wèn)答和檢索等NLP 任務(wù),解決了語(yǔ)言挑戰(zhàn)和資源差距問(wèn)題。
  • Gemini Embedding 模型: 谷歌的Gemini 嵌入利用其AI 框架進(jìn)行多語(yǔ)言文本處理,涵蓋100 多種語(yǔ)言,包括低資源語(yǔ)言。
  • 關(guān)鍵特性: 支持8000 個(gè)標(biāo)記和3072 維嵌入,能夠高效處理長(zhǎng)文檔和復(fù)雜查詢。
  • 令人印象深刻的性能: 在MTEB 多語(yǔ)言排行榜上排名第一,平均任務(wù)得分為68.32,展示了其在多語(yǔ)言NLP 中的強(qiáng)大功能。

本文中顯示的媒體並非Analytics Vidhya 所有,作者可自行決定使用。

常見(jiàn)問(wèn)題

Q1. 什麼是Gemini Embedding 模型?答:Gemini Embedding 模型基於谷歌的Gemini AI,為包括印地語(yǔ)在內(nèi)的100 多種語(yǔ)言提供頂級(jí)多語(yǔ)言文本嵌入。

Q2. 與其他模型相比,Gemini Embedding 的獨(dú)特之處是什麼?答:Gemini Embedding 在多語(yǔ)言支持方面表現(xiàn)出色,可以處理8000 個(gè)標(biāo)記,並輸出3072 維,確保在分類、檢索和語(yǔ)義搜索方面的效率。

Q3. Gemini Embedding 在多語(yǔ)言任務(wù)中的表現(xiàn)如何?答:Gemini Embedding 在英語(yǔ)等高資源語(yǔ)言和阿薩姆語(yǔ)、馬其頓語(yǔ)等低資源語(yǔ)言中的表現(xiàn)都很好。它在MTEB 多語(yǔ)言排行榜上排名第一,展示了其強(qiáng)大的多語(yǔ)言能力。

Q4. Gemini Embedding 模型的架構(gòu)是什麼?答:該模型從Gemini LLM 初始化,使用具有雙向注意力的Transformer 架構(gòu)來(lái)生成高質(zhì)量的文本嵌入,捕捉上下文和含義。

Q5. Gemini Embedding 模型是如何訓(xùn)練的?答:Gemini Embedding 使用帶批內(nèi)負(fù)例的噪聲對(duì)比估計(jì)(NCE) 損失進(jìn)行訓(xùn)練。它經(jīng)歷了兩個(gè)訓(xùn)練階段:在一個(gè)大型數(shù)據(jù)集上進(jìn)行預(yù)微調(diào),並在特定於任務(wù)的數(shù)據(jù)集上進(jìn)行微調(diào),以提高NLP 性能。

以上是與多語(yǔ)言E5-Large和Jina嵌入雙子座的比較的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門(mén)話題

前7個(gè)筆記本替代品 前7個(gè)筆記本替代品 Jun 17, 2025 pm 04:32 PM

Google的NotebookLM是由Gemini 2.5提供動(dòng)力的智能AI筆記工具,它在匯總文檔方面表現(xiàn)出色。但是,它在工具使用方面仍然有局限性,例如源蓋,雲(yún)依賴性和最近的“發(fā)現(xiàn)”功能

從採(cǎi)用到優(yōu)勢(shì):2025年塑造企業(yè)LLM的10個(gè)趨勢(shì) 從採(cǎi)用到優(yōu)勢(shì):2025年塑造企業(yè)LLM的10個(gè)趨勢(shì) Jun 20, 2025 am 11:13 AM

以下是重塑企業(yè)AI景觀的十種引人注目的趨勢(shì)。對(duì)LLMSorganizations的財(cái)務(wù)承諾正在大大增加其在LLMS的投資,其中72%的人預(yù)計(jì)他們的支出今年會(huì)增加。目前,近40%a

AI投資者停滯不前? 3條購(gòu)買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購(gòu)買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨(dú)特性的衰落,以AI為中心的風(fēng)險(xiǎn)投資的投資者必須做出關(guān)鍵決定:購(gòu)買,建立或合作夥伴才能獲得優(yōu)勢(shì)?這是評(píng)估每個(gè)選項(xiàng)和PR的方法

生成AI的不可阻擋的增長(zhǎng)(AI Outlook第1部分) 生成AI的不可阻擋的增長(zhǎng)(AI Outlook第1部分) Jun 21, 2025 am 11:11 AM

披露:我的公司Tirias Research已向IBM,NVIDIA和本文提到的其他公司諮詢。 Growth驅(qū)動(dòng)力的生成AI採(cǎi)用的激增比最樂(lè)觀的預(yù)測(cè)更具戲劇性。然後,

新蓋洛普?qǐng)?bào)告:AI文化準(zhǔn)備就緒需要新的心態(tài) 新蓋洛普?qǐng)?bào)告:AI文化準(zhǔn)備就緒需要新的心態(tài) Jun 19, 2025 am 11:16 AM

廣泛採(cǎi)用和情感準(zhǔn)備之間的差距揭示了人類如何與越來(lái)越多的數(shù)字伴侶互動(dòng)。我們正在進(jìn)入共存階段,算法編織到我們的日常現(xiàn)場(chǎng)

這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 Jun 20, 2025 am 11:16 AM

由於AI,那些日子是編號(hào)的。根據(jù)一個(gè)螺柱,搜索企業(yè)諸如Travel網(wǎng)站皮劃艇和Edtech Company Chegg之類的企業(yè)正在下降,部分原因是60%的網(wǎng)站搜索不會(huì)導(dǎo)致用戶單擊任何鏈接。

AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來(lái)談?wù)劇? 對(duì)創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識(shí)別和解釋各種有影響力的AI複雜性(請(qǐng)參閱此處的鏈接)。 前往Agi和

思科在美國(guó)2025 思科在美國(guó)2025 Jun 19, 2025 am 11:10 AM

讓我們仔細(xì)研究一下我發(fā)現(xiàn)的最重要的東西,以及思科如何以其目前的努力來(lái)進(jìn)一步實(shí)現(xiàn)其野心。

See all articles