国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
學(xué)習(xí)目標(biāo)
目錄
什么是 Gemini 嵌入?
Gemini 嵌入的關(guān)鍵特性
Gemini 嵌入的模型架構(gòu)
訓(xùn)練策略
與其他多語言嵌入模型的比較
使用 Gemini 嵌入進(jìn)行檢索,并與 Jina AI 嵌入和 Multilingual-e5-large 進(jìn)行比較
嵌入檢索輸出的比較
解釋
結(jié)論
主要收獲
常見問題
首頁 科技周邊 人工智能 與多語言E5-Large和Jina嵌入雙子座的比較

與多語言E5-Large和Jina嵌入雙子座的比較

Mar 20, 2025 pm 03:02 PM

Gemini Embedding:谷歌Gemini AI框架下的多語言文本嵌入模型

對于印地語等印度語系的自然語言處理 (NLP) 任務(wù)(如機器翻譯、問答和信息檢索)而言,詞嵌入至關(guān)重要。這些嵌入捕捉單詞的語義屬性,從而實現(xiàn)更準(zhǔn)確、更注重語境的 NLP 應(yīng)用。鑒于印地語使用者眾多且印度語系數(shù)字內(nèi)容日益增長,高質(zhì)量的嵌入對于提高這些語言的 NLP 性能至關(guān)重要。定制化的嵌入可以特別解決印度語系的獨特語言特征和資源限制問題。新發(fā)布的 Gemini Embedding 模型代表了多語言文本嵌入的重大進(jìn)步,它利用谷歌強大的 Gemini AI 框架,在 100 多種語言中實現(xiàn)了最先進(jìn)的性能。

Gemini Embedding 模型擅長分類、檢索和語義搜索等任務(wù),提供更高的效率和準(zhǔn)確性。通過支持更大的輸入規(guī)模和更高維度的輸出,Gemini Embedding 提供更豐富的文本表示,使其能夠廣泛應(yīng)用于各種應(yīng)用。

學(xué)習(xí)目標(biāo)

  • 了解 Gemini 嵌入及其與 Gemini LLM 的集成。
  • 使用 Gemini 嵌入檢索印地語文檔的實踐教程。
  • 與 Jina AI 嵌入和 Multilingual-e5-large 的比較分析。
  • 對多語言文本檢索能力和應(yīng)用的見解。

*本文作為***數(shù)據(jù)科學(xué)博客馬拉松的一部分發(fā)表。***

目錄

  • 什么是 Gemini 嵌入?
  • Gemini 嵌入的關(guān)鍵特性
  • Gemini 嵌入的模型架構(gòu)
  • 與其他多語言嵌入模型的比較
  • 使用 Gemini 嵌入進(jìn)行檢索,并與 Jina AI 嵌入和 Multilingual-e5-large 進(jìn)行比較
    • 步驟 1. 安裝必要的庫
    • 步驟 2. 加載數(shù)據(jù)
    • 步驟 3. 對數(shù)據(jù)進(jìn)行分塊
    • 步驟 4. 將數(shù)據(jù)存儲在向量數(shù)據(jù)庫中
    • 步驟 5. 查詢數(shù)據(jù)庫
    • 步驟 6. 與 Jina AI 嵌入進(jìn)行比較
  • 嵌入檢索輸出的比較
    • 解釋
  • 結(jié)論
  • 常見問題

什么是 Gemini 嵌入?

2025 年 3 月,谷歌發(fā)布了一個新的實驗性 Gemini Embedding 文本模型 (gemini-embedding-exp-03-07),可在 Gemini API 中使用。

該高級嵌入模型源于 Gemini 模型,據(jù)稱繼承了 Gemini 對語言和細(xì)微語境細(xì)微差別的深刻理解,使其能夠廣泛應(yīng)用于各種應(yīng)用。它在 MTEB 多語言排行榜上占據(jù)榜首。

Comparison of Gemini Embedding with Multilingual-e5-large & Jina

Gemini Embedding 將文本表示為密集向量,其中語義相似的文本輸入映射到向量空間中彼此靠近的向量。目前,它支持 100 多種語言,其嵌入可用于各種任務(wù),例如檢索和分類。

Gemini 嵌入的關(guān)鍵特性

  • 強大的多語言能力: 該模型在 100 多種語言中展現(xiàn)出卓越的性能,不僅在英語等高資源語言中表現(xiàn)出色,而且在阿薩姆語和馬其頓語等低資源語言中也表現(xiàn)出色。
  • 處理多達(dá) 8000 個輸入標(biāo)記: 這種強大的能力使模型能夠無縫處理冗長的文檔或復(fù)雜的查詢,而不會截斷,從而以超越許多現(xiàn)有嵌入模型的方式保持上下文和含義。
  • 3K 維的輸出維度: 該模型生成的嵌入維度高達(dá) 3072,并支持 768 和 1536 等子維度,以便進(jìn)行特定于任務(wù)的優(yōu)化。
  • 令人印象深刻的性能: Gemini Embedding 在海量文本嵌入基準(zhǔn)測試 (MTEB) 中排名第一,平均任務(wù)得分為 68.32,大大超過了其最接近的競爭對手。

Gemini 嵌入的模型架構(gòu)

Comparison of Gemini Embedding with Multilingual-e5-large & Jina

Gemini Embedding 的核心是基于 Transformer 架構(gòu),并從 Gemini LLM 初始化。這個基礎(chǔ)為模型提供了對語言結(jié)構(gòu)和語義的深刻理解。該模型使用雙向注意力機制來處理輸入序列,使其在生成嵌入時能夠考慮單詞或短語的完整上下文。

  1. 輸入序列 T 由 M(一個具有雙向注意力的 Transformer,從 Gemini 初始化)處理,產(chǎn)生一個標(biāo)記嵌入序列。
  2. 為了生成一個表示輸入中所有信息的單個嵌入,應(yīng)用池化函數(shù)。
  3. 最后,應(yīng)用線性投影將嵌入縮放至目標(biāo)維度,從而產(chǎn)生最終輸出嵌入。

損失函數(shù): Gemini Embedding 模型使用帶批內(nèi)負(fù)例的噪聲對比估計 (NCE) 損失進(jìn)行訓(xùn)練。確切的損失會根據(jù)訓(xùn)練階段略有不同。一般來說,一個訓(xùn)練示例包括一個查詢、一個正目標(biāo)和(可選)一個難負(fù)目標(biāo)。

訓(xùn)練策略

  1. 預(yù)微調(diào): 在此階段,模型在一個包含查詢-目標(biāo)對的大型多樣化數(shù)據(jù)集上進(jìn)行訓(xùn)練。這種曝光調(diào)整大型語言模型的參數(shù)以進(jìn)行編碼任務(wù),為其適應(yīng)性奠定基礎(chǔ)。
  2. 微調(diào): 在第二階段,模型使用包含查詢-正例-難負(fù)例三元組的特定于任務(wù)的數(shù)據(jù)集進(jìn)行微調(diào)。此過程使用較小的批量大小和精心策劃的數(shù)據(jù)集來提高目標(biāo)任務(wù)的性能。

另請閱讀:Gemini Embedding:來自 Gemini 的通用嵌入

與其他多語言嵌入模型的比較

我們將印地語文檔的檢索與新發(fā)布的最新 Gemini 嵌入進(jìn)行比較,然后將其與 Jina AI 嵌入和 Multilingual-e5-large 嵌入進(jìn)行比較。如下表所示,就最大標(biāo)記數(shù)而言,Gemini 嵌入和 Jina AI 嵌入很高,使模型能夠處理長文檔或復(fù)雜的查詢。此外,如下表所示,Gemini 嵌入具有更高的嵌入維度,可以捕捉單詞之間更細(xì)致和更細(xì)微的語義關(guān)系,使模型能夠表示復(fù)雜的語言模式和含義的細(xì)微差別。

參數(shù)數(shù)量 嵌入維度 最大標(biāo)記 語言數(shù)量 套娃嵌入
gemini-embedding-exp-03-07 未知 3072 8192 100 支持將嵌入截斷為各種尺寸,例如 2048、1024、512、256 和 128 維度,
jinaai/jina-embeddings-v3 5.72 億 1024 8194 100 支持靈活的嵌入大小 (32、64、128、256、512、768、1024),允許截斷嵌入以適應(yīng)您的應(yīng)用程序
multilingual-e5-large-instruct 5.6 億 1024 514 94 NA

使用 Gemini 嵌入進(jìn)行檢索,并與 Jina AI 嵌入和 Multilingual-e5-large 進(jìn)行比較

在以下實踐教程中,我們將印地語文檔的檢索與新發(fā)布的最新 Gemini 嵌入進(jìn)行比較,然后將其與 Jina AI 嵌入和 Multilingual-e5-large 嵌入進(jìn)行比較。

步驟 1. 安裝必要的庫

<code>!pip install langchain-community
!pip install chromadb</code>

步驟 2. 加載數(shù)據(jù)

我們使用來自網(wǎng)站的印地語數(shù)據(jù)來評估 Gemini 嵌入在印地語語言檢索方面的性能。

<code>from langchain_community.document_loaders import WebBaseLoader

loader = WebBaseLoader("https://ckbirlahospitals.com/rbh/blog/pregnancy-early-symptoms-in-hindi")
data = loader.load()</code>

步驟 3. 對數(shù)據(jù)進(jìn)行分塊

下面的代碼使用 RecursiveCharacterTextSplitter 將大型文本文檔拆分成 500 個字符的小塊,沒有重疊。然后,它將此拆分應(yīng)用于 datavariable 并將結(jié)果存儲在 all_splits 中。由于 Gemini Embedding API 的速率限制,我們只使用 10 個拆分。

<code>from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0)
all_splits = text_splitter.split_documents(data)
all_splits = all_splits[:10]</code>

步驟 4. 將數(shù)據(jù)存儲在向量數(shù)據(jù)庫中

我們首先創(chuàng)建一個名為“GeminiEmbeddingFunction”的類,它有助于查詢 Gemini Embedding API 并返回輸入查詢的嵌入值。然后,我們創(chuàng)建一個名為“create_chroma_db”的函數(shù),用于在 ChromaDB 中創(chuàng)建一個集合,該集合將存儲數(shù)據(jù)以及嵌入。

<code>import chromadb
from chromadb import Documents, EmbeddingFunction, Embeddings

class GeminiEmbeddingFunction(EmbeddingFunction):
  def __call__(self, input: Documents) -> Embeddings:
    title = "Custom query"  
    return client.models.embed_content(
        model="gemini-embedding-exp-03-07",
        contents=input).embeddings[0].values



def create_chroma_db(documents, name):
  chroma_client = chromadb.Client()
  db = chroma_client.create_collection(name=name, embedding_function=GeminiEmbeddingFunction())
  for i, d in enumerate(documents):
    db.add(
      documents=d.page_content,
      ids=str(i)
    )
  return db

db = create_chroma_db(all_splits, "datab")</code>

步驟 5. 查詢數(shù)據(jù)庫

<code>def get_relevant_passage(query, db):
  passage = db.query(query_texts=[query], n_results=1)['documents'][0][0]

  return passage

passage = get_relevant_passage("???? ?????????? ????? ?? ?????? ??????", db)
print(passage)</code>

步驟 6. 與 Jina AI 嵌入進(jìn)行比較

下面的代碼使用 Hugging Face transformer 模型定義了一個自定義嵌入函數(shù),以及一種處理文本輸入以生成嵌入的方法。

  1. 來自 transformers 的 AutoTokenizer 和 AutoModel 用于加載預(yù)訓(xùn)練模型 (jinaai/jina-embeddings-v3),并從 chromadb 導(dǎo)入 EmbeddingFunction 用于創(chuàng)建自定義嵌入。
  2. average_pool 函數(shù):此函數(shù)通過對模型的隱藏狀態(tài)執(zhí)行池化操作來聚合它們,在考慮注意力掩碼(忽略填充標(biāo)記)的同時對序列長度取平均值。
  3. CustomHuggingFace 類:它對文本進(jìn)行標(biāo)記化,將其饋送到模型中,并使用 average_pool 函數(shù)計算嵌入。結(jié)果作為嵌入列表返回。
<code>from transformers import AutoTokenizer, AutoModel
from chromadb import EmbeddingFunction


tokenizer = AutoTokenizer.from_pretrained('jinaai/jina-embeddings-v3')
model = AutoModel.from_pretrained('jinaai/jina-embeddings-v3')


# the model returns many hidden states per document so we must aggregate them
def average_pool(last_hidden_states, attention_mask):
    last_hidden = last_hidden_states.masked_fill(~attention_mask[...,None].bool(), 0.0)
    return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[...,None]

class CustomHuggingFace(EmbeddingFunction):
    def __call__(self, texts):
        queries    = [f'query: {text}' for text in texts]         
        batch_dict = tokenizer(texts, max_length=512, padding=True, truncation=True, return_tensors='pt')
        outputs    = model(**batch_dict)        
        embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask'])
        return embeddings.tolist()</code>

查詢

<code>def get_relevant_passage(query, db):
  passage = db.query(query_texts=[query], n_results=1)['documents'][0][0]

  return passage

passage = get_relevant_passage("???? ?????????? ????? ?? ?????? ??????", db)
print(passage)</code>

對于選擇Multilingual-e5-large 嵌入,我們只需將標(biāo)記器和模型替換為“intfloat/multilingual-e5-large-instruct”。

嵌入檢索輸出的比較

問題編號 查詢 Gemini 嵌入 jinaai/jina-embeddings-v3 intfloat/multilingual-e5-large-instruct
1 ???? ?????????? ????? ?? ?????? ?????? 如果您想詳細(xì)了解懷孕的早期癥狀,那么這篇博文非常適合您。您應(yīng)該何時進(jìn)行懷孕測試?– 錯誤 如果您想詳細(xì)了解懷孕的早期癥狀,那么這篇博文非常適合您。您應(yīng)該何時進(jìn)行懷孕測試?– 錯誤 如果您想詳細(xì)了解懷孕的早期癥狀,那么這篇博文非常適合您。您應(yīng)該何時進(jìn)行懷孕測試?– 錯誤
2 Pregnancy ?? kuch symptoms ???? ???? ???? 懷孕的早期癥狀是什么?在懷孕期間,女性體內(nèi)會發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括惡心、嘔吐、頻繁排尿和疲勞等,我們將在本博文中討論這些癥狀。– 正確 懷孕的跡象:早期癥狀的完整信息!主頁快速咨詢患者登錄聯(lián)系我們:08062136530 緊急電話:07340054470 打開主菜單服務(wù)患者和訪客國際患者關(guān)于我們預(yù)約回電WhatsApp 了解懷孕的早期癥狀。婦產(chǎn)科 |作者:C. P. Dadhich 博士| 發(fā)布日期:2025 年 2 月 6 日目錄您應(yīng)該何時進(jìn)行懷孕測試?懷孕的早期癥狀是什么?懷孕的早期癥狀懷孕的– 錯誤 懷孕的早期癥狀是什么?在懷孕期間,女性體內(nèi)會發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括惡心、嘔吐、頻繁排尿和疲勞等,我們將在本博文中討論這些癥狀。– 正確
3 ?????????? ?? ????? ??????????? ??? ???? ?? ?? ???? ?????? 在懷孕的最初幾天,卵子與精子受精,導(dǎo)致出血和腹痛等癥狀。在此期間,為了健康懷孕,建議女性避免服用抗生素,因為這可能會對母親和嬰兒造成危險。懷孕的早期癥狀并非總是月經(jīng)推遲或嘔吐。此外,還可能出現(xiàn)其他癥狀,需要特別注意,例如– 正確 在懷孕的最初幾天,卵子與精子受精,導(dǎo)致出血和腹痛等癥狀。在此期間,為了健康懷孕,建議女性避免服用抗生素,因為這可能會對母親和嬰兒造成危險。懷孕的早期癥狀并非總是月經(jīng)推遲或嘔吐。此外,還可能出現(xiàn)其他癥狀,需要特別注意,例如– 正確 每個女性都應(yīng)該了解的內(nèi)容。對于任何與懷孕相關(guān)的疑問,我們建議您聯(lián)系我們的婦科醫(yī)生,消除所有并發(fā)癥。– 錯誤
4 ?? ?????????? ??? ??????????? ??? ???? ?? ????? ???? 在懷孕的最初幾天,卵子與精子受精,導(dǎo)致出血和腹痛等癥狀。在此期間,為了健康懷孕,建議女性避免服用抗生素,因為這可能會對母親和嬰兒造成危險。懷孕的早期癥狀并非總是月經(jīng)推遲或嘔吐。此外,還可能出現(xiàn)其他癥狀,需要特別注意,例如– 正確 在懷孕的最初幾天,卵子與精子受精,導(dǎo)致出血和腹痛等癥狀。在此期間,為了健康懷孕,建議女性避免服用抗生素,因為這可能會對母親和嬰兒造成危險。懷孕的早期癥狀并非總是月經(jīng)推遲或嘔吐。此外,還可能出現(xiàn)其他癥狀,需要特別注意,例如– 正確 每個女性都應(yīng)該了解的內(nèi)容。對于任何與懷孕相關(guān)的疑問,我們建議您聯(lián)系我們的婦科醫(yī)生,消除所有并發(fā)癥。– 錯誤
5 ???????? ?? ???? ???? ??????? ????? ???? ??? 月經(jīng)推遲:這是懷孕的最早和最常見的癥狀。僅根據(jù)此癥狀來確認(rèn)懷孕并不完全正確。但是,如果月經(jīng)推遲一周或更長時間,建議進(jìn)行懷孕測試。乳房變化:懷孕期間,乳房會腫脹、變嫩或顏色發(fā)生變化。主要是在乳頭(乳暈)的大小和顏色上發(fā)生變化。– 正確 考慮到這一點,如何確認(rèn)懷孕?懷孕第一個月如何護(hù)理?如何進(jìn)行懷孕檢查?懷孕期間應(yīng)該如何坐?懷孕期間應(yīng)該發(fā)生性行為嗎?懷孕期間應(yīng)該吃什么水果?懷孕期間應(yīng)該喝多少水?成為母親的快樂是世界上最大的快樂。懷孕期間,女性的身體和心理都會發(fā)生許多變化。您將這些變化稱為懷孕的早期癥狀,– 錯誤 懷孕的早期癥狀是什么?在懷孕期間,女性體內(nèi)會發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括惡心、嘔吐、頻繁排尿和疲勞等,我們將在本博文中討論這些癥狀。– 正確
6 ???????? ?? ???? ????? ???? ???? ???? 懷孕的跡象:早期癥狀的完整信息!主頁快速咨詢患者登錄聯(lián)系我們:08062136530 緊急電話:07340054470 打開主菜單服務(wù)患者和訪客國際患者關(guān)于我們預(yù)約回電WhatsApp 了解懷孕的早期癥狀。婦產(chǎn)科 |作者:C. P. Dadhich 博士| 發(fā)布日期:2025 年 2 月 6 日目錄您應(yīng)該何時進(jìn)行懷孕測試?懷孕的早期癥狀是什么?懷孕的早期癥狀懷孕的– 錯誤 考慮到這一點,如何確認(rèn)懷孕?懷孕第一個月如何護(hù)理?如何進(jìn)行懷孕檢查?懷孕期間應(yīng)該如何坐?懷孕期間應(yīng)該發(fā)生性行為嗎?懷孕期間應(yīng)該吃什么水果?懷孕期間應(yīng)該喝多少水?成為母親的快樂是世界上最大的快樂。懷孕期間,女性的身體和心理都會發(fā)生許多變化。您將這些變化稱為懷孕的早期癥狀,– 錯誤 懷孕的早期癥狀是什么?在懷孕期間,女性體內(nèi)會發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括惡心、嘔吐、頻繁排尿和疲勞等,我們將在本博文中討論這些癥狀。– 正確
7 ?????????? ?? ?????? ?? ??? ??? ?? ??????? ?? ??? ????? ???? ??? 進(jìn)行懷孕測試的最佳時間是在月經(jīng)推遲至少 7 天后。您可以使用家用懷孕測試工具在家中檢測 hCG 水平。在懷孕期間,這種激素的水平會顯著升高。您需要注意的一點是,過早進(jìn)行測試也可能導(dǎo)致錯誤的結(jié)果,因此,如果您的月經(jīng)推遲并且測試結(jié)果為陰性,建議您至少再等 3 天,然后再次進(jìn)行測試。– 正確 這樣做也有正確的方法,您也可以在測試工具說明書上看到。為了獲得準(zhǔn)確的結(jié)果,您應(yīng)該使用早晨的第一泡尿,因為這時可以測量 hCG 激素的正確水平。此外,如果您經(jīng)歷了懷孕的早期癥狀,并且測試結(jié)果為陰性,請立即去看醫(yī)生進(jìn)行血液測試。在任何情況下,如有任何疑問,都必須咨詢醫(yī)生。– 正確 懷孕的早期癥狀是什么?在懷孕期間,女性體內(nèi)會發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括惡心、嘔吐、頻繁排尿和疲勞等,我們將在本博文中討論這些癥狀。– 錯誤

解釋

從上述印地語輸出中可以看出,使用 Gemini 嵌入,我們從 7 個查詢中得到了 5 個正確的輸出,而使用 Jina AI 嵌入和 Multilingual-e5-large,我們只得到了 3 個正確的響應(yīng)。

這表明,正如 MTEB 基準(zhǔn)測試所反映的那樣,Gemini 嵌入可以很好地執(zhí)行,并且比其他嵌入模型更好地處理印地語等多語言。

結(jié)論

總之,Gemini 嵌入代表了多語言 NLP 的重大進(jìn)步,特別是對于印地語等印度語系語言。憑借其強大的多語言能力、對大型輸入尺寸的支持以及在 MTEB 等基準(zhǔn)測試中的卓越性能,Gemini 在檢索、分類和語義搜索等任務(wù)中表現(xiàn)出色。通過實踐比較可以看出,Gemini 的性能優(yōu)于其他模型,提供更高的準(zhǔn)確性和效率,使其成為促進(jìn)多種語言 NLP 的寶貴工具。

主要收獲

  • 印地語系語言詞嵌入的重要性: 高質(zhì)量的嵌入增強了翻譯、問答和檢索等 NLP 任務(wù),解決了語言挑戰(zhàn)和資源差距問題。
  • Gemini Embedding 模型: 谷歌的 Gemini 嵌入利用其 AI 框架進(jìn)行多語言文本處理,涵蓋 100 多種語言,包括低資源語言。
  • 關(guān)鍵特性: 支持 8000 個標(biāo)記和 3072 維嵌入,能夠高效處理長文檔和復(fù)雜查詢。
  • 令人印象深刻的性能: 在 MTEB 多語言排行榜上排名第一,平均任務(wù)得分為 68.32,展示了其在多語言 NLP 中的強大功能。

本文中顯示的媒體并非 Analytics Vidhya 所有,作者可自行決定使用。

常見問題

Q1. 什么是 Gemini Embedding 模型?答:Gemini Embedding 模型基于谷歌的 Gemini AI,為包括印地語在內(nèi)的 100 多種語言提供頂級多語言文本嵌入。

Q2. 與其他模型相比,Gemini Embedding 的獨特之處是什么?答:Gemini Embedding 在多語言支持方面表現(xiàn)出色,可以處理 8000 個標(biāo)記,并輸出 3072 維,確保在分類、檢索和語義搜索方面的效率。

Q3. Gemini Embedding 在多語言任務(wù)中的表現(xiàn)如何?答:Gemini Embedding 在英語等高資源語言和阿薩姆語、馬其頓語等低資源語言中的表現(xiàn)都很好。它在 MTEB 多語言排行榜上排名第一,展示了其強大的多語言能力。

Q4. Gemini Embedding 模型的架構(gòu)是什么?答:該模型從 Gemini LLM 初始化,使用具有雙向注意力的 Transformer 架構(gòu)來生成高質(zhì)量的文本嵌入,捕捉上下文和含義。

Q5. Gemini Embedding 模型是如何訓(xùn)練的?答:Gemini Embedding 使用帶批內(nèi)負(fù)例的噪聲對比估計 (NCE) 損失進(jìn)行訓(xùn)練。它經(jīng)歷了兩個訓(xùn)練階段:在一個大型數(shù)據(jù)集上進(jìn)行預(yù)微調(diào),并在特定于任務(wù)的數(shù)據(jù)集上進(jìn)行微調(diào),以提高 NLP 性能。

以上是與多語言E5-Large和Jina嵌入雙子座的比較的詳細(xì)內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機

Video Face Swap

Video Face Swap

使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

從采用到優(yōu)勢:2025年塑造企業(yè)LLM的10個趨勢 從采用到優(yōu)勢:2025年塑造企業(yè)LLM的10個趨勢 Jun 20, 2025 am 11:13 AM

以下是重塑企業(yè)AI景觀的十種引人注目的趨勢。對LLMSorganizations的財務(wù)承諾正在大大增加其在LLMS的投資,其中72%的人預(yù)計他們的支出今年會增加。目前,近40%a

AI投資者停滯不前? 3條購買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨特性的衰落,以AI為中心的風(fēng)險投資的投資者必須做出關(guān)鍵決定:購買,建立或合作伙伴才能獲得優(yōu)勢?這是評估每個選項和PR的方法

生成AI的不可阻擋的增長(AI Outlook第1部分) 生成AI的不可阻擋的增長(AI Outlook第1部分) Jun 21, 2025 am 11:11 AM

披露:我的公司Tirias Research已向IBM,NVIDIA和本文提到的其他公司咨詢。Growth驅(qū)動力的生成AI采用的激增比最樂觀的預(yù)測更具戲劇性。然后,

新蓋洛普報告:AI文化準(zhǔn)備就緒需要新的心態(tài) 新蓋洛普報告:AI文化準(zhǔn)備就緒需要新的心態(tài) Jun 19, 2025 am 11:16 AM

廣泛采用和情感準(zhǔn)備之間的差距揭示了人類如何與越來越多的數(shù)字伴侶互動。我們正在進(jìn)入共存階段,算法編織到我們的日?,F(xiàn)場

這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 Jun 20, 2025 am 11:16 AM

由于AI,那些日子是編號的。根據(jù)一個螺柱,搜索企業(yè)諸如Travel網(wǎng)站皮劃艇和Edtech Company Chegg之類的企業(yè)正在下降,部分原因是60%的網(wǎng)站搜索不會導(dǎo)致用戶單擊任何鏈接。

AGI和AI超級智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 AGI和AI超級智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來談?wù)劇? 對創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI復(fù)雜性(請參閱此處的鏈接)。 前往Agi和

思科在美國2025 思科在美國2025 Jun 19, 2025 am 11:10 AM

讓我們仔細(xì)研究一下我發(fā)現(xiàn)的最重要的東西,以及思科如何以其目前的努力來進(jìn)一步實現(xiàn)其野心。

構(gòu)建您的第一個LLM應(yīng)用程序:初學(xué)者的教程 構(gòu)建您的第一個LLM應(yīng)用程序:初學(xué)者的教程 Jun 24, 2025 am 10:13 AM

您是否曾經(jīng)嘗試過建立自己的大型語言模型(LLM)應(yīng)用程序?有沒有想過人們?nèi)绾翁岣咦约旱腖LM申請來提高生產(chǎn)率? LLM應(yīng)用程序已被證明在各個方面都有用

See all articles