国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁(yè) 科技周邊 人工智能 紙與聲音助理:使用多模式方法的AI代理

紙與聲音助理:使用多模式方法的AI代理

Mar 20, 2025 am 11:05 AM

該博客展示了使用LangGraph和Google Gemini構(gòu)建的研究原型代理。代理是“紙與聲音助手”,使用多模式方法總結(jié)了研究論文,從圖像中推斷信息以識(shí)別步驟和子步驟,然后產(chǎn)生對(duì)話摘要。這是一個(gè)簡(jiǎn)化的,說(shuō)明性的示例,類似于筆記本電腦的系統(tǒng)。

代理利用單個(gè)單向圖進(jìn)行逐步處理,采用條件節(jié)點(diǎn)連接來(lái)處理迭代任務(wù)。關(guān)鍵功能包括與Google Gemini的多模式對(duì)話以及通過(guò)Langgraph的簡(jiǎn)化代理創(chuàng)建過(guò)程。

紙與聲音助理:使用多模式方法的AI代理

目錄:

  • 紙到聲音助理:代理AI中的地圖降低
  • 從自動(dòng)化到協(xié)助:AI代理的不斷發(fā)展的作用
  • 排除
  • Python圖書(shū)館
  • 紙到聲音助理:實(shí)施詳細(xì)信息
  • Google Vision模型集成
  • 步驟1:任務(wù)生成
  • 步驟2:計(jì)劃解析
  • 步驟3:文本到j(luò)son轉(zhuǎn)換
  • 步驟4:逐步解決方案生成
  • 步驟5:有條件循環(huán)
  • 步驟6:文本到語(yǔ)音轉(zhuǎn)換
  • 步驟7:圖形結(jié)構(gòu)
  • 對(duì)話生成和音頻綜合
  • 常見(jiàn)問(wèn)題

紙到聲音助理:代理AI中的地圖降低

該代理使用地圖范圍范式。大型任務(wù)分為子任務(wù),分配給單個(gè)LLM(“求解器”),并同時(shí)處理,然后將結(jié)果組合在一起。

從自動(dòng)化到協(xié)助:AI代理的不斷發(fā)展的作用

生成AI的最新進(jìn)展使LLM代理人越來(lái)越受歡迎。雖然有些人將代理視為完整的自動(dòng)化工具,但該項(xiàng)目將其視為生產(chǎn)力助推器,從而有助于解決問(wèn)題和工作流程。示例包括Cursor Studio等AI驅(qū)動(dòng)的代碼編輯器。代理商在計(jì)劃,行動(dòng)和自適應(yīng)策略改進(jìn)方面有所改善。

紙與聲音助理:使用多模式方法的AI代理

排除:

  • 省略了諸如Web搜索或自定義功能之類的高級(jí)功能。
  • 沒(méi)有反向連接或路由。
  • 沒(méi)有平行處理或有條件作業(yè)的分支。
  • PDF和圖像/圖形解析功能尚未完全實(shí)現(xiàn)。
  • 每個(gè)提示限制三張圖像。

紙與聲音助理:使用多模式方法的AI代理

Python圖書(shū)館:

  • langchain-google-genai :將Langchain與Google的生成AI模型聯(lián)系起來(lái)。
  • python-dotenv :加載環(huán)境變量。
  • langgraph :代理建設(shè)。
  • pypdfium2 & pillow :PDF到圖像轉(zhuǎn)換。
  • pydub :音頻分割。
  • gradio_client :訪問(wèn)擁抱的面部模型。

紙到聲音助理:實(shí)施詳細(xì)信息

實(shí)施涉及多個(gè)關(guān)鍵步驟:

Google Vision模型集成:

該代理使用Google Gemini的視覺(jué)功能(Gemini 1.5 Flash或Pro)來(lái)處理研究論文中的圖像。

紙與聲音助理:使用多模式方法的AI代理

(步驟1-7,包括代碼片段,將在此重新編寫(xiě),并進(jìn)行較小的釋義和重組以維持流程,并避免逐字化的復(fù)制。核心功能和邏輯將保持不變,但是措辭將改變創(chuàng)意。這是一項(xiàng)重大的工作,并且需要大量的約束。由于我不能在此處提供完整的代碼。

對(duì)話生成和音頻綜合:

最后一步將生成的文本轉(zhuǎn)換為對(duì)話播客腳本,將角色分配給主機(jī)和來(lái)賓,然后使用擁抱的臉部文本對(duì)語(yǔ)音模型合成語(yǔ)音。然后將單個(gè)音頻段組合在一起以創(chuàng)建最終播客。

紙與聲音助理:使用多模式方法的AI代理

常見(jiàn)問(wèn)題:

(常見(jiàn)問(wèn)題解答還將以原始含義而改寫(xiě)為原始含義。)

結(jié)論:

該項(xiàng)目是功能演示,需要進(jìn)一步開(kāi)發(fā)生產(chǎn)使用。盡管它省略了資源優(yōu)化之類的方面,但它有效地說(shuō)明了多模式代理在研究論文摘要中的潛力。更多詳細(xì)信息可在Github上找到。

以上是紙與聲音助理:使用多模式方法的AI代理的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

熱門(mén)話題

Laravel 教程
1601
29
PHP教程
1502
276
Kimi K2:最強(qiáng)大的開(kāi)源代理模型 Kimi K2:最強(qiáng)大的開(kāi)源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時(shí)候破壞了Genai行業(yè)的大量開(kāi)源中國(guó)模型嗎?盡管DeepSeek占據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

Grok 4 vs Claude 4:哪個(gè)更好? Grok 4 vs Claude 4:哪個(gè)更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競(jìng)賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車型Grok 4和Claude 4。這兩種模型處于設(shè)計(jì)理念和部署平臺(tái)的相反端,但他們卻在

今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 Jul 16, 2025 am 11:12 AM

但是我們可能甚至不必等10年就可以看到一個(gè)。實(shí)際上,可以被認(rèn)為是真正有用的,類人類機(jī)器的第一波。 近年來(lái),有許多原型和生產(chǎn)模型從T中走出來(lái)

Leia的浸入式移動(dòng)應(yīng)用將3D深度帶入日常照片 Leia的浸入式移動(dòng)應(yīng)用將3D深度帶入日常照片 Jul 09, 2025 am 11:17 AM

基于Leia專有的神經(jīng)深度引擎,應(yīng)用程序流程靜止圖像,并添加了自然深度以及模擬運(yùn)動(dòng)(例如Pans,Zooms和Alallax Effects),以創(chuàng)建簡(jiǎn)短的視頻卷軸,從而給人以踏入SCE的印象

上下文工程是' new'及時(shí)的工程 上下文工程是' new'及時(shí)的工程 Jul 12, 2025 am 09:33 AM

直到上一年,迅速的工程被認(rèn)為是與大語(yǔ)言模型(LLM)互動(dòng)的關(guān)鍵技能。然而,最近,LLM在推理和理解能力方面已經(jīng)顯著提高。自然,我們的期望

7種AI代理的7種類型是什么? 7種AI代理的7種類型是什么? Jul 11, 2025 am 11:08 AM

想象一些復(fù)雜的東西,例如AI引擎準(zhǔn)備提供有關(guān)米蘭新服裝系列的詳細(xì)反饋,或者自動(dòng)市場(chǎng)分析用于全球運(yùn)營(yíng)的企業(yè),或者智能系統(tǒng)管理大型車隊(duì)。

這些AI模型沒(méi)有學(xué)習(xí)語(yǔ)言,他們學(xué)習(xí)了策略 這些AI模型沒(méi)有學(xué)習(xí)語(yǔ)言,他們學(xué)習(xí)了策略 Jul 09, 2025 am 11:16 AM

倫敦國(guó)王學(xué)院和牛津大學(xué)的研究人員的一項(xiàng)新研究分享了Openai,Google和Anthropic在基于迭代囚犯的困境基于的cutthroat競(jìng)爭(zhēng)中一起投擲的結(jié)果。這是沒(méi)有的

隱藏的命令危機(jī):研究人員游戲AI將發(fā)布 隱藏的命令危機(jī):研究人員游戲AI將發(fā)布 Jul 13, 2025 am 11:08 AM

科學(xué)家發(fā)現(xiàn)了一種巧妙而令人震驚的方法來(lái)繞過(guò)系統(tǒng)。 2025年7月標(biāo)志著一項(xiàng)精心制作的戰(zhàn)略,研究人員將無(wú)形的指示插入其學(xué)術(shù)意見(jiàn) - 這些秘密指令是尾巴

See all articles