格羅克-1。 5.視覺預覽:新版AI將分析影像、電子表格和文件。透過新的更新,埃隆馬斯克的人工智慧現在可以處理各種視覺訊息,包括文件、圖表、圖表、螢幕截圖和照片

Grok-1.5 Vision Preview:新版人工智慧將分析影像、電子表格和文檔

亞歷山大·馬克斯頭像
透過新的更新,伊隆馬斯克的人工智慧現在可以處理各種視覺訊息,包括文件、圖表、圖表、螢幕截圖和照片

創建的目的是與 ChatGPT 通過 X.人工智能,伊隆馬斯克的公司, 格羅克 是一個聊天機器人,一直以其諷刺和政治不正確的幽默感而引人注目。可供 Premium+ 計畫的訂戶使用 X (前身為推特) 格羅克 它還根據平台數據進行即時更新,提供熱門主題和熱門帖子的背景信息,此外還提供圖像生成、Bing 導航和高級數據分析等附加功能。

現在, X.人工智能馬斯克的人工智慧公司宣布 Grok-1.5 視覺預覽,馬斯克人工智慧的新版本 這將擴展其分析圖像、電子表格和文件的能力,從而允許 不僅是文字處理,還包括從圖像中解釋和提取資訊。

版本訊息

將其文字處理功能與分析各種視覺資訊(例如文件、圖表、圖表、螢幕截圖和照片)的能力相結合, Grok-1.5V 承諾給人留下深刻印象。這個新版本很快就會提供給早期測試人員和現有用戶 格羅克然而,在先前的測試中, Grok-1.5V 它已經被證明在多個領域與多式聯運模型具有高度競爭力。

然而,最令人印象深刻的是其能力 Grok-1.5V 理解物理世界,包括解釋螢幕截圖和照片中的圖像。這種能力為人機互動以及電腦視覺和虛擬輔助等領域的應用開闢了新的可能性。

A X.人工智能 展示了新版本的令人印象深刻的功能 格羅克 他在解釋圖像方面表現出色,從特定圖表編寫程式碼的能力就證明了這一點。如下圖所示,該圖描述了一個基於邏輯流程圖和使用者互動的猜謎遊戲。當被問到是否可以將圖表翻譯成程式碼時 蟒蛇Grok-1.5V 準確地回應,提供了代表流程圖中描述的遊戲邏輯的程式碼。

格羅克-1。 5 視覺預覽
照片:截圖/Showmetech。

在下面的範例中, Grok-1.5V 展示了它根據圖像中提供的營養資訊計算卡路里的能力。圖片顯示了食品包裝上營養標籤的特寫,其中列出了各種營養細節,例如份量和每份的卡路里數。當被問到 5 片產品含有多少卡路里時, 格羅克 回答準確,並解釋說,如果一份 3 片含有 60 卡路里熱量,那麼 5 片大約含有 100 卡路里。

格羅克-1。 5 視覺預覽
照片:截圖/Showmetech。

關於另一個演示(下圖), 格羅克 他運用自己的能力,根據孩子畫的畫創作了一個睡前故事。這幅畫展示了一個男孩在一條船旁邊。當被問到能否根據這幅畫講故事時, 格羅克 以一個關於一個名叫蒂米的勇敢男孩的引人入勝的故事作為回應。這種能力 Grok-1.5V 將簡單的圖畫轉變成引人入勝的故事,展現了他解釋和創造敘事的能力。

格羅克-1。 5 視覺預覽
照片:截圖/Showmetech。

以下範例重複了解釋和創建敘述的能力,其中 格羅克 解釋一個諷刺新創公司和大公司之間差異的迷因。圖中有兩個展板:左邊是“Startups”,一群建築工人正在積極地挖坑;右邊是“Startups”,一群建築工人正在積極地挖洞;右邊的標題為“大生意”,一群人正在觀看一個人挖掘。的解釋 格羅克 強調了新創公司的緊密協作和效率與大公司可能存在的官僚主義和缺乏敏捷性之間的對比。

格羅克-1。 5 視覺預覽
照片:截圖/Showmetech。


在下圖中, Grok-1.5V 能夠使用自然語言處理技能和解釋視覺訊息將表格轉換為 CSV 格式。在分析 2016 年夏季殘奧會上摩洛哥奧運獎牌得主的表格時, 格羅克 確定相關列,例如「獎牌」、「姓名」、「運動」、「賽事」和「日期」。然後,他根據 CSV 格式標準將這些資訊組織成逗號分隔的行。這種能力 格羅克 展示您以精確的方式提取和重新組織資料的能力,這對於將表格資訊轉換為更容易操作的格式很有用。

格羅克-1。 5 視覺預覽
照片:截圖/Showmetech。

A X.人工智能 已經計劃在未來幾個月內對其多式聯運能力進行重大改進。重點關注圖像、音訊和視訊等不同模式,目標是繼續朝著有益的通用人工智慧 (AGI) 邁進,使其能夠以日益複雜的方式理解宇宙並與之互動。

了解現實世界

O Grok-1.5V 也準備好獲得“對現實世界的空間理解”,以便更好地解釋用戶上傳的圖像中所呈現的物理世界。這項改進對於為現實世界開發更有用的人工智慧助理至關重要。為了實現這一目標,正在引入一個新的基準,即 真實世界品質保證,專門設計用於評估多模態模型的空間理解能力,例如 Grok-1.5V.

雖然基準測試中的許多範例對人類來說可能看起來很簡單,但它們對當前的人工智慧模型提出了重大挑戰,凸顯了在這一領域取得進步的必要性,以提高人工智慧以更全面的方式理解物理世界並與之互動的能力。

格羅克-1。 5 視覺預覽
在測試中,Grok-1.5 Vision Preview 被證明可以有效地解讀此類照片。照片:Grok / X.AI。

例如,在上圖中,人工智慧能夠分析並回答「哪個物體更大:披薩刀還是剪刀?」的問題。這種比較大小的能力需要對物理世界的空間理解。人工智慧能夠辨識影像中的物體,辨識它們的相對形狀和大小。根據分析,人工智慧確定披薩刀比剪刀大。這種能力展示瞭如何訓練人工智慧來理解和回答有關圖像中物理對象的問題,這對於其發展成為現實世界中的有用助手至關重要。

格羅克-1。 5 視覺預覽
Grok-1.5 Vision Preview 提供了影像問題的答案。照片:Grok / X.AI。

在另一個例子中(上圖), Grok-1.5V 確定了恐龍面向的基本方向。該圖像沒有提供清晰的視覺參考,例如恐龍周圍環境中的指南針或地標,但 格羅克 正確回答了問題,顯示恐龍面朝東方。

與其他AI的比較

格羅克-1。 5 視覺預覽
與其他 AI 相比,Grok-1.5V 已表現出同等或優越的性能。照片:截圖/Showmetech。

O Grok-1.5 視覺預覽 與其他人工智慧相比,在一項名為“ 真實世界品質保證,評估對現實世界的空間理解。此基準測試是在零樣本配置中執行的,不需要特定的思想鏈請求。

在分析不同組別資料時, Grok-1.5V 在幾個關鍵領域表現優於同業。在基準測試中 多元學科(MMMU),涉及多個學科, Grok-1.5V 得分為 53.6%,略優於其他 AI,例如 GPT-4V Ø 克勞德第 3 首十四行詩.

沒有 瑪斯維斯塔,專注於數學問題, Grok-1.5V 取得了52.8%的成績,再次領先競爭對手。在 人工智慧二維,評估對圖表的理解, Grok-1.5V 取得了 88.3% 的驕人成績,明顯優於其他人工智慧,例如 GPT-4V 和 Gemini Pro 1.5.

Em 文檔VQA,這涉及到理解文檔, Grok-1.5V 成績為85.6%,落後 GPT-4V,克勞德 3 十四行詩 e 克勞德 3 作品。在評估對現實世界的理解的 RealWorldQA 基準中, Grok-1.5V 獲得了 68.7% 的分數,再次證明了其相對於其他評估的人工智慧的優越性。

這些結果凸顯了 Grok-1.5 視覺預覽 理解各種複雜且上下文相關的任務,這使其成為各種現實世界人工智慧應用的有希望的選擇。然而,需要強調的是,儘管 Grok-1.5V 儘管在 RealWorldQA 基準測試中與其他人工智慧相比,它們表現出了令人印象深刻的效能,但這些基準測試的結果不一定 100% 可靠。

它們顯示了不同人工智慧在不同資料集和場景中的相對性能,但不應被視為人工智慧整體能力的明確衡量標準。結果的準確解釋取決於許多因素,包括資料集的性質、評估方法和手邊任務的複雜性。

看視頻

另見:

豐特斯: 格羅克, 有趣的工程 e 混搭

審閱者 格勞孔生命力 15 年 4 月 24 日。


了解更多關於秀美科技

註冊以透過電子郵件接收我們的最新消息。

發表評論

您的電子郵件地址將不會被發表。 必填字段標有 *

相關文章