--- title: "免費、SOTA、中文,微軟卷出了新高度" description: "微軟研究院聯合威斯康星大學麥迪遜分校和哥倫比亞大學發佈了多模態大模型 LLaVa(Large Language and Vision Assistant)的 1.6 版本。LLaVa-1.6 具有 SOTA 級別的性能,低訓練花銷,多模態的內容生成能力,且代碼、模型與訓練數據全開源。在標準評測數據集上,LLaVa-1.6 的表現超越了其他模型,成為了開源模型中的 “性能王者”。" type: "news" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/107838627.md" published_at: "2024-02-11T11:54:36.000Z" --- # 免費、SOTA、中文,微軟卷出了新高度 > 微軟研究院聯合威斯康星大學麥迪遜分校和哥倫比亞大學發佈了多模態大模型 LLaVa(Large Language and Vision Assistant)的 1.6 版本。LLaVa-1.6 具有 SOTA 級別的性能,低訓練花銷,多模態的內容生成能力,且代碼、模型與訓練數據全開源。在標準評測數據集上,LLaVa-1.6 的表現超越了其他模型,成為了開源模型中的 “性能王者”。 出品 | 虎嗅科技組 作者 | 杜鈺君 碾壓谷歌的 Gemini Pro 和阿里的 Qwen-VL-Plus,與 GPT-4V 正面硬剛,這個有着 SOTA 級別性能的多模態大模型真正做到了 “人無我有,人有我優”。 繼 2023 年 4 月的初級版本、2023 年 10 月的 LLaVA-1.5 之後,2024 年 1 月 31 日,微軟研究院又聯合威斯康星大學麥迪遜分校和哥倫比亞大學的研究者共同發佈了多模態大模型 LLaVa(Large Language and Vision Assistant)的 1.6 版本。與 GPT-4V 只提供 API 接口的閉源經營理念不同,LLaVA1.6 的代碼、模型與訓練數據全開源,且在標準評測數據集上跑出了較為亮眼的成績。 一、LLaVA1.6:捲上加捲 LLaVA 是一種端到端訓練的大型多模態模型,又被稱為 “大型語言和視覺助手”。LLaVa-1.6 是微軟 LLaVa 系列的第三個迭代版本。升級後的 LLaVa-1.6 可謂 buff 疊滿:SOTA 級別的性能,低訓練花銷,多模態的內容生成能力和再一次將開源大模型捲上了新高度。 根據 LLaVa-1.6 官網的標準評測數據集,該模型的表現超越了 Qwen-VL-Plus、CogVLM 和 Yi-VL 等一眾模型,在大部分數據集上的表現都優於 Gemini Pro,在 Math-Vista、MMB-ENG 等部分數據集上的表現甚至勝於 GPT-4V,成為了開源模型中的 “性能王者 “。 圖片來源:LLaVA-1.6 官網的標準評測數據 在不拘泥於單一模態的內容生成,具有 Text-to-Text 和 Image-to-Text 兩種模式的同時,LLaVa-1.6 的過人之處還在於更低的訓練數據成本。LLaVA-1.6 能用 32 個 GPU 在一天之內完成訓練,僅需 1.3M 條訓練數據,其計算和訓練數據比其他模型小 100 到 1000 倍。 除了通過對話式 AI 生成文本外,LLaVA-1.6 還可以識別圖片信息並轉化成文字答案。升級後的 LLaVa-1.6 對輸入圖像的分辨率提升到原來的 4 倍以上,使得模型能夠抓住圖片的更多細節。目前支持的圖像分辨率有 672x672、336x1344 以及 1344x336 三種。 LLaVA 模型架構基於大量的圖像 - 文本配對的數據集,將預訓練的 CLIP 視覺編碼器與大型語言模型(Vicuna)通過映射矩陣相連接,來實現視覺和語言特徵的匹配。根據該模型的研發團隊成員 Haotian Liu 在 X 平台的介紹,此增強版本建立在其前身的簡約設計和數據效率基礎上,並通過改進視覺指令數據集和 SGLang,提升了 “推理、OCR 等方面的性能”,意味着人類向 AGI(通用人工智能)探索的道路上又邁進了一步。 LLaVA-1.6 的研發團隊成員 Haotian Liu 在 X 平台發文原文 二、更適合中國人體質的 GPT-4V 在奮力追平 GPT-4V 的同時,LLaVa-1.6 也展現出強大的零樣本中文能力。 LLaVa-1.6 不需要額外訓練便具備傑出的中文理解和運用能力,其在中文多模態場景下表現優異,使得用户不必學習複雜的 “prompt” 便可以輕鬆上手,這對於執行 “免費(限制文本長度、使用次數等)+ 付費會員” 制的文心一言們而言無疑提出了新的挑戰。 筆者在對 LLaVa-1.6 模型的 demo 進行嘗試時發現,LLaVa-1.6 對古詩詞等具有中文語言特色的文本內容理解也較為到位,且能給出中上水平的答案。因而對於有圖生文或文生文需求的用户而言,LLaVa-1.6 模型不失為更適合中國人體質的 GPT-4V。 圖片來源:筆者在文心一格平台的使用截圖 更強的視覺對話能力使得 LLaVa-1.6 的智能服務可以覆蓋更多元的場景、具有更強的常識和邏輯推理能力。 圖片來源:用户在 X 平台對 LLaVA-1.6 的試用截圖 在上圖的應用場景中,用户發給 LLaVA-1.6 一張機票,詢問與之相關的接機和日程安排。LLaVA-1.6 不僅準確的估計了駕駛時間,還考慮到了可能堵車的情況,頗具一個 “智能管家” 的自我修養。 圖片來源:用户在 X 平台對 LLaVA-1.6 的試用截圖 為了促進多模態大模型社區的發展,開發者們開源了 LLaVa-1.6 的全部代碼、訓練數據和模型。這無疑有益於人工智能開發的透明度和協作。在較小訓練樣本和開源的前提下,如果可以基於本地數據訓練專業模型,推動解決當前大模型基於雲的產品的責任和隱私問題。 不難發現,輕量化的訓練數據是 LLaVa-1.6 與其他多模態大模型不同的關鍵一點。一直以來,成本的高企便是橫亙在大模型訓練面前的一大難題。隨着大模型賽道越來越卷,研發者們開始將關注點從性能轉向成本,在關注大規模參數量的同時着力降低模型的運算和推理成本,實現模型壓縮化和計算高效化。 ### Related Stocks - [MSFT.US - 微軟](https://longbridge.com/zh-HK/quote/MSFT.US.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | 机构 “最超配” 闪迪,“最低配” 英伟达 | 据摩根士丹利最新的统计:“机构对美国大型科技股的低配程度是 17 年来最大的” 相比 2025 年 Q4 的标普 500 指数权重,“$NVDA 仍然是机构低配程度最大的大型科技股,其次是苹果、微软、亚马逊和博通,而存储巨头闪迪则是 “最超 | [Link](https://longbridge.com/zh-HK/news/276289765.md) | | 为 AI 交易 “背书”!OpenAI 正敲定新一轮融资:以 8300 亿美元估值募资高达 1000 亿美元 | OpenAI 正以 8300 亿美元估值推进新一轮融资,目标筹集 1000 亿美元。软银拟领投 300 亿美元,亚马逊和英伟达可能各投 500 亿及 300 亿美元,微软拟投数十亿美元。本轮融资是 OpenAI 自去年秋季公司制改革以来的首 | [Link](https://longbridge.com/zh-HK/news/276298180.md) | | 特朗普暗示违法征收的关税不退了,美财长称今年关税收入将 “基本保持不变” | 美国总统特朗普暗示不会退还被最高法院裁定违法的关税,预计 2026 年关税收入将保持不变。特朗普计划签署行政令,对全球商品加征 10% 进口关税,取代被推翻的关税。财长贝森特表示,政府将利用替代法律权力维持关税收入,强调国家安全和财政收入不 | [Link](https://longbridge.com/zh-HK/news/276494362.md) | | 美财政部让步,拟修订主权财富基金税收提案,此前遭私募业警告 | 美国财政部正就一项针对主权财富基金和公共养老基金征税方式进行全面改革的提案作出让步。相关提案此前由美国国税局提出,拟更新税法第 892 条,将这些基金持有的多数美国债务投资归为商业活动,这将令其面临被征税的风险。此前,私募信贷和私募股权公司 | [Link](https://longbridge.com/zh-HK/news/276491732.md) | | Restaurant Brands|10-K:2025 财年营收 94.34 亿美元超过预期 | | [Link](https://longbridge.com/zh-HK/news/276483868.md) | --- > **免責聲明**:本文內容僅供參考,不構成任何投資建議。