---
title: "港科大教授實測 AI 眼鏡 “作弊”：30 分鐘碾壓 95% 的學生，把傳統教學評估體系整破防了"
type: "News"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/271649456.md"
description: "香港科技大學的教授們進行了一項實驗，測試搭載 ChatGPT-5.2 模型的 AI 眼鏡在期末考試中的表現。該眼鏡在真實考試條件下完成了《計算機網絡原理》的試卷，30 分鐘內獲得 92.5 分，排名前五，超越 95% 的考生。這一實驗引發了對傳統教學評估體系的質疑，顯示出 AI 在教育領域的潛在影響。"
datetime: "2026-01-06T12:20:47.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/271649456.md)
  - [en](https://longbridge.com/en/news/271649456.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/271649456.md)
---

# 港科大教授實測 AI 眼鏡 “作弊”：30 分鐘碾壓 95% 的學生，把傳統教學評估體系整破防了

離了大譜了，AI 真·走進了大學期末考場，並且還是以作弊者的身份。（你就説震不震驚吧）

沒開玩笑，事情就發生在香港科技大學《計算機網絡原理》的本科期末考試 “現場”。

一副搭載 ChatGPT-5.2 模型的 AI 眼鏡，被直接戴上鼻樑，在復刻真實考試條件的情況下，完成了整套期末試卷。

結果甚是魔幻：30 分鐘交卷，狂攬 92.5 分，並在一百多人的排名裏躋身進了前五，輕鬆碾壓超 95% 的人類考生：

果然，一代人有一代人的學習工具，以前是小抄複習資料，這回直接升級成——「整機」。

只不過，當這套整機已經能完整跑完一整套考試流程時，大家關注的重點，可能不再只是 AI 會不會答卷了。

這一次，AI“作弊者” 只是像人類學生那樣完整答了一遍題，卻讓傳統的教學評估體系看起來似乎有點站不住腳。

## 一副 AI 眼鏡，跑完了一整場大學期末考試

這場看似離譜的「人機同場考試」，可不是學生的臨時整活，而是由香港科技大學張軍教授、孟子立教授團隊主導的一場實驗。

目標很明確，那就是讓一副搭載大模型的 AI 眼鏡，光明正大地在考場 “作弊”，然後看它能考多高分～

其選中的測試場景也是非常的簡單粗暴，直接瞄準了令無數大學生《聞風喪膽》的專業課——計算機網絡原理。（瑟瑟發抖…

這門課程不僅考查海量的專業概念，更涉及嚴密的邏輯推導與算法應用，對人類學生來説是不小的挑戰，對 AI 而言更是難度拉滿。

對此，為了讓這位 AI 考生髮揮出最強實力，項目組在「軟硬件」篩選上可謂是做足了功課！

在硬件篩選環節，項目團隊對市面上 12 款主流商業智能眼鏡進行了系統評估，其中也包括大家熟悉的 Meta、小米、樂奇 Rokid 等廠商的產品：

第一輪篩選後，團隊發現真正同時具備內置攝像頭和集成顯示屏的產品其實並不多，進入候選範圍的主要只有 Meta Ray-Ban、Frame，以及樂奇 Rokid。

但實驗還需要進行二次開發，儘管 Meta 提供了設備訪問工具包，但並未開放對顯示內容的直接控制接口，難以滿足實驗對信息呈現方式的要求。

相比之下，樂奇 Rokid 的 SDK 更豐富、生態更完善，開發自由度顯著更高。

再綜合考慮 Frame 在試卷識別等場景下的相機畫質限制，研究團隊最終選擇了樂奇 AI 眼鏡作為這次人機同場考試的硬件測試選手：

而在決定大腦上限的大模型篩選上，團隊則對比了多款主流模型，最終鎖定了 OpenAI 目前最新的模型——無論是響應速度還是通用知識能力都較強的 ChatGPT—5.2。

軟硬件「考生」均已就位，接下來就是重頭戲——大考。

考試過程，可以用絲滑二字來形容：學生低頭查看試卷，AI 眼鏡通過攝像頭快速拍攝題目，並經由 “眼鏡—手機—雲端” 鏈路將圖像傳輸至遠程大模型完成推理，生成的答案再沿相反路徑返回，最終顯示在眼鏡屏幕上，供學生抄錄。

結果您猜怎麼着？這款基於 Rokid Glasses 開發、搭載 GPT-5.2 模型的 AI 眼鏡，在本次期末考試中拿下 92.5 分，成績超過了 95% 的學生。

不僅如此，在多項選擇題和單頁短答題中，樂奇 Rokid 均獲得滿分，即便是難度更高的跨頁短答題（SAQ），也拿到了大部分分數：

此外，在面對那些核心問題被拆分在不同頁碼、高度依賴上下文邏輯的跨頁短答題，樂奇 Rokid 依然展現出了極強的推理連貫性。

即便在計算最複雜的部分偶爾出現偏差，但 AI 給出的中間步驟也算得上非常完整，在處理高壓知識任務時也是手拿把掐～

當然，這場測試在跑通軟件邏輯的同時，也無情地照出了目前商業 AI 眼鏡存在的《短板》。

首先暴露出來的，是功耗問題。

在考試這樣的高壓連續場景下，連接本身就已經成為主要耗電源，實驗中只要開啓 Wi-Fi、持續進行高分辨率圖像傳輸，30 分鐘內眼鏡電量就會從 100% 迅速跌到 58%。

換句話説，如果 AI 眼鏡要真正走向全天候、長時間使用，功耗控制和連接穩定性依然是繞不開的工程瓶頸…

不僅如此，項目團隊還發現眼鏡攝像頭的「清晰度」會直接決定 AI 的視力，一旦題目出現模糊、反光或拍攝角度偏差，再強的模型也只能在不完整信息上做推理，最終體現在答題表現上的，就是明顯下滑的穩定性。

但…這場測試帶來的衝擊和反思，並不只停留在技術層面。

在不做任何特殊照顧的前提下，AI 眼鏡依然能夠把一整套讀題—理解—作答的流程跑得又快又穩，這反過來照出了一個更值得注意的問題——

當教學評估主要關注的只是最後有沒有交出一份「標準答案」時，它恰好落在了 AI 最擅長、也最穩定的能力區間裏。

也正因為如此，那套以知識點掌握程度和標準解題路徑為核心的教學評估方式，在一個早已被各種 “學習機” 包圍的時代，開始顯得有些吃力了。

## 有了聰明的 AI，傳統教學評估標準還站得住腳嗎

不知道大家有沒有發現一件挺有意思的事情：

從小學一路考到大學，我們最熟悉的考試，其實一直在反覆確認同一件事，那就是有沒有把老師講的內容記住，以及能不能按標準方法，把題一步步算對。

u1s1，在很長一段時間裏，這套評估方式確實挺管用。

因為在記憶、計算、按步驟推導這些能力上，人和人之間確實存在明顯差距，有人記得牢、算得快，有人就是會漏步驟、算錯數。

成績單上的數字，也確實能覆蓋一個人相當大比例的學習表現。

但問題在於，當 AI 開始在這些評估維度上，也變得又快、又穩、而且幾乎不出錯時，事情就開始變得微妙了…

此前，一位創業者小孩哥 Eddy Xu 通過改裝 Meta 智能眼鏡，做出了一套可以在國際象棋比賽中實時顯示最優解法的 “作弊” 設備，在幾乎不需要自己思考的情況下，就能穩定贏下對局：

在這個過程中，AI 眼鏡不會緊張，也不會疲勞，更不存在臨場波動，一個字形容——穩。

這和樂奇 Rokid 眼鏡參加期末考試的表現其實是同一套邏輯：只要題目規則清晰、評價目標單一，AI 就能把讀題—理解—推理—作答這套流程穩定跑完。

哪怕脱離紙筆形態，它依然能在高度結構化的考試裏，持續拿到高分。

類似的案例並不只發生在個人層面。

此前，英國雷丁大學的一項研究還發現，當研究人員將 AI 生成的答卷混入考試題庫後，有高達 94% 的試卷成功 “渾水摸魚”，而這些 AI 的平均成績，甚至還明顯高於真實學生…（天塌啦

這下是真有點尷尬了——比人比不過，比 AI 也比不過：

讓人大跌眼鏡大開眼界的同時，一個原本不那麼尖鋭的問題被直接推到台前——

當 AI 或機器比人更擅長按標準作答時，那套以筆試為核心、用來衡量知識點掌握程度的評估體系，到底在測什麼？

回過頭看教學培養的最初目的，我們會發現很多被反覆強調的重要能力，其實並不天然適配 “一張試卷” 這種形式。

——比如提出好問題的能力。

——在信息不完整時做判斷的能力。

——在多種方案之間權衡取捨的能力。

——以及理解現實情境、理解他人立場的能力。

……

這些能力真正指向的是學習過程、思考路徑和決策質量，答案是否標準只是其中很小的一部分。

也是長期以來最難被傳統筆試捕捉，最容易被系統性忽略，恰好也是 AI 最難替代、也最能區分學生真實素養的地方。

從結果導向，轉向對推理路徑、探究過程、跨學科整合與創造性解題能力的整體評估，這也許才是 AI 眼鏡進入考場後，對現有教學評估體系提出的那道真正難題。

## 評估重心從「交答案」到「交思路」

教育心理學家加德納曾在《Frames of Mind》中提到，人類至少擁有 8 種不同類型的智能——

包括語言、邏輯數學、空間、音樂、人際、內省、身體運動、自然觀察。

從這個視角看，人類能力本身就是一個高度多維的結構，而我們所熟悉的教學評估體系，長期以來卻只集中捕捉了其中非常狹窄的一段。

這也不難解釋，為啥一些在標準化測試中表現並不突出的學生，反而能在真實世界中展現出更強的創造力、協作能力和複雜問題解決能力。

畢竟單一考試成績更多反映的只是學生在「標準化環境」中的發揮穩定性，像真實情境下的個人綜合素質其實顯露不太出來……

也正因如此，如何評估創新能力、批判性思維和複雜問題解決能力，正在成為教育評估體系繞不開的一個現實難題。

目前一些指向不同方向的評估嘗試，已經出現～

前不久，紐約大學 Stern 商學院教授 Panos Ipeirotis 推出了一套由 AI 支撐的口試評估方式，學生不僅要提交作業，還需要當場解釋自己的決策依據和思路走向，在對話中把理解與推理展開來。

這套機制中，AI 先充當考官進行追問，再參與到後續評估環節。

Claude、Gemini 和 ChatGPT 會分別對口試轉錄進行獨立評分，隨後交叉審查並修訂結果，用來判斷學生是否真正理解問題，同時暴露教學中的共性盲區：

怎麼説呢，感覺這種做法談不上專門 “對付” AI，但確實把教學評估重心往理解本身挪了一步。

類似的變化並非個例，此前《華盛頓郵報》也提到，目前國外部分高校已經開始引入口試、展示型作業等形式，本質上也是為了讓學生的思考過程變得顯現。

所以回過頭看，當搭載 GPT-5.2 的樂奇 AI 眼鏡走進考場並交出高分時，AI 是否「考贏」了學生似乎也沒有那麼重要了。

它更像一次特別但清晰的顯影實驗，讓一個長期存在卻很少被正視的問題浮出水面：

傳統教學評估高度依賴最終答案，卻幾乎無法刻畫整個學習過程。

分數當然是有意義的，但它所能解釋的範圍正在變窄，理解是否真正發生、思路是否連貫、判斷是否經過取捨，這些關鍵環節，仍然被壓縮成一個單一結果，難以被區分和看見。

也正是在這一點上，單純地把技術擋在門外，其實已經很難回應問題本身了。（也不見得阻擋得了…

更現實的挑戰，變成了如何讓學生把 AI 用在信息整理、方案推演和假設驗證上，把人的精力集中到判斷、理解和選擇這些無法被「外包」的環節。

當工具可以穩定完成信息提取與標準作答，課堂與考試是否還能區分不同層次的思考，正被推到台前。

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。

## 相關資訊與研究

- [史川恩：AI 絕不能侵犯人的尊嚴](https://longbridge.com/zh-HK/news/289402379.md)
- [【AI】賽豆 AI 汽車品牌 AIVA 概念車亮相，首款量產車型 ME7 擬年內發布](https://longbridge.com/zh-HK/news/289259473.md)
- [不只是廣告了，Meta 將站外行為資料導入內容推薦與 AI 個人化](https://longbridge.com/zh-HK/news/289263236.md)
- [邱銘乾：TeraFab 已進行接觸，AI 需求非泡沫未來三到五年發展非常樂觀](https://longbridge.com/zh-HK/news/289147510.md)
- [美銀：這兩大關鍵因素將決定 Meta 股票能否重新估值](https://longbridge.com/zh-HK/news/289489208.md)