--- title: "港科大教授實測 AI 眼鏡 “作弊”:30 分鐘碾壓 95% 的學生,把傳統教學評估體系整破防了" type: "News" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/271649456.md" description: "香港科技大學的教授們進行了一項實驗,測試搭載 ChatGPT-5.2 模型的 AI 眼鏡在期末考試中的表現。該眼鏡在真實考試條件下完成了《計算機網絡原理》的試卷,30 分鐘內獲得 92.5 分,排名前五,超越 95% 的考生。這一實驗引發了對傳統教學評估體系的質疑,顯示出 AI 在教育領域的潛在影響。" datetime: "2026-01-06T12:20:47.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/271649456.md) - [en](https://longbridge.com/en/news/271649456.md) - [zh-HK](https://longbridge.com/zh-HK/news/271649456.md) --- # 港科大教授實測 AI 眼鏡 “作弊”:30 分鐘碾壓 95% 的學生,把傳統教學評估體系整破防了 離了大譜了,AI 真·走進了大學期末考場,並且還是以作弊者的身份。(你就説震不震驚吧) 沒開玩笑,事情就發生在香港科技大學《計算機網絡原理》的本科期末考試 “現場”。 一副搭載 ChatGPT-5.2 模型的 AI 眼鏡,被直接戴上鼻樑,在復刻真實考試條件的情況下,完成了整套期末試卷。 結果甚是魔幻:30 分鐘交卷,狂攬 92.5 分,並在一百多人的排名裏躋身進了前五,輕鬆碾壓超 95% 的人類考生: 果然,一代人有一代人的學習工具,以前是小抄複習資料,這回直接升級成——「整機」。 只不過,當這套整機已經能完整跑完一整套考試流程時,大家關注的重點,可能不再只是 AI 會不會答卷了。 這一次,AI“作弊者” 只是像人類學生那樣完整答了一遍題,卻讓傳統的教學評估體系看起來似乎有點站不住腳。 ## 一副 AI 眼鏡,跑完了一整場大學期末考試 這場看似離譜的「人機同場考試」,可不是學生的臨時整活,而是由香港科技大學張軍教授、孟子立教授團隊主導的一場實驗。 目標很明確,那就是讓一副搭載大模型的 AI 眼鏡,光明正大地在考場 “作弊”,然後看它能考多高分~ 其選中的測試場景也是非常的簡單粗暴,直接瞄準了令無數大學生《聞風喪膽》的專業課——計算機網絡原理。(瑟瑟發抖… 這門課程不僅考查海量的專業概念,更涉及嚴密的邏輯推導與算法應用,對人類學生來説是不小的挑戰,對 AI 而言更是難度拉滿。 對此,為了讓這位 AI 考生髮揮出最強實力,項目組在「軟硬件」篩選上可謂是做足了功課! 在硬件篩選環節,項目團隊對市面上 12 款主流商業智能眼鏡進行了系統評估,其中也包括大家熟悉的 Meta、小米、樂奇 Rokid 等廠商的產品: 第一輪篩選後,團隊發現真正同時具備內置攝像頭和集成顯示屏的產品其實並不多,進入候選範圍的主要只有 Meta Ray-Ban、Frame,以及樂奇 Rokid。 但實驗還需要進行二次開發,儘管 Meta 提供了設備訪問工具包,但並未開放對顯示內容的直接控制接口,難以滿足實驗對信息呈現方式的要求。 相比之下,樂奇 Rokid 的 SDK 更豐富、生態更完善,開發自由度顯著更高。 再綜合考慮 Frame 在試卷識別等場景下的相機畫質限制,研究團隊最終選擇了樂奇 AI 眼鏡作為這次人機同場考試的硬件測試選手: 而在決定大腦上限的大模型篩選上,團隊則對比了多款主流模型,最終鎖定了 OpenAI 目前最新的模型——無論是響應速度還是通用知識能力都較強的 ChatGPT—5.2。 軟硬件「考生」均已就位,接下來就是重頭戲——大考。 考試過程,可以用絲滑二字來形容:學生低頭查看試卷,AI 眼鏡通過攝像頭快速拍攝題目,並經由 “眼鏡—手機—雲端” 鏈路將圖像傳輸至遠程大模型完成推理,生成的答案再沿相反路徑返回,最終顯示在眼鏡屏幕上,供學生抄錄。 結果您猜怎麼着?這款基於 Rokid Glasses 開發、搭載 GPT-5.2 模型的 AI 眼鏡,在本次期末考試中拿下 92.5 分,成績超過了 95% 的學生。 不僅如此,在多項選擇題和單頁短答題中,樂奇 Rokid 均獲得滿分,即便是難度更高的跨頁短答題(SAQ),也拿到了大部分分數: 此外,在面對那些核心問題被拆分在不同頁碼、高度依賴上下文邏輯的跨頁短答題,樂奇 Rokid 依然展現出了極強的推理連貫性。 即便在計算最複雜的部分偶爾出現偏差,但 AI 給出的中間步驟也算得上非常完整,在處理高壓知識任務時也是手拿把掐~ 當然,這場測試在跑通軟件邏輯的同時,也無情地照出了目前商業 AI 眼鏡存在的《短板》。 首先暴露出來的,是功耗問題。 在考試這樣的高壓連續場景下,連接本身就已經成為主要耗電源,實驗中只要開啓 Wi-Fi、持續進行高分辨率圖像傳輸,30 分鐘內眼鏡電量就會從 100% 迅速跌到 58%。 換句話説,如果 AI 眼鏡要真正走向全天候、長時間使用,功耗控制和連接穩定性依然是繞不開的工程瓶頸… 不僅如此,項目團隊還發現眼鏡攝像頭的「清晰度」會直接決定 AI 的視力,一旦題目出現模糊、反光或拍攝角度偏差,再強的模型也只能在不完整信息上做推理,最終體現在答題表現上的,就是明顯下滑的穩定性。 但…這場測試帶來的衝擊和反思,並不只停留在技術層面。 在不做任何特殊照顧的前提下,AI 眼鏡依然能夠把一整套讀題—理解—作答的流程跑得又快又穩,這反過來照出了一個更值得注意的問題—— 當教學評估主要關注的只是最後有沒有交出一份「標準答案」時,它恰好落在了 AI 最擅長、也最穩定的能力區間裏。 也正因為如此,那套以知識點掌握程度和標準解題路徑為核心的教學評估方式,在一個早已被各種 “學習機” 包圍的時代,開始顯得有些吃力了。 ## 有了聰明的 AI,傳統教學評估標準還站得住腳嗎 不知道大家有沒有發現一件挺有意思的事情: 從小學一路考到大學,我們最熟悉的考試,其實一直在反覆確認同一件事,那就是有沒有把老師講的內容記住,以及能不能按標準方法,把題一步步算對。 u1s1,在很長一段時間裏,這套評估方式確實挺管用。 因為在記憶、計算、按步驟推導這些能力上,人和人之間確實存在明顯差距,有人記得牢、算得快,有人就是會漏步驟、算錯數。 成績單上的數字,也確實能覆蓋一個人相當大比例的學習表現。 但問題在於,當 AI 開始在這些評估維度上,也變得又快、又穩、而且幾乎不出錯時,事情就開始變得微妙了… 此前,一位創業者小孩哥 Eddy Xu 通過改裝 Meta 智能眼鏡,做出了一套可以在國際象棋比賽中實時顯示最優解法的 “作弊” 設備,在幾乎不需要自己思考的情況下,就能穩定贏下對局: 在這個過程中,AI 眼鏡不會緊張,也不會疲勞,更不存在臨場波動,一個字形容——穩。 這和樂奇 Rokid 眼鏡參加期末考試的表現其實是同一套邏輯:只要題目規則清晰、評價目標單一,AI 就能把讀題—理解—推理—作答這套流程穩定跑完。 哪怕脱離紙筆形態,它依然能在高度結構化的考試裏,持續拿到高分。 類似的案例並不只發生在個人層面。 此前,英國雷丁大學的一項研究還發現,當研究人員將 AI 生成的答卷混入考試題庫後,有高達 94% 的試卷成功 “渾水摸魚”,而這些 AI 的平均成績,甚至還明顯高於真實學生…(天塌啦 這下是真有點尷尬了——比人比不過,比 AI 也比不過: 讓人大跌眼鏡大開眼界的同時,一個原本不那麼尖鋭的問題被直接推到台前—— 當 AI 或機器比人更擅長按標準作答時,那套以筆試為核心、用來衡量知識點掌握程度的評估體系,到底在測什麼? 回過頭看教學培養的最初目的,我們會發現很多被反覆強調的重要能力,其實並不天然適配 “一張試卷” 這種形式。 ——比如提出好問題的能力。 ——在信息不完整時做判斷的能力。 ——在多種方案之間權衡取捨的能力。 ——以及理解現實情境、理解他人立場的能力。 …… 這些能力真正指向的是學習過程、思考路徑和決策質量,答案是否標準只是其中很小的一部分。 也是長期以來最難被傳統筆試捕捉,最容易被系統性忽略,恰好也是 AI 最難替代、也最能區分學生真實素養的地方。 從結果導向,轉向對推理路徑、探究過程、跨學科整合與創造性解題能力的整體評估,這也許才是 AI 眼鏡進入考場後,對現有教學評估體系提出的那道真正難題。 ## 評估重心從「交答案」到「交思路」 教育心理學家加德納曾在《Frames of Mind》中提到,人類至少擁有 8 種不同類型的智能—— 包括語言、邏輯數學、空間、音樂、人際、內省、身體運動、自然觀察。 從這個視角看,人類能力本身就是一個高度多維的結構,而我們所熟悉的教學評估體系,長期以來卻只集中捕捉了其中非常狹窄的一段。 這也不難解釋,為啥一些在標準化測試中表現並不突出的學生,反而能在真實世界中展現出更強的創造力、協作能力和複雜問題解決能力。 畢竟單一考試成績更多反映的只是學生在「標準化環境」中的發揮穩定性,像真實情境下的個人綜合素質其實顯露不太出來…… 也正因如此,如何評估創新能力、批判性思維和複雜問題解決能力,正在成為教育評估體系繞不開的一個現實難題。 目前一些指向不同方向的評估嘗試,已經出現~ 前不久,紐約大學 Stern 商學院教授 Panos Ipeirotis 推出了一套由 AI 支撐的口試評估方式,學生不僅要提交作業,還需要當場解釋自己的決策依據和思路走向,在對話中把理解與推理展開來。 這套機制中,AI 先充當考官進行追問,再參與到後續評估環節。 Claude、Gemini 和 ChatGPT 會分別對口試轉錄進行獨立評分,隨後交叉審查並修訂結果,用來判斷學生是否真正理解問題,同時暴露教學中的共性盲區: 怎麼説呢,感覺這種做法談不上專門 “對付” AI,但確實把教學評估重心往理解本身挪了一步。 類似的變化並非個例,此前《華盛頓郵報》也提到,目前國外部分高校已經開始引入口試、展示型作業等形式,本質上也是為了讓學生的思考過程變得顯現。 所以回過頭看,當搭載 GPT-5.2 的樂奇 AI 眼鏡走進考場並交出高分時,AI 是否「考贏」了學生似乎也沒有那麼重要了。 它更像一次特別但清晰的顯影實驗,讓一個長期存在卻很少被正視的問題浮出水面: 傳統教學評估高度依賴最終答案,卻幾乎無法刻畫整個學習過程。 分數當然是有意義的,但它所能解釋的範圍正在變窄,理解是否真正發生、思路是否連貫、判斷是否經過取捨,這些關鍵環節,仍然被壓縮成一個單一結果,難以被區分和看見。 也正是在這一點上,單純地把技術擋在門外,其實已經很難回應問題本身了。(也不見得阻擋得了… 更現實的挑戰,變成了如何讓學生把 AI 用在信息整理、方案推演和假設驗證上,把人的精力集中到判斷、理解和選擇這些無法被「外包」的環節。 當工具可以穩定完成信息提取與標準作答,課堂與考試是否還能區分不同層次的思考,正被推到台前。 風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。 ## 相關資訊與研究 - [史川恩:AI 絕不能侵犯人的尊嚴](https://longbridge.com/zh-HK/news/289402379.md) - [【AI】賽豆 AI 汽車品牌 AIVA 概念車亮相,首款量產車型 ME7 擬年內發布](https://longbridge.com/zh-HK/news/289259473.md) - [不只是廣告了,Meta 將站外行為資料導入內容推薦與 AI 個人化](https://longbridge.com/zh-HK/news/289263236.md) - [邱銘乾:TeraFab 已進行接觸,AI 需求非泡沫未來三到五年發展非常樂觀](https://longbridge.com/zh-HK/news/289147510.md) - [美銀:這兩大關鍵因素將決定 Meta 股票能否重新估值](https://longbridge.com/zh-HK/news/289489208.md)