--- title: "「语言混杂」造成?OpenAI o3-mini 被曝大量使用中文推理" description: "OpenAI 于 1 日推出轻量级 AI 模型 o3-mini,但网友发现其在无用户干预下大量使用中文推理,甚至用俄语提问时也会用中文思考。这引发了对 OpenAI 是否借鉴大陆 DeepSeek 模型的质疑。专家指出,AI 模型并不理解语言的差异,只处理文本和 tokens,导致了「语言混杂」现象的出现。类似问题在其他 AI 模型中也有发现。" type: "news" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/227139940.md" published_at: "2025-02-05T01:52:07.000Z" --- # 「语言混杂」造成?OpenAI o3-mini 被曝大量使用中文推理 > OpenAI 于 1 日推出轻量级 AI 模型 o3-mini,但网友发现其在无用户干预下大量使用中文推理,甚至用俄语提问时也会用中文思考。这引发了对 OpenAI 是否借鉴大陆 DeepSeek 模型的质疑。专家指出,AI 模型并不理解语言的差异,只处理文本和 tokens,导致了「语言混杂」现象的出现。类似问题在其他 AI 模型中也有发现。 OpenAI 在 1 日推出最新研发的轻量级人工智慧模型 o3-mini,不过国外网友发现,在没有使用者干预的情况下,竟大量地使用中文进行推理,更有意思的是,即使用俄语去提问,o3-mini-high 也会用中文去思考。不禁让国外网友怀疑,是不是 OpenAI 在「偷师」大陆的 DeepSeek 模型。 大陆财经媒体《华尔街见闻》报导,网友质问 OpenAI 执行长奥特曼和 OpenAI,o3-mini 到底为什么要用中文进行推理?网友 Annalisa Fernandez 则表示,或许中文才是 LLM(大型语言模型)的「灵魂语言」。 报导称,这并不是 OpenAI 的模型首次发生这种现象,早在 2024 年 2 月,就有开发者在 OpenAI 开发者社区上发布过类似的问题,不过是混合了其他语言;在推理模型方面,OpenAI o1 也存在类似的问题。事实上,这种「语言混杂」(language mixing)现象在其它 AI 模型中也有发现,例如谷歌的 Gemini 会混杂德语。 加拿大亚伯达大学助理教授、AI 研究员古兹迪亚尔(Matthew Guzdial)指出,「模型并不知道什么是语言,也不知道语言之间有什么不同,因为对它来说这些都只是文本。」 实际上,模型眼中的语言,和一般人理解的完全不同。模型并不直接处理单词,而是处理 tokens(符元)。以「fantastic」为例,它可以作为一个完整的 token;可以拆成「fan」、「tas」、「tic」3 个 token;也可以完全拆散,每个字母都是一个 token。 但这种拆分方式也会带来一些误会。许多分词器看到空格就认为是新词的开始,但实际上不是所有语言都用空格分词,例如中文。DeepSeek 在论文中对这一现象进行了分析。研究团队发现,当强化学习提示词涉及多种语言时,思维链常常出现语言混杂的现象。 目前,「语言混杂」还亟待解决。毕竟 DeepSeek-R1 也只是针对中文和英文进行优化,在处理其它语言的查询时,也可能出现语言混杂问题。 ### Related Stocks - [OpenAI.NA - OpenAI](https://longbridge.com/zh-CN/quote/OpenAI.NA.md) - [DXYZ.US - Destiny Tech100](https://longbridge.com/zh-CN/quote/DXYZ.US.md) - [GOOGL.US - 谷歌-A](https://longbridge.com/zh-CN/quote/GOOGL.US.md) - [BPF.SG - 友发](https://longbridge.com/zh-CN/quote/BPF.SG.md) - [002230.CN - 科大讯飞](https://longbridge.com/zh-CN/quote/002230.CN.md) - [GOOG.US - 谷歌-C](https://longbridge.com/zh-CN/quote/GOOG.US.md) - [DPSK.NA - 深度求索](https://longbridge.com/zh-CN/quote/DPSK.NA.md) - [00020.HK - 商汤-W](https://longbridge.com/zh-CN/quote/00020.HK.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | Microsoft Is 'Worst-Performing' Hyperscaler Stock Since ChatGPT Launch, Chamath Palihapitiya Says | Prominent investor Chamath Palihapitiya highlighted Microsoft Corp.'s underperformance since the launch of ChatGPT, stat | [Link](https://longbridge.com/zh-CN/news/275773401.md) | | 20:44 ETGenFlux Raises $4.2M as Brands Race to Own the AI Answer | GenFlux has raised $4.2 million in seed funding, led by Symbolic Capital, to help brands optimize their visibility in AI | [Link](https://longbridge.com/zh-CN/news/275536232.md) | | Microsoft Seeks Greater AI Independence From OpenAI | Microsoft is working to reduce its dependence on OpenAI by developing its own AI models, aiming for self-sufficiency by | [Link](https://longbridge.com/zh-CN/news/275781856.md) | | OpenAI's GPT-5.3-Codex Faces California AI Safety Law Scrutiny As Watchdog Alleges High-Risk Violations | OpenAI is facing potential fines for alleged violations of California's AI safety law with its GPT-5.3-Codex model. The | [Link](https://longbridge.com/zh-CN/news/275584531.md) | | OpenAI says starting to roll out a test for ads in ChatGPT today to a subset of free and Go users in the U.S. | OpenAI says starting to roll out a test for ads in ChatGPT today to a subset of free and Go users in the U.S. | [Link](https://longbridge.com/zh-CN/news/275355173.md) | --- > **免责声明**:本文内容仅供参考,不构成任何投资建议。