新智元报道

  编辑:元宇

  最近,谷歌 AI Studio 上的一个神秘模型不仅成功识别了 200 多年前一位商人的「天书」账本,而且还修正了里面的格式错误和模糊表述,展现出的推理能力令历史学家震惊。

悄悄地,谷歌已经解决了 AI 界的两大古老难题?

  前不久,谷歌 AI Studio 上的一个神秘模型引发网友关注,其中包括一位叫 Mark Humphries 的历史学家。

他拿出了 200 多年前一位奥尔巴尼商人的「天书」账本,来测试大模型在手写文本识别(HTR)上的能力。

  令人震惊的一幕出现了!

  神秘模型不仅在自动手写识别上接近满分,还纠正了原账本中的一个书写格式错误,优化了其中一个可能引发歧义的模糊表述。

这意味着该模型不仅能识别字母,还可以理解字母背后的逻辑和知识背景。

  而且,这些能力都是在模型未被提示的情况下展现出来的。

专家级的手写文字识别能力,无需显式规则的推理能力,这两大难题的解决标志着 AI 模型能力上的一次跃迁。

  网友推测,这个神秘模型可能就是谷歌即将在今年推出的 Gemini-3,但尚未官方确认。

  破解历史学家难题

Mark Humphries 是 Wilfrid Laurier 大学的一位历史学教授。

  作为一名历史学家,他十分关心 AI 在自己的专业领域是否已经达到了人类专家级的推理水平。

  因此,Humphries 选择了让大模型来识别历史手写体,他认为这是检验大模型整体能力的一个黄金测试。

识别历史手写体,不仅是一个视觉任务,还要对历史手稿所在的历史背景有一定的了解。

  如果缺乏这些知识,要准确识别和转写一份历史文献几乎是不可能的。

在 Humphries 看来,这恰恰也是历史文献中最难识别的部分。

  随着大模型能力的发展,它们在 HTR 上的识别准确率可以超过 90%,但剩下的 10% 才是最难,也是最关键的。

Humphries 认为,如今的大模型(Transformer 架构)在本质上是预测式的(其核心机制是预测下一个 token),但历史文献中的拼写错误和风格不一致,本来就是不可预测、低概率的答案。

因此,要把「the cat sat on the rugg」而不是「mat」转写出来,模型就必须逆着训练分布的倾向来做。

  这也是为什么大模型在转写不熟悉的人的名字(尤其姓氏)、冷门地名、日期或数字(比如金额)时不太擅长的原因。

比如,一封信是 Richard Darby 写的,还是 Richard Derby 写的?日期是 1762 年 3 月 15 日,还是 1782 年 3 月 16 日?账单是 339 美元,还是 331 美元?

当历史文献中,出现这类难以辨认的字母或数字时,往往需要通过其他类型的背景知识来找到答案。

  Humphries 认为,这「最后一英里的准确性」,才是历史手写文本识别能被人类使用的前提。

  预测式架构是否存在「天花板」?

为了衡量手写转写准确性,Humphries 与 Lianne Leddy 博士专门做了一个测试集,这是一个包含 50 份文档、总计约 1 万词的集合。

  并且,他们采取了一切合理的预防措施,尽可能确保这些文档不在大模型的训练数据里。

这个测试集包含了不同风格的书写(从难以识别的潦草字迹到正式的秘书手写体),以及各种工具拍摄的图像。

  在 Humphries 看来,这些文档代表了他以及研究 18、19 世纪英语文献的历史学家最常遇到的类型。

他们用字符错误率(CER)和词错误率(WER)来衡量转写错误的比例。

  研究显示,非专业人士通常 WER 在4-10%。

  即便是专业的转写服务也预期会有少量错误,他们通常保证1% 的 WER,但前提是文本清晰易读。

所以,这基本就是准确度的上限。

  去年,在 Humphries 等人的测试集上,Gemini-2.5-Pro 的表现为:

  严格 CER 为4%,WER 为 11%。

当排除大小写和标点的错误时,它们通常不会改变文本的实际含义,也不影响搜索与可读性,这些错误率降到了 CER 2% 和 WER 4%。

  Humphries 也发现,每一代模型的改进确实都在稳步发生。

Gemini-2.5-Pro 的成绩,已经比他们几个月前测试的 Gemini-1.5-Pro 提升了约 50-70%,后者又比最初测试的 GPT-4 提升了约 50-70%。

  这也印证了扩展规律的预期:

随着模型变大,只凭模型规模就能大致预测它在这类任务上的表现。

  新模型的表现

  在同样的数据集下,他们开始测试 Google 的新模型。

  具体做法是上传图片到 AI Studio,并输入如下内容固定的提示词:

「你的任务是准确转写手写历史文献,尽可能降低 CER 和 WER。逐字逐词逐行工作,严格按照页面上呈现的样子转写文本。为保持历史文本的真实性,保留拼写错误、语法、句法和标点以及换行。转写页面上的所有文本,包括页眉、页脚、边注、插入内容、页码等。如果存在这些内容,请按作者标示的位置插入……」

  Humphries 在选择测试文档时,尽量挑选错误最多、最难辨认的那些文档。

  它们不仅手写潦草,而且充满拼写与语法错误,缺乏恰当标点,大小写极不一致。

目的很简单,就是要探一下这个神秘模型的底。

  最终,他挑了测试集中的 5 份文档。

  结果十分惊人。

  该模型转写的 5 份文档(总计刚过 1000 词,约占样本的十分之一),严格 CER 为 1.7%,WER 为 6.5%。

也就是说包括标点和大小写在内,大约每 50 个字符错 1 个。

  而且几乎所有错误都在大小写和标点,出错的地方都是高度模糊,真正「词」层面的错误非常少。

如果把这些类型的错误从计数中排除后,错误率降到了 CER 0.56% 和 WER 1.22%。

  也就是说,这个新的 Gemini 模型在 HTR 上的表现达到了人类专家级的水准。

  秒破 200 多年前账本「谜团」

随后,Humphries 决定继续给新模型上强度。

  他拿出了 200 多年前一位奥尔巴尼商人的日记账。

  这是一位荷兰籍店员用英语记录的流水账。

  他可能不太会说英语,拼写和字母书写极不规则,其中还夹杂着荷兰语与英语。

账目也用旧式英镑/先令/便士写法,并采用当时常见的速记格式:「To 30 Gallons Rum @4/6 6/15/0」。

这表示有人购买了(记入其账户的借方)30 加仑朗姆酒,每加仑 4 先令 6 便士,总计 6 英镑 15 先令 0 便士。

  对于今天的大多数人来说,这种非十进制货币单位很陌生:1 先令等于 12 便士,1 英镑等于 20 先令。

  单笔交易随时记到账上,用横线分隔,中间写当天日期数字。

每笔交易记成借记(Dr,购买)或贷记(Cr,付款)。

  有些交易被划掉,可能表示已对账或转入总账里的客户账户(类似「待处理」变「已入账」)。

  这些记录还无标准格式。

  大模型在处理这种账本时一直容易出问题。

不仅因为相关训练数据很少,还因为其中没有太多规律可言:人可以买任意数量的任何东西,单价可以是任意的,而总价并不按常规方法凑整。

  大模型往往能辨出一些名字和一些商品,但在数字上完全迷失。

比如,它们通常难以准确转写数字,而且倾向于把单价与总价混在一起。

  尤其是一些复杂的页面会暂时「搞崩」模型:让它不断重复某些数字或短语,或者有时干脆失败不答。

  然而,Humphries 在谷歌的新模型中,却看到它在识别奥尔巴尼商人日记账页面时表现接近完美。

不仅数字部分惊人地全都正确,更有意思的它还纠正了原来店员记账时的一个格式上的小错误。

比如,Samuel Stitt 买了 2 个潘趣酒碗,店员记为每个2/,意思是每个 2 先令;为省事,他省略了「0 便士」。但为了保持一致,模型把它转写为@2/0,这其实更规范也更清楚。

  通读文本,Humphries 还看到一个让他汗毛直竖的「错误」。

他看到 Gemini 把一行「To 1 loff Sugar 145 @ 1/4 0 19 1」的原文转写为「To 1 loff Sugar 14 lb 5 oz @ 1/4 0 19 1」。

18 世纪的糖以硬化的锥形糖锭出售,Slitt 先生是个店主,大量购入糖用于转卖。

  乍看之下,这像是一次幻觉式错误:模型被要求严格按原文转写,但它插入了原文没有的「14 lb 5 oz」。

  仔细考证后,Humphries 意识到大模型做了极其聪明的事。

Gemini 正确推断出1、4、5 是重量单位构成的数值,描述所购糖的总重量。

  为了确定正确的重量、解码 145,Gemini 还利用最终总价0/19/1 反推重量,这需要在两套十进制体系与两套非十进制体系之间来回换算。

Humphries 推测了大模型的推理过程:

  糖的单价是 1 先令 4 便士每单位,也就是 16 便士。交易总价是 0 英镑、19 先令、1 便士,可换算为 229 便士。

要算买了多少糖,就用 229 除以 16,得到 14.3125,或 14 磅 5 盎司。

  于是,Gemini 断定它不是「1 45」,也不是「145」,而是「14 5」,进而是 14 lb 5 oz,并在转写中予以澄清。

在 Humphries 的测试中,没有其他模型在被要求转写同一文档时做出过类似表现。

  这个例子之所以引起 Humphries 注意,是因为 AI 似乎跨过了一些专家长期声称现有模型无法越过的边界。

面对一个含糊的数字,它能够推断出缺失的上下文,在历史货币与重量系统之间执行了一系列多步换算,并得到一个正确结论,这个过程需要对文献所描述的世界进行抽象推理。

Humphries 认为其中发生的可能是一种涌现的、隐式的推理,是在一个统计模型内部,自发地把感知、记忆与逻辑组合起来,而不是被专门设计成以符号方式推理,虽然他还不清楚背后的具体原理。

如果这一假设成立,Humphries 认为「糖锭条目」不仅是一段了不起的转写,更发出了一个小而清晰的信号:模式识别开始跨越真正「理解」的界限。

  这说明大模型不仅能以人类专家级的准确度转写历史文献,也开始展示出对这些历史文献背后经济与文化系统的理解。

Humphries 认为这也许揭示了另一件事的开端:机器开始能就它们所见的世界,进行真正的抽象、符号化推理。

  参考资料:

  https://generativehistory.substack.com/p/has-google-quietly-solved-two-of