2026年1月27日,AI科技公司DeepSeek正式推出新一代文档识别模型DeepSeek-OCR 2,该模型在识别性能上实现了3.73%的提升,核心突破在于采用了更贴近人类阅读逻辑的视觉编码技术,可让AI更精准地“读懂”版式复杂的文档、表格与公式。

作为初代OCR模型的升级版本,DeepSeek-OCR 2的核心革新源于全新的DeepEncoder V2视觉编码器。传统OCR模型通常将图像切分为视觉token,再按左上到右下的固定栅格顺序处理,这种方式与人类基于语义和逻辑进行跳跃式阅读的习惯完全不同。而DeepEncoder V2引入了“视觉因果流”概念,能根据图像语义动态调整视觉信息的处理顺序,在识别文字前先对视觉内容进行智能排序,从而更贴合人类的阅读逻辑。
据官方论文介绍,这一技术突破解决了传统模型的核心痛点。在处理版式复杂的合同、学术论文、财务报表等文档时,视觉元素间往往存在明确的逻辑先后关系,仅依赖空间顺序会限制模型对内容结构的理解能力。DeepSeek-OCR 2通过类语言模型结构替代了原有的CLIP视觉编码模块,并在编码器内部引入可学习的“因果流查询”机制,让模型能够自主判断视觉元素的逻辑关联,显著提升了对复杂文档的理解与识别精度。

此次升级后,DeepSeek-OCR 2不仅在通用场景下的识别准确率更高,在公式识别、跨语言混排、表格结构解析等专业场景中也表现更优。目前该模型已开源,将为企业用户提供更高效的文档数字化解决方案,助力金融、教育、法律等行业实现业务流程的智能化升级。业内专家表示,DeepSeek-OCR 2的技术路径代表了多模态大模型的发展方向——让机器更贴近人类的认知方式。随着这类技术的成熟,AI在处理复杂真实世界任务时的能力将持续提升,为各行业带来更具想象力的应用空间。