新闻中心

DeepSeek新OCR系统震撼来袭!压缩率90%信息保真97%

2025-12-12
浏览次数:
返回列表

近日,deepseek正式发布全新ocr系统,使ai能够在不突破内存约束的前提下高效处理超长文档。其开源代码已托管于github:https://www.php.cn/link/9d55db9e54e6dfb6ae280528ee34a0a1 。该系统的核心创新在于——将文字内容视作图像进行压缩,相较直接处理原始文本,图像化表征显著降低计算开销。在确保97%信息完整保留的前提下,文档体积可压缩至原大小的十分之一。例如,一本百页级pdf经该系统处理后,所需token数量仅为原先的1/10,语言模型即可实现端到端精准解析。

DeepSeek OCR系统由两大核心组件协同构成:

一是图像编码模块 DeepEncoder,参数量达3.8亿,专用于将输入的文档图像解析为高度压缩的视觉token;
二是文本生成模块,基于 Deepseek-3B-MoE 架构微调而来,负责从视觉token中重建原始文字内容与文档结构。

技术层面,系统深度融合了Meta推出的 SAM(Segment Anything Model) 与OpenAI开发的 CLIP 模型:SAM承担细粒度局部区域分割任务,CLIP则提供跨模态语义对齐能力。二者之间嵌入一个16倍压缩单元,大幅削减视觉token总量。以一张1024×1024像素图像为例,初始生成4096个token,经压缩后仅剩256个,极大缓解CLIP模块的推理压力。在低分辨率场景下,单图仅需64个视觉token;高分辨率模式下亦不超过400个,而传统OCR方案通常需数千token才能完成同等精度识别。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

DeepSeek OCR不仅支持常规文字识别,还可精准解析图表、化学分子式、几何图形等复杂非文本元素。研究团队指出,系统能直接从上市公司财报中的折线图、柱状图中抽取结构化数值,并自动输出标准Markdown表格。在“深度解析模式”下,金融图表与几何示意图更可被重绘为矢量格式,同时完整保留图注、坐标说明及上下文标注。

基准测试结果表明,DeepSeek OCR在 OmniDocBench 综合评测中表现卓越:当仅使用100个视觉token时,性能已超越GOT-OCR 2.0在256 token下的表现;在800 token预算内,全面领先MinerU 2.0(后者每页平均消耗超6000 token)。其专属的 Gundam-M模式 在中英文混合文档识别任务中斩获最低编辑距离(Edit Distance)分数,达到当前最优水平。系统具备智能模式调度能力——面对简易演示文档自动启用64-token轻量模式;普通业务报告匹配约100-token配置;而面对排版密集的报纸类多栏文档,则激活“Gundam模式”,上限设为800 token。此外,还提供 Resize、Padding、Multi-page、Sliding 四种预处理策略,灵活兼顾多页文档的压缩效率与识别准确率。

文心智能体平台 文心智能体平台

百度推出的基于文心大模型的Agent智能体平台,已上架2000+AI智能体

文心智能体平台 393 查看详情 文心智能体平台

DeepSeek OCR的训练数据规模极为罕见:总计投入三千万页PDF文档,覆盖近一百种语言。其中包含2500万页真实中英文资料、1000万张合成图表、500万条化学公式样本、以及100万幅几何图形图像。如此海量且高多样性的训练语料,赋予模型强大的跨领域泛化能力与跨语言鲁棒性,不仅能完美复现原始文档布局,输出结果还同步附带图文语义描述与内容摘要。

在当前主流多模态大模型架构中,文本上下文长度限制始终是制约长文档理解的关键瓶颈。DeepSeek另辟蹊径,跳脱传统token计数范式,以视觉token替代文本token作为语言模型的新输入载体,真正实现“边看图、边读文”的一体化感知。对研究人员而言,这相当于为AI配备了一块高性能“外接硬盘”——借助视觉压缩机制,模型的有效上下文长度近乎无界,也预示着未来AI架构或将彻底消融“文本理解”与“图像理解”的传统边界。

该模型一经开源,迅速引发全球技术社区高度关注,相关讨论迅速登上GitHub Trending、Hugging Face热门榜单及多个中文科技平台热搜榜。有开发者实测反馈:“太惊艳了!刚用这个新开源模型把400页PDF转成Markdown,全程不到4分钟!”另有AI从业者感叹:“震撼!中国DeepSeek再次打破天花板——整本《百科全书》竟能浓缩为一张高清图像!” DeepSeek OCR绝非一次简单的OCR工具升级,而是对机器如何感知、组织与利用信息的一次底层范式革新。

以上就是DeepSeek新OCR系统震撼来袭!压缩率90%信息保真97%的详细内容,更多请关注其它相关文章!


# 蛋蛋视频seo查询  # 官网  # 来袭  # 压缩率  # 如何写  # 前提下  # 多个  # 广西定制网站建设  # 莞城服装网站优化哪家好  # 柱状  # 包头建设安全协会网站  # 广州东坑网站建设  # seo标题优化教学视频网站  # 六盘水百度网站优化  # SEO学习图片背景  # 淘宝seo怎么入门  # 德安seo优化公司  # deepseek  # 会议纪要  # 开源  # 文档  # 大模  # 金融  # openai  # pdf  # ai  # 工具  # 硬盘  # 编码  # github  # go  # git  # markdown 


相关栏目: 【 科技资讯46185 】 【 网络学院92790


相关推荐: J*aScript打印功能_j*ascript输出控制  Django AJAX 文件上传教程:解决图片无法保存到模型的常见问题  在Runstone环境中高效处理TasteDive API的JSON数据  我的世界官方游戏入口 我的世界官网平台直达链接  蛙漫2日版入口 WAMAN2(日版)无删减漫画官网链接  Yandex浏览器官方网页版入口 Yandex浏览器最新版官网  iwriter统一登录平台 iwrite账号密码登录页面  sublime如何优雅地处理行尾空格_sublime自动清理多余空白字符配置  哔哩哔哩忘记密码了怎么找回_哔哩哔哩密码找回方法  QQ网页版官方账号入口 QQ网页版网页版登录指南  Lar*el如何生成PDF或Excel文件_Lar*el文档导出工具与使用教程  Golang如何使用const iota_Go iota常量计数器讲解  jQuery Mask 插件中实现电话号码固定前导零的教程  J*a应用集成GitHub CLI与API认证指南  MAC的“快捷指令”怎么同步到iPhone_MAC利用iCloud同步所有设备的自动化指令  手机CPU怎么影响游戏体验_手机CPU对游戏性能的影响分析  J*aScript中向JSON对象添加新属性的正确姿势  Win10如何清理注册表垃圾 Win10手动清理无效注册表【技巧】  文心一言怎样用插件调度API数据_文心一言用插件调度API数据【API调用】  J*aScript中localStorage数据的获取、清洗与格式化教程  深入理解Promise链:如何在catch后中断then的执行  KFC游戏互动怎么赢取优惠券_KFC线上游戏活动参与与优惠代码赢取教程  大象笔记网页版入口 印象笔记网页版登录入口  C++如何实现单例模式_C++设计模式之线程安全的单例写法  马斯克:Optimus 人形机器人复数形式为 Optimi  c++如何使用折叠表达式(Fold Expressions)_c++17可变参数模板新技巧  C++如何实现一个装饰器模式_C++设计模式之动态地给对象添加额外职责  React Router 嵌套组件中 URL 重定向问题的解决方案  抖音网页版企业服务中心登录入口_抖音网页版企业登录平台  Angular Material 垂直步进器:实现底部到顶部排序的教程  PDO预处理语句中冒号的正确处理:区分SQL函数格式与命名占位符  2026春节假期时间安排 2026春节假日查询  PHP 枚举:根据字符串获取枚举案例的策略与实现  J*aScript生成器_j*ascript异步迭代  如何将HTML表格多行数据保存到Google Sheet  如何在J*a中实现统一对象行为接口_项目大型化时的接口规范化  C++如何连接MySQL数据库_C++使用Connector/C++操作MySQL数据库教程  C++ string find函数返回值npos详解_C++字符串查找失败的判断条件  2306选座时如何选靠窗位置_12306选座靠窗座位查看方法解析  漫蛙MANWA漫画主页官方入口 漫蛙漫画最新在线阅读地址  如何在复杂的电商平台中优雅地管理共享资源并确保正确重定向,使用spryker-shop/resource-share-page模块助你一臂之力  J*a TimerTask文件监控:HashMap状态管理与常见陷阱规避指南  Eclipse怎么运行工程_Eclipse工程运行配置说明  GemBox Document HTML转PDF垂直文本渲染问题及解决方案  钉钉视频会议声音异常如何处理 钉钉会议音频修复技巧  探索高级语言到原生C/C++的转译:挑战与内存管理策略  J*aScript实现单选按钮与关联输入框的联动禁用教程  铁路12306卧铺选择攻略 铁路12306下铺座位预定技巧  优化LangChain文档加载与ChromaDB集成:解决多文档处理与分块问题  必由学官方平台入口 必由学在线课堂登录地址 

搜索