“上下文光学压缩”技术,图像视觉长文本识别与处理模型

查看网站

https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

  • 关注
  • 推荐
  • 不推荐

产品标签

  • 图像识别

适用人群

  • 开发工程师

功能标签

  • 长文本处理
DeepSeek-OCR
深度求索
中国
免费20251020版本
评分
0
首次收录时间: 2025-10-20最近更新时间: 2025-11-04 问题反馈
  • 免费使用
WHAT ?

DeepSeek-OCR,并非简单的“图像识别”、”文字提取“ 工具,而是试图用「视觉方式」的方式解决长文本处理难题。

DeepSeek在论文中解释,这是一项通过光学二维映射来压缩上下文的可行性研究。目标是将超长的上下文内容,压缩成图片,通过少量的视觉token带代替原来长文本需要的大量token,从而降低大模型的使用费用。

GITHUB 下载地址: https://github.com/deepseek-ai/DeepSeek-OCR/tree/main


image.png

DeepSeek-OCR核心功能
  • 文本识别

    支持对图像内的纯文字进行自由式文字识别,不依赖于特定的版式、版面结构。

  • 多场景适用

    合同、票据、科研论文等复杂文档识别,表格、流程图、平面图等“图表”类型内容识别。

  • 专业符号精准识别

    可解析化学分子式(自动转为 SMILES 格式)、数学公式(生成 LaTeX 代码)、几何图形(输出结构化坐标)等专业内容。

  • 语义级图像描述

    借助多模态理解能力,模型可对图像进行自然语言总结,

  • 上下文光学压缩技术

    10倍压缩,OCR解码精度最高可达96.5%

  • 动态分辨率适配

    支持动态分辨率

开源版本软件免费使用

开源版本核心功能安全开放,用户自行承担硬件成本。同时,使用效果也受硬件影响,效果非确定。

您对DeepSeek-OCR感觉如何

请先 登录 再发表内容~

关关
2026/05/07 18:11
4.5
0
效果质量:5上手难度:4.5指令要求:4.5创新性:5性价比:5
合集
标签
体验新鲜事儿

上海阿慕比文化科技有限公司

沪ICP备 2021006543号-3