摆脱文字识别烦恼：一步步玩转 Umi-OCR 的全攻略

大家都觉得文字识别软件要么收费要么只能在线用，找不到既免费又不泄露隐私的选项。实际上，很多人不知道有一款完全离线、开源的 OCR 工具——Umi-OCR，它可以在本地完成截图、批量、PDF、二维码等多种识别任务，根本不需要联网。

把 Umi-OCR 拆开来看，最重要的就是三点：第一，它把所有识别模型和语言库都打包进本地，不依赖云端；第二，它的代码是公开的，任何人都可以检查、改进或自行编译；第三，它提供了截图、批量、文档、二维码等多入口，兼容 Windows 以及部分 Linux 环境。

这里有个常见坑：如果安装目录里有中文字符，软件会找不到资源导致启动报错。把文件夹名字改成纯英文就能解决。

打开全局设置，先把快捷键改成自己习惯的组合，比如 Ctrl+Shift+S 用来调出截图窗口。随后在语言选项里挑选需要的语言模型，中文、英文、日文等都有对应的库，切换后重启软件即可生效。

大家都觉得截图识别就是按下快捷键，框出文字，等几秒钟就能得到结果。实际操作中，如果文字太小或背景色差太大，识别率会明显下降。这个时候可以先用系统自带的截图工具把图片保存下来，打开 Umi-OCR 再粘贴，或者在设置里打开“图像预处理”，让软件自动提升对比度。

识别完后，左侧预览区可以直接复制文字，右侧记录区还能批量编辑、合并段落。这样即使是一本厚厚的 PDF，也能像剪贴簿一样快速抽取文字。

很多人以为批量 OCR 只能一张张点，实际上只要把要识别的图片或文件夹拖进去，点一下“开始”，软件就会自动遍历、识别，并按照设定的格式（txt、csv、md）输出。还可以勾选“任务完成后自动关机”，让电脑在夜里悄悄完成大批量转换。

把 PDF 或者 XPS 文件直接丢进 Umi-OCR，软件会先判断是已有文字层还是纯图片。如果是后者，它会对每一页进行 OCR，最后生成双层 PDF——既保留原图，又拥有可搜索文本。

如果不想要页眉页脚的噪音，可以在全局设置里画出“排除区域”，软件会自动跳过这些位置的识别，省去后期手动删减的麻烦。

Umi-OCR 不止有 UI 界面，它同样支持命令行调用，适合写脚本自动化。比如在终端里敲：

Umi-OCR.exe --folder "D:\图片目录" --format txt

就能把整文件夹的图片批量导出为 txt。

更进一步，还可以开启自带的 HTTP 服务，让局域网里的其他设备通过 http://IP:8080 把图片传过去，返回识别结果，实现远程调用。

把这些技术细节说透后，最重要的一点是：普通人不需要花钱买在线 OCR 也不必担心上传机密文件被泄露。只要下载一次、解压即用，就能在任何断网环境下快速把图片、扫描件、二维码等转换成文字。

这对学生、教师、办公室职员、科研工作者都有巨大的帮助——比如批量整理课堂笔记、把旧档案数字化、快速提取合同关键字，都可以用 Umi-OCR 一键搞定。

Umi-OCR 之所以受欢迎，正是因为它把“离线、免费、功能全”这三个看似矛盾的需求完美融合，真正做到了“一站式文字识别”。如果你还在为找不到合适的 OCR 软件而苦恼，赶紧去官方仓库下载试用吧！