本地转换中英文扫描版PDF为可搜索文件

我终于找到了一个可以本地把扫描版的中文PDF变成可搜索的PDF的命令行工作流程。具体方式为安装支持中文包的ocrmypdf这一开源软件。

安装流程

以下为在Mac上配置的流程。其他系统可以参考官方帮助网页

  • 安装Brew
  • 安装翻译引擎和全部语言包
    brew install tesseract --with-all-languages
    brew install ghostscript
    brew install poppler
    brew install imagemagick
    
  • 安装ocrmypdf
    brew install ocrmypdf
    

使用范例

官方使用范例

ocrmypdf                      # it's a scriptable command line program
   -l eng+fra                 # it supports multiple languages
   --rotate-pages             # it can fix pages that are misrotated
   --deskew                   # it can deskew crooked PDFs!
   --title "My PDF"           # it can change output metadata
   --jobs 4                   # it uses multiple cores by default
   --output-type pdfa         # it produces PDF/A by default
   input_scanned.pdf          # takes PDF input (or images)
   output_searchable.pdf      # produces validated PDF output

使用ocrmypdf扫描中英文混排的PDF

ocrmypdf -l eng+chi_sim input.pdf output.pdf

其中中文有四个选项,分别为

  • chi_sim 横排简体中文
  • chi_sim_vert 竖排简体中文
  • chi_tra 横排繁体中文
  • chi_tra_vert 竖排繁体中文 把英文放在中文前面应该是会比反过来放的效果更好。

把PDF的每一页分割为单页PDF

pdfseparate cn1.pdf -f 1 -l 10 out_%d.pdf

-f 指定分割开始的第一页, -l 指定分割的最后一页。

高级功能

根据ocrmypdf的pip页面,ocrmypdf还原生支持许多高级功能,比如监控并自动翻译指定目录下的PDF文件,自动把OCR完成的PDF移动到其他目录甚至是上传到Evernote。


2018-12-23 ocrmypdf , 读书技巧

最近文章

  • 《数字极简主义》——信息狂筵与注意力救赎 Digital Minimalism 对当代人过度的数字生活进行了反思和系统提炼。作者认为技术本来是为生活服务的,而现在这种自动化的数位性却降低了生活的快乐,消磨了有意义的活动,甚至主宰了我们的文化属性。在本书中作者也给出了一系列的对数字生活进行整理和减负的原则和实操建议。这本书传达的核心信息其实在其副标题 Choosing a Focused Life in a Noisy World。作者在本书中所倡导的并不是反对一切数字工具,而是建议人们能够更加理智地利用这些数字工具。正如消费极简主义并不是抗拒资本主义社会,而是倡导只清醒地进行必要的消费,数字极简主义也只是鼓励读者翻身做数字技术的主人,重新拿回自己的人生的控制权。
  • ★★★★☆ 郭建龙:「中央帝国的哲学密码」 「中央帝国的哲学密码」一书用平实的语言介绍了从中国历史上占统治地位的政治哲学从战国时期到清朝的演变历史。力图解答为何中国人千年来在政治与人的框架中反复挣扎震荡,在精神世界的层面上鲜有普世价值意义上的进步。
  • OSX Mojave根据BSSID选择指定Wifi路由 在公共场合使用Mac的时候偶尔会遇到所处的地方有多个同名的Wifi路由器,出于各种原因你可能只想连接其中一个。在OSX Mojave下可以通过airport-bssid这个工具让系统连接到指定的路由器上。
  • 本地转换中英文扫描版PDF为可搜索文件 我终于找到了一个可以本地把扫描版的中文PDF变成可搜索的PDF的命令行工作流程。具体方式为安装支持中文包的ocrmypdf这一开源软件。
  • ★★★★★ 武志红:「巨婴国」——中国国民性的心理动力学 集体主义的真相是,个体的心理发展水平太低,导致大多数人的里子是破碎的,必须千人一面,用共生的方式,追求和他人的融合,以此将个体镶嵌进一个集体性自我中。 —— 武志红
  • Review for Top 3 Halite 2 Bots In this post, I aim to give a brief review on the useful strategies and tricks for the top 3 bots in last year’s Halite 2 competition.
  • ★★★☆☆ 阮一峰:「未来世界的幸存者」 2016年3月,谷歌公司的围棋程序 AlphaGo 战胜了世界冠军李世石。 这让我猛然意识到,世界正处在一个前所未有的大变局: 机器人、自动化、人工智能正在变得比人类更强大。 在可预见的将来,技术最终将淘汰人类。 技术变革导致了人类社会的重构。绝大部分的人没机会参与这个进程,只能被动接受其他人安排自己的命运,而且没有改变命运的机会。
  • ★★★★★ 盖达尔:「帝国的消亡」——当代俄罗斯的教训 我们无力承担一个帝国!——而且也没有必要,我们应该将其抛弃,因为它使我们不堪重负、民穷财尽、加速毁灭。 ——亚· 索尔仁尼琴《我们应当如何构建俄罗斯》
  • 中国历史与科技世界的未来:2018年9月读书短评 我计划不定期更新一下我在读的书的列表和简短评论。对于有意思的书可能除了评论之外会单写一篇文章记录一下我的摘抄或者读后感。希望我能每3到6个月更新一次这个读书计划与短评系列。本篇是2018年9月的第二期。 
  • 翻越中文「局域网」:我从哪里看新闻? 时不时会有人问我是从哪里看的新闻或时事,我常常因为从头解释一遍嫌太麻烦而搪塞带过。所以我想专门在博客里写一篇心得,分享一下我用来保持对世界关注的一些信息源和工具,希望对读者有所益处。
  • 中日社会与经济:2018年3月读书短评 我计划不定期更新一下我在读的书的列表和简短评论。对于有意思的书可能除了评论之外会单写一篇文章记录一下我的摘抄或者读后感。希望我能每3到6个月更新一次这个读书计划与短评系列。本篇是2018年3月首发的第一期。
  • 在Github上搭建免费博客:Jekyll 这个博客是用Jekyll搭建在Github Pages上的。根据阮一峰老师的教程文章,使用Jekyll+Github Page建立博客的好处主要是:
  • ★★★☆☆ 「程序员修炼之道」——从小工到专家 本书作者 Andrew Hunt 和 David Thomas 从多个角度探讨了什么是好的编程习惯和如何搭建一支高效的编程团队。这本书值得再重读,我感觉这一次读有很多内容并不适用于我现在的工作环境,比如如何保持高效的团队协作。我同意一个说法是,这本书需要等到一定时候才需要去看或者说才可以看得懂。以下是我摘抄的部分: