文本整理是非常、非常耗时间、耗精力的差事,特别是整理从网上爬来的文本素材。 因此,计划做一些可以在shell小工具,然后通过一个GUI界面调用,不断调整,能简化一些处理的工作量。
使用的编程语言是 python 3.6,环境是OSX。
第一步是文本的编码整理,将待处理文件整理为‘utf-8’文本。这种编码比GBK占用多了50%的空间,offset定位也没有 GBK 方便,只是OSX等Unix默认的编码是 utf-8,这里就不再折腾了。一般说来,只要🙆了编码,换个环境,如Windows7/10,只要将这一步的结果转换为“GBK”,后面的也都不需要修改了。
第二步是提取标题、书籍故事的Meta data(元数据),章节结构,文章结束标志,和每章节的内容。最后定义附加内容的格式,如:序,后记,书评……
关键是存储格式,不了解现有的格式哪些比较合适。pandoc可以研究一下。
第三步是风格化的处理工具。
- 引号用“”还是用「」
- 省略号用……还是其他
- 自然段开头是否空格
- 自然段之间是否空行