Skip to content

qlih/txtformat

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

txtformat: Text File Formatting Tools

文本整理是非常、非常耗时间、耗精力的差事,特别是整理从网上爬来的文本素材。 因此,计划做一些可以在shell小工具,然后通过一个GUI界面调用,不断调整,能简化一些处理的工作量。

使用的编程语言是 python 3.6,环境是OSX。

第一步是文本的编码整理,将待处理文件整理为‘utf-8’文本。这种编码比GBK占用多了50%的空间,offset定位也没有 GBK 方便,只是OSX等Unix默认的编码是 utf-8,这里就不再折腾了。一般说来,只要🙆了编码,换个环境,如Windows7/10,只要将这一步的结果转换为“GBK”,后面的也都不需要修改了。

第二步是提取标题、书籍故事的Meta data(元数据),章节结构,文章结束标志,和每章节的内容。最后定义附加内容的格式,如:序,后记,书评……

关键是存储格式,不了解现有的格式哪些比较合适。pandoc可以研究一下。

第三步是风格化的处理工具。

  • 引号用“”还是用「」
  • 省略号用……还是其他
  • 自然段开头是否空格
  • 自然段之间是否空行

About

text formatting tools

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published