txtformat: Text File Formatting Tools

文本整理是非常、非常耗时间、耗精力的差事，特别是整理从网上爬来的文本素材。因此，计划做一些可以在shell小工具，然后通过一个GUI界面调用，不断调整，能简化一些处理的工作量。

使用的编程语言是 python 3.6，环境是OSX。

第一步是文本的编码整理，将待处理文件整理为‘utf-8’文本。这种编码比GBK占用多了50%的空间，offset定位也没有 GBK 方便，只是OSX等Unix默认的编码是 utf-8，这里就不再折腾了。一般说来，只要🙆了编码，换个环境，如Windows7/10，只要将这一步的结果转换为“GBK”，后面的也都不需要修改了。

第二步是提取标题、书籍故事的Meta data（元数据），章节结构，文章结束标志，和每章节的内容。最后定义附加内容的格式，如：序，后记，书评……

关键是存储格式，不了解现有的格式哪些比较合适。pandoc可以研究一下。

第三步是风格化的处理工具。

引号用“”还是用「」
省略号用……还是其他
自然段开头是否空格
自然段之间是否空行

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.gitattributes		.gitattributes
LICENSE		LICENSE
README.md		README.md
cleanlog.sh		cleanlog.sh
hnv_unwrap.py		hnv_unwrap.py
sd.py		sd.py
tsflogger.py		tsflogger.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

txtformat: Text File Formatting Tools

About

Releases

Packages

Languages

License

qlih/txtformat

Folders and files

Latest commit

History

Repository files navigation

txtformat: Text File Formatting Tools

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages