前些时日,接了小小的外包,需求是,做一款桌面软件,可以批量调整论文的格式。哇塞,这是自动化办公领域的啊,没接触过,GUI开发也没使用过。既然都接了,牛逼也吹出去了,跪着也得把这个需求做好。
详细的需求是,通过软件,能创建格式模板,即不同学校对论文格式有不同的要求,创建的模板能保存,批量上传论文后,能选择对应的模块,最后进行处理。以下是需求分析。
一、论文模块

虽然不同学校对论文格式有不同要求,不过论文的模块大致能分为以下几个部分:
1、封面

2、目录
3、主标题
4、摘要
5、关键词
6、正文(标题、正文内容)
7、致谢
8、参考文献
不过有些论文并没有致谢这个模块,而且不同论文的致谢模块所在的位置也并不确定,有些在论文的开头,而有些则在论文的尾部。不同模块的格式要求也不尽相同。
二、涉及到的word功能
1、字号、字体调整
2、行距调整(固定值,需满足预设值和磅值,预设值有单倍行距、1.5倍行距等)
3、段前后行距,即每个段落的前后距离设置
4、悬挂缩进调整
5、段落首行缩进调整
6、样式设置,正文标题常用的,比如设置为样式 1, 样式 2 等。
7、插入页设置,这个用来满足插入封面的需求
8、生成目录,正文标题需要设置成样式才能生成目录
9、保存功能
三、技术选型
1、由于没接触过GUI开发,所以选用了“不会错”的PyQt
2、word操作库选用了复杂但强大的win32com模块,为此还把Mac装了windows
四、关于学习
大虾我本人从事 的是品牌行业,所以只能业余时间来学习GUI和win32com模块的用法。好在微软官方提供了基于word的VBA文档,加上word上也可以使用宏来查看相关的接口运用,所以整个学习入门并未大费周折。
五、看看成果吧
界面有点粗糙
可以设置N多个模板
六、难点
库和软件的使用,是可通过使用来熟悉的,这个项目最难的地方其实是论文各个模块识别的问题。
如:
1、如何告诉程序,一级、二级和三级标题是怎样的
2、如何告诉程序哪些段落是摘要模块,哪些段落是标题,而哪些段落是论文的主标题
而且,各个学校的模块可能不同,模块的顺序可能也不同,如何做到完美识别各种情形?
七、说说不足之处
由于时间很仓库,这个版本的软件还有很多不足之处
1、单线程导致界面僵死
只开了一个线程,导致处理文档时候主界面僵死,软件和win32com的Dispatch共用主线程,所以僵死。
2、单线导致处理word的速度很慢
在实际使用过程中,客户说经常需要上传几十个,甚至上百个文档需要处理,经过测试,45个文档(大概每个18-25页)需要60分钟左右,这速度还是非常慢的。后续需要提升速度的话,需要使用线程池来多开Dispatch。
3、对win32com不够熟悉
win32com实际上调用的是VBA接口,VBA内容太丰富了,人工能实现的,基本VBA都能实现,网络上大部分自动化办公的教程都与win32com无关。这方面还需要继续研究微软的文档才可以。
4、对GUI开发不够熟悉
第一次接触GUI开发,界面的跳转、界面数据的传输等等,用得不是很顺畅,通过QT Designer涉及出来的UI文件,在转换成py文件后,也必须通过继承的方式来实现自己的方法。这一切的一切,还太陌生了。
八、计划
1、未来的2到3个月,会深入研究win32com,能做出一套更加完善的格式调整器
2、进一步完善模块的识别,通过正则 + 其他情况的判断来精准锁定各个模块,不管是什么顺序出现的。
好了,今天的分享到此为止,欢迎各位自学的朋友多多交流。