创作文档如何处理敏感数据
近来文档行业在一些敏感类文档,数据,都比较严格,很多人都不知道该上传些什么了。我作为一个资深文赚玩家,倒没有受到多少影响,因为我的文档都是经过自己的方法精心处理过的。以下是自己搞这么多年的一点小心得举例,分享给各位同行,过年了,顺便也赚点稿费。
第一步,通过标题分级。
政府文件,其实我个人的理解是,自上而下的内容会出问题而且下载量不高,比如公告文章,领导讲话之类的,自下而上的不仅下载量高而且安全,比如学习报告,申请,心得体会,所以,我一般会先标题分类,政府的公告这种到处都有且风险还大的全部干掉。具体的我的习惯是分三级,第一级不上传,第二级需要人工介入判断,第三级只需工具处理。我的分类是:
第一级:标题中包含:公告,意见稿,意见,通知,建议,国家标准,等等等。
第二级:标题中包含:学习心得,会议决策,会议笔记,会议记录等等等。
不包含的就是第三级。
第二步,内容处理。
办法是将诸如:劳动局,教育局,社保局等等等等的行政机关名称替换为XX局,将太原市,西安市,陕西省等等等替换为XXX
第三步,全文跑敏感词替换
这个没条件的可以忽略不计,由于我自身是个程序员,所以我写了个程序,除了自动实现前两步的功能外,还能顺带监测一些关键词,监测出文章中出现非法内容,也是根据分级进行相应处理,基本上实现全自动操作。
具体的可以给大家看下我的样本库:
具体这个工具,如果需求量大,我可以考虑共享给大家,不过最好还是平台出一款可能更好,因为我自己一个人整理的关键词也是有限的。
暂无数据~
立即去评论吧