历史学家的新技艺:遥读作为史料的电子邮件

词频统计
我们确实能够读到细微的差别。左图高频词“回复”的存在,一眼就让人看出了电邮标题的特质;而右图中的“老师”,应该是邮件开头的称谓。标题的词频在一定程度上说明了大致的内容,比如跟会议通知、信用卡、网上购物等相关;内容词频所涉及的词汇反而过于宽泛,无法重建有效信息。当然,即便是左图的词频也不能透露邮件内容的更多细节。
由此观之,词频统计固然有其价值,但这种方法挖掘出来的信息极其有限。如果想了解电邮数据集讨论了哪些主题,主题有没有时间轴层面的变化等,还需要用其他的方式来解决。我们想到了主题模型的算法,它绝对是投机取巧、了解文献大略的“懒人”方法。
主题模型的基本原理还是基于词频统计,因为不论是说话还是写文章,我们为了说明某个主题,一定会频繁调用跟这个主题密切相关的词汇。主题模型的算法比初级统计高明的地方在于,它能够精准将相关词汇聚合起来,让导出的高频词看上去能够讲诉一个内涵故事。
这个工具的好处是不需要研究者深度参与。换句话说,笔者可以无脑地将电邮数据集丢给算法,它就能够兢兢业业地吐出一些词群出来。接下来只需要浏览数十个关键词,就能够大致推算整幅数据集的“大观”了。听上去是不是很美好?
当然,理想很丰满,现实太骨感。主题模型的算法虽然是无监督的学习,但它并不智能,尤其需要我们对数据集文本提前进行预处理:它只“读得懂”某种结构化的数据,而对一个历史学者而言,要把毫无章法的电邮数据集进行结构化整理,是令人吐血的工作。不过,数据清洗的各种准备,是懂数据分析的历史学者必然要经历的涅槃之路,因为只有这样,柳暗花明的豁然贯通之感才格外真切。
我们略去一把辛酸泪的数据清洗过程,直接跳到结局吧。十年的电邮数据集,在主题模型的眼中,可以简至只需用300字来表达。最初,300万字被精简成下面的样子(部分结果;为了保护隐私,将结果中出现的人名隐去):
郭台铭:网络经济有它的局限性,再怎样也不能按出一碗泡面来
来源: 澎湃新闻网
直击华为生态伙伴大会2018:容器与区块链服务为企业应用再次提速
来源: 51CTO传媒
把身后的车P到像“宇宙飞船”?金·卡戴珊也是神操作啊
来源: 淼骨君
科学家:全球目击不明物体及各种神秘事件 也许就是未来人!
来源: 玉阳科学大观
4轮融资、国内一流医疗AI企业行业的它将如何开启全球战略?
来源: 动脉网
第三届中美智慧教育大会召开 百度智慧课堂助力打造教育生态
来源: 砍柴网
火星上的“骨头”到底是什么?科学家:这或许是一个非凡的发现
来源: 科学趣谈
亮相CHINC大会,阿里钉钉定义未来医院
来源: 光明网
Scicome:科研医疗器材行业的耕耘者!
来源: 重庆时间网
现在人都不用淋浴头洗澡了!百元不到装在卫生间,经济实惠真享受
来源: 放心家居
7家顶尖猎头集体“收割”35岁人才 机关国企人员成主流
来源: 北青网
苹果和华为没想到,小米出了这个小玩意,宅男买了收获校花心!
来源: 时光微微甜
人走后或抵达另一个时空,科学家给出解释,暗指灵魂转移的可能性
来源: 探索宇宙奥秘
雷军曝MIX2S样张:预示小米7有重磅功能媲美iPhoneX
来源: 科技犬
能抵达地球的地外文明,便能轻易抹杀地球文明
来源: 天马行空的逍遥
打造指数级繁荣生态:2018年华为将投入35亿用于伙伴激励
来源: 飞象网
快递无人机驾驶员月薪可两万!更多快递员将沦弃子?
来源: 掌链
2018网易Q I大会主题揭幕 网易七鱼引领行业思考“服务破界”
来源: 凤凰网
外星生命可能与地球生命截然不同,也是我们无法发现他们的原因
来源: 独家爆料吃瓜群众
还记得华为当年是如何靠“坑”网友起家的? 网友: 从此华为是路人
来源: 小美的的故事
移动“再次道歉”:4000分钟国内通话+30G国内流量,老用户:转网!
来源: 用户1914801776
2017中国独角兽榜单164家,南京3家:社交电商拼多多、小红书等入榜
来源: 陆伟
2018年IT领袖峰会BAT中马云、李彦宏不玩了,马化腾是否寂寞?
来源: 科技圈子
国产最值得等待和购买的四大人气王手机,是你喜欢的风格吗?
来源: 玩转科技
“大神”分享如何成为一名网站制作工程师
来源: 张朋飞
海外和国内的价格差了一半,要和三星Note8说再见了
来源: 手机圈那点事
2018中国IT领袖峰会深圳在开幕,开展高端对话与前沿话题探讨
来源: 前沿科技观察老王
美研究证明饮料和心脏病的关系:每天一瓶果汁,死亡风险高一倍!
来源: 于九野
华为、比亚迪、都来招人了这类专业人最受企业青睐
来源: 深圳新闻网
餐北斗供应链完成数千万人民币 A 轮融资 黑马基金与启创资本领投
来源: 投资家