新加坡政府数据科学部门如何利用大数据协助诊断环线地铁故障解读.docx

下载文档 降价啦

0
0
约 24页
2017-03-31 发布于湖北
举报
版权申诉
保障服务

新加坡政府数据科学部门如何利用大数据协助诊断环线地铁故障解读.docx

1、本文档共24页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

新加坡政府数据科学部门如何利用大数据协助诊断环线地铁故障大数据正在渗透各行各业，甚至能跟你考试能力测试、患上某种疾病的机率等非常生活化的场景应用都发生紧密的联系。今后大数据在我们的生活中就像是水和电一样，让社会整个信息质量更好、让信息利用效率更高效。本文揭示了新加坡政府是如何利用大数据技术来捕获引发地铁被中断的反常列车，我们得以再一次见识大数据技术的神奇力量。作者：刘志勇来源：大数据杂谈|2016-12-09 11:02 ?收藏 ??分享本文发表于新加坡政府开放数据门户站的博客，经授权由InfoQ中文站翻译并分享，本文由InfoQ社区编辑刘志勇翻译，感谢译者的辛苦奉献。撰文: Daniel Sim | 分析: Lee Shangqian、Daniel Sim、Clarence Ng 编者按：大数据正在渗透各行各业，甚至能跟你考试能力测试、患上某种疾病的机率等非常生活化的场景应用都发生紧密的联系。今后大数据在我们的生活中就像是水和电一样，让社会整个信息质量更好、让信息利用效率更高效。世界著名未来学家托夫勒曾说改变这个世界的力量有三种暴力、知识、金钱，而如今我们的世界正在被第四种力量改变，那就是大数据!大数据不管应用在哪个行业它的核心都是通过技术来获知事情发展的真相，最终利用这个“真相”来更加合理的配置资源。具体来说，要实现大数据的核心价值，还需要前两个重要的步骤，第一步是通过“众包”的形式收集海量数据，第二步是通过大数据的技术途径进行“全量数据挖掘”，最后利用分析结果进行“资源优化配置”。说白了，大数据最终的落地就是资源优化配置。本文揭示了新加坡政府是如何利用大数据技术来捕获引发地铁被中断的反常列车，我们得以再一次见识大数据技术的神奇力量。最近几个月，新加坡的地铁环线(MRT Circle Line)遭到了一连串的神秘中断，对数以千计的乘客造成了很大的混乱和痛苦。同大多数同事一样，我每天早晨搭乘环线地铁到办公室。因此，在11月5日，当我所在的团队有调查原因的机会时，我就毫不犹豫地自告奋勇参加了。根据新加坡地铁公司(SMRT)和新加坡陆路交通管理局(Land Transport Authority，LTA)的先前调查，我们知道这些事件是由于某种形式的信号干扰造成的，导致了一些列车的信号丢失。信号丢失会触发那些列车中的制动安全功能，并使它们沿着轨道随机停止。但是这起第一次发生在八月份的事件——似乎是随机发生的，使调查小组很难找到确切的原因。我们获得了由SMRT编译的数据集，其中包含以下信息： ? 每个事件的日期和时间 ? 事件的位置 ? 涉及的列车编号 ? 列车的方向我们开始清理数据，在Jupyter Notebook中进行工作，这是一个流行的编写和记录Python代码的工具。像往常一样，第一步是导入一些有用的Python库。 1. import?math? 2. import?xlrd? 3. import?itertools?as?it? 4. import?numpy?as?np? 5. import?pandas?as?pd? 6. from?datetime?import?datetime?? 片段1 然后我们从原始数据中提取有用的部分。 1. dfincidents_0?=?pd.read_excel(CCL?EVAC?E-brake?occurrences?hourly?update_mod.xlsx,?sheetname=Aug?Sep)? 2. dfincidents_1?=?pd.read_excel(CCL?EVAC?E-brake?occurrences?hourly?update_mod.xlsx,?sheetname=Nov)? 3. #?Incident?data?for?Nov?had?different?format? 4. dfincidents_1[Time]?=?dfincidents_1[Time].str.strip(hrs).str.strip(?)? 5. dfincidents_1[Time]?=?pd.to_datetime(dfincidents_1[Time],?format=%H%M).dt.time? 6. dfincidents?=?pd.concat([dfincidents_0,?dfincidents_1])? 7. #?Reset?the?index?because?they?were?concatenated?from?two?data?sources? 8. dfincidents.reset_index(inplace=True,?drop=True)?? 片段2 我们将日期和时间列合并为一个标准列，以便更容易地将数据可视化：