大数据相关技术资料.docx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据相关技术资料

大数据平台1.大数据平台技术架构:2.具体产品介绍(1)集成数据开发平台平台框架:技术方案:基于状态机( State Machine )、微服务(内嵌Rest RPC Console服务端等)、SVG\AngularJS图形化、高可用解决方案(最终一致散列、服务发现、头节点选举等)提供了一个易用的图像化配置大数据任务依赖关系,人工监控和重跑干预任务执行状态的大数据开发工具,整合了平台现有MR/Hive/Spark/SparkSQL/SparkStream/Sqoop等任务类型。降低大数据平台用户的使用门槛,提供强大的任务流依赖、调度功能。主要实现的功能:任务流管理:任务流组织:以拓扑结构方式直观展示任务之间依赖关系任务配置:任务项配置,支持源数据、目标数据、资源、参数等配置 运行测试日志查看:线上任务试运行及日志展示,可根据日志调优。数据探查:数据预览帮助数据质量控制,做到把控数据来源,提升准确性。导入导出:任务流可导出为ZIP文件,ZIP文件保留任务流中所有信息:流的属性,流内任务的配置、任务节点位置、连线等草稿任务:类似于回收站作用,作为任务缓冲地带,可将草稿任务移到具体任务流中。资源中心:事件管理:事件管理及事件触发记录查询。任务组管理:将任务加入一个任务组,设置最大并发数,实现流量控制。资源管理:用于配置任务的时候选取公共资源。运维中心:任务流运维:任务流批次及状态展示,可根据时间范围、状态等筛选项进行筛选。任务运行状态:任务运行状态查询。可根据任务执行时间和执行结果等筛选。任务执行报告:任务执行情况及统计信息分析。影响分析:任务失败原因和造成的影响查看。信息看板:任务完成情况、告警展示、任务执行时长排行、调度任务数量趋势、出错排行、任务类型分布等信息汇总展示。告警管理:监控范围:系统监控(队列深度、健康状态等)、任务监控(超时、延时、报错)。告警类型分为任务超时告警、任务失败告警、关键任务告警、定时失败汇总、定时关键任务汇总。配置告警接收人员,通过工号/姓名检索人员并添加,告警方式有邮件、短信、豆芽,可多选。调度平台:任务类型支持:支持Hive任务、MapReduce任务、Java任务、Python任务、SparkSql任务、Spark任务、机器学习任务等多种类型任务执行。后台管理:支持日志查询、信息汇总、告警查看等平台运维相关需要。调度策略控制:支持任务依赖策略、时间策略、控制策略、并发策略、事件依赖策略等多维度策略控制。事件生成和引用:事件生成:流内任务可通过右键菜单生成事件,生成的事件类型为任务事件,生成的任务事件需要定义事件名称和事件描述;引用的事件分为两种类型,任务事件和FTP标识文件事件,用户检索需要引用的事件并应用于任务前置条件中;引用任务事件需要做依赖检查,只能调度频率大的依赖小的,如月依赖日、日依赖小时;全依赖支持:支持天级别类型任务依赖小时任务,月类型任务依赖天类型任务,小时依赖分钟任务;异常处理:重跑:拓扑图中失败状态的节点可进行重跑操作。补数据:可选择单个任务,或者多个任务(可跨流),多个任务一起执行补数据操作。停止:停止任务运行,停止状态下再次运行为重新执行;暂停:暂停任务运行,暂停状态下再次运行为继续上次运行;忽略:对于某项任务前置任务未执行完成,且此前置任务不重要,可对前置任务进行忽略操作。忽略的任务不在运行,自动进行下游任务运行;任务流运行状态:以拓扑图形式查看任务流运行结果,每个任务运行状态,运行成功/失败有颜色差异体现;可基于任务流名称、时间选择、责任人、任务类型、调度方式、执行频率、运行状态检索实例。检索出的实例按照所属任务流进行分组,第一层展示任务流信息包括:任务流名称、任务流描述、责任人、执行频率、创建时间、发布状态、操作(展开/收缩);第二层为实例信息包括:实例id、所属任务流、责任人、调度方式、执行时间、执行结果、操作(查看运行分析);任务分析详情页,展示任务流拓扑图、每个节点执行状态、任务执行报告。在拓扑图中可右键对任务进行异常处理,异常处理包括:重跑、补数据、停止、暂停、忽略、查看日志。异视角可切换为全局视角,全局视角展示当前视图的任务流上下游任务流,并体现关联实例的运行状结果。平台应用:智能产品数据采集服务:用户使用产品的行为数据,产品运行过程状态数据智能产品数据共享服务:产品和产品之间数据共享协作服务(2)机器学习平台;平台框架:技术方案:待补充主要实现的功能:平台应用:机器学习本质是使用样本数据或以往的经验来解决给定的问题,主要应用在数据挖掘场景下,即指从大量的数据中通过算法获取隐藏于其中信息的过程。机器学习在金融、市场营销、制造业、网络分析和电信领域都有较多应用。在金融领域,银行分析历史数据,构建用于信用分析、诈骗检测等方面应用模型;在市场营销领域,机器学习技

文档评论(0)

skvdnd51 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档