stata学习资料-第六章.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
stata学习资料-第六章

6.1 问题:假如我们有一个截面数据,内容是一些病人在一些诊所就诊的记录,比如病人信息和诊所ID。我们还有一个表,内容是每个诊所对应的地区编号。我们怎么把表二中的地区编号和表一中的每个诊所联系起来,或者说如何将两张表整合到一起? 比较二的方法:用if条件筛选,逐个代换。P118有介绍 核心知识点:merge命令的使用 主键一对多情况下的数据整合 其中作为主键的clinicid 在表一中并不是唯一确定的观测值 不能简单的1:1匹配合并 这时就需要用到1:m或m:1 use 表一 merge m:1 主键 using 表二 (此处为m:1是因为表一中clinicid有重复) 结果为: 备注:关于新版和旧版命令的区别:一是语法区别,旧版是merge 主键 using 表二, uniqusing. 其中uniqusing是用来确定唯一观测值的,新版省掉了。二是新版不用先对主键排序才能合并,而旧版命令必须排序。 m:m即表一和表二中主键clinicid都不唯一。语法为 merge m:m 主键 using 表二 6.2 问题:很多数据源提供的数据适用于展示 但不适用于分析处理,如何将其转换成我们所需要的形式 核心知识点: reshape命令的使用 reshape 命令是stata提供的重要的数据管理工具之一。如果我们想要调整你现有数据的结构,就要熟悉reshape的两个功能:一是变宽,一是变长。具体讲,可能是把某种数据变成时序数据、或者是把时序数据变成某种数据。有时候问题比较麻烦,我们需要对数据进行两次reshape,才能调整到我们想要的结果。 举例:将表一变成表二形式 表一有四个变量,分别是country,tradeflow, Yr1990, Yr1991.其中tradeflow是作为一个变量主体,分为imports和exports,而1990和1991的贸易流是作为两个并列的变量主体。我们要把它转成面板数据,分两步。第一是Yr1990和Yr1991改成时间序列,tradeflow暂时不变。执行第一步的指令后效果如下 其他变量没变的前提下,生成了一个新变量 _j ,代表年份。 reshape long Yr,i(country tradeflow)这个命令。也可写成 reshape long Yr,i(country tradeflow) j(year) 执行结果一样,而且这样写更好理解。 Yr表示需要转换变量的前缀。在这个例子中,一个国家的贸易流由两个维度限定,比如第一个数据105:一是它代表A国的进口,二是年份为1990。我们引入两个变量i和j。i代表country tradeflow、j代表year。i(varlist)表示长格式识别变量,长格式标示变量可以为多个,故可以设置多个变量.如本例. j(varname)为从宽格式转换为长格式的新生成的标识变量。执行上述指令时,stata会自动将Yr1990拆分、并把数值部分1990赋值给新的时间变量j。所以,Yr1990和Yr1991的命名要保持一致,如果这两个变量的命名分别是year1990和Yr1991,则无法正常拆分。 补充: 用的是reshape long math economy, i(sno) j(year) 第二步是,我们再把表变宽:把tradeflow中的imports和exports变成两个并列的变量主体。执行第二步的指令后,效果如下: 把第一步转换结果中的obs1和obs3 由 转换成 与第一步同理,目的不一样,我们要把上一页图中的第一条记录和第三条记录合到一起,把imports和exports作为两个并列的变量。也要考虑两个维度:i(country year)和 j(tradeflow)。因为tradeflow是字符串型数据,所以后要加string用以说明。 6.3 问题:有时候日期数据并不是连续的,比如金融市场在周末是停止交易的.stata的时间序列数据系统是允许每日数据和日间数据的表示,但是时间序列中有间断的话可能会出问题.比如因为间断的存在导致其他日期数据的丢失.”商业日期”这个概念的意思是假定星期五之后接着是星期一.同时,我们又希望数据按stata日历时序来放置,以便在使用比如tsline命令时,图表中能显示可读的日期. 解决方案:定义2个日期变量.一个是实际日历格式,一个是连续的观测值编号.我们想让日期数据显示为日历格式时,就把它声明为第一种,用于统计分析时,就把它声明为第二种. 几种日期数据显示的对比: 字符串 日期数据 时序数据 日历格式的时序 观测值序号 1 2 3 4 5 6 dat

文档评论(0)

liudao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档