- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
stata学习资料-第六章
6.1
问题:假如我们有一个截面数据,内容是一些病人在一些诊所就诊的记录,比如病人信息和诊所ID。我们还有一个表,内容是每个诊所对应的地区编号。我们怎么把表二中的地区编号和表一中的每个诊所联系起来,或者说如何将两张表整合到一起?
比较二的方法:用if条件筛选,逐个代换。P118有介绍
核心知识点:merge命令的使用 主键一对多情况下的数据整合
其中作为主键的clinicid 在表一中并不是唯一确定的观测值 不能简单的1:1匹配合并 这时就需要用到1:m或m:1
use 表一
merge m:1 主键 using 表二
(此处为m:1是因为表一中clinicid有重复)
结果为:
备注:关于新版和旧版命令的区别:一是语法区别,旧版是merge 主键 using 表二, uniqusing. 其中uniqusing是用来确定唯一观测值的,新版省掉了。二是新版不用先对主键排序才能合并,而旧版命令必须排序。
m:m即表一和表二中主键clinicid都不唯一。语法为
merge m:m 主键 using 表二
6.2
问题:很多数据源提供的数据适用于展示 但不适用于分析处理,如何将其转换成我们所需要的形式
核心知识点: reshape命令的使用
reshape 命令是stata提供的重要的数据管理工具之一。如果我们想要调整你现有数据的结构,就要熟悉reshape的两个功能:一是变宽,一是变长。具体讲,可能是把某种数据变成时序数据、或者是把时序数据变成某种数据。有时候问题比较麻烦,我们需要对数据进行两次reshape,才能调整到我们想要的结果。
举例:将表一变成表二形式
表一有四个变量,分别是country,tradeflow, Yr1990, Yr1991.其中tradeflow是作为一个变量主体,分为imports和exports,而1990和1991的贸易流是作为两个并列的变量主体。我们要把它转成面板数据,分两步。第一是Yr1990和Yr1991改成时间序列,tradeflow暂时不变。执行第一步的指令后效果如下
其他变量没变的前提下,生成了一个新变量 _j ,代表年份。
reshape long Yr,i(country tradeflow)这个命令。也可写成
reshape long Yr,i(country tradeflow) j(year) 执行结果一样,而且这样写更好理解。
Yr表示需要转换变量的前缀。在这个例子中,一个国家的贸易流由两个维度限定,比如第一个数据105:一是它代表A国的进口,二是年份为1990。我们引入两个变量i和j。i代表country tradeflow、j代表year。i(varlist)表示长格式识别变量,长格式标示变量可以为多个,故可以设置多个变量.如本例. j(varname)为从宽格式转换为长格式的新生成的标识变量。执行上述指令时,stata会自动将Yr1990拆分、并把数值部分1990赋值给新的时间变量j。所以,Yr1990和Yr1991的命名要保持一致,如果这两个变量的命名分别是year1990和Yr1991,则无法正常拆分。
补充:
用的是reshape long math economy, i(sno) j(year)
第二步是,我们再把表变宽:把tradeflow中的imports和exports变成两个并列的变量主体。执行第二步的指令后,效果如下:
把第一步转换结果中的obs1和obs3 由
转换成
与第一步同理,目的不一样,我们要把上一页图中的第一条记录和第三条记录合到一起,把imports和exports作为两个并列的变量。也要考虑两个维度:i(country year)和 j(tradeflow)。因为tradeflow是字符串型数据,所以后要加string用以说明。
6.3
问题:有时候日期数据并不是连续的,比如金融市场在周末是停止交易的.stata的时间序列数据系统是允许每日数据和日间数据的表示,但是时间序列中有间断的话可能会出问题.比如因为间断的存在导致其他日期数据的丢失.”商业日期”这个概念的意思是假定星期五之后接着是星期一.同时,我们又希望数据按stata日历时序来放置,以便在使用比如tsline命令时,图表中能显示可读的日期.
解决方案:定义2个日期变量.一个是实际日历格式,一个是连续的观测值编号.我们想让日期数据显示为日历格式时,就把它声明为第一种,用于统计分析时,就把它声明为第二种.
几种日期数据显示的对比:
字符串 日期数据 时序数据 日历格式的时序 观测值序号
1
2
3
4
5
6 dat
您可能关注的文档
- 压力钢管岔管制造单元工程质量评定表综合版.doc
- 压强表压真空度.ppt
- pdf格式转换成jpg图片的方法.doc
- PEP三年级上册Unit4Weloveanimals.doc
- PC第一讲-有趣的数字黑洞-教师版.doc
- pets4的一些基本问题.doc
- pets2014年3月真题.docx
- PEX-C管道与常用的其他管道对比.doc
- PFJ-01型玻璃喷粉机使用手册(AB).doc
- PE的特点.doc
- 2023年江苏省镇江市润州区中考生物二模试卷+答案解析.pdf
- 2023年江苏省徐州市邳州市运河中学中考生物二模试卷+答案解析.pdf
- 2023年江苏省苏州市吴中区中考冲刺数学模拟预测卷+答案解析.pdf
- 2023年江苏省南通市崇川区田家炳中学中考数学四模试卷+答案解析.pdf
- 2023年江西省吉安市中考物理模拟试卷(一)+答案解析.pdf
- 2023年江苏省泰州市海陵区九年级(下)中考三模数学试卷+答案解析.pdf
- 2023年江苏省苏州市高新二中中考数学二模试卷+答案解析.pdf
- 2023年江苏省南通市九年级数学中考复习模拟卷+答案解析.pdf
- 2023年江苏省南通市海安市九年级数学模拟卷+答案解析.pdf
- 2023年江苏省泰州市靖江外国语学校中考数学一调试卷+答案解析.pdf
文档评论(0)