- 1、本文档共67页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
作业做习题的第二题和第三题,将分析报告email到:duoyuan2015@126.com3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法在其他变量取值相同时,房屋面积(sqf)每增加1平方英尺,平均价格增加54.83美元,房龄(age)每增加1年,均价减少261.30美元;每多一车位(garage),均价增加26753.30美元;建在山坡上(1-foothill)的房子比建在平地上(0-flatland)的平均贵60578.05美元.3.1.3分类自变量的处理方法解释符合大家的认知,即山坡上因多挖地基会增加建筑费用,多要车位也会单独多加钱,而新房的价格都按面积计算价格,不会把卧室个数和卫生间个数代入价格计算公式.还有,模型中系数的正负符号也与单个变量分析的正负相关性一致,没有得到与通常认识相违背的结论.3.1.3分类自变量的处理方法买新房时,房价计算公式中都没有加入卧室和卫生间的个数,但当我们拿到数据时,发现卧室个数(bed)和卫生间个数(bath)分别与房屋价格有关,这主要是因为价格与面积(sqf)有关,而面积(sqf)又与卧室个数(bed)和卫生间个数(bath)有较强的相关性.3.1.3分类自变量的处理方法此模型中,房面积(sqf)、房龄(age)、车库车位数(garage)、建在山坡/平地上这4个变量相关性较弱,能够说固定其他变量不变时,某个自变量增加1个单位,因变量价格(Y)的变化.3.1.3分类自变量的处理方法相反,像3.1.1节模型I中房屋面积(sqf),卧房个数(bed)和卫生间个数(bath)之间有强相关性,很难说固定面积(sqf)和卫生间个数(bath)等不变,卧房个数(bed)增加一个,售价如何变化之类,因为每增加一个卧房数(bed),面积(sqf)肯定会增加,不可能不变.3.1.3分类自变量的处理方法3.1.1节模型I中有5个连续变量,共有6个参数,均方差为27350,而本节模型有3个连续变量,一个分类自变量,共5个参数,均方差为20250.本节模型的拟合效果比模型I要好.3.1.3分类自变量的处理方法应用中,不是自变量越多越好,应该尽量找各有特色的自变量,从不同角度解释因变量取值的差异.信息类似的自变量对解释因变量取值差异.不但没有帮助,还会产生不合理的参数估计值.3.1.4其他改进模型的思路虽然二倍标准差40650美元,比模型I的54700美元要小,但要做预测,误差还是比较大,现实中,还可考虑:(1)房屋是否有中央空调(centralairconditioning)?(2)房屋所在邮政编码,因编码不同价格也会很不同.(3)房屋建筑是一层,还是二层?房屋本身状况,能直接搬入,还是需要装修等.庭院是否做过专业美化设计(landscaping)?房屋的建筑材质等.第二节Bikeshare数据2012年Capital自行车租用公司每天租车人次数据及有关当天天气、季节等。具体变量:dteday(日期),分类自变量season(季节,1-春,2-夏,3-秋,4-冬),mnth(月,1-12),holiday(是否节假日,0-否,1-是),weekday(星期几,0-6),workday(是否工作日,1-不是周末或节假日,0-是周末或节假日),weathsit(天气情况,1-晴,无云或少云或局部多云,2-有雾或多云,3-小雪或小雨等,4-大雪或大雨或大雾或冰雹等连续自变量temp(0-1,标准化后的温度),atemp(0-1,标准化后的体感温度),hum(0-1,标准化后的湿度),windspd(0-1,标准化后的风速).可能关心的因变量有casual(临时用户人数),regist(注册用户人数),cnt(临时用户和注册用户人数之和).我们关心因变量cnt,想建立线性回归模型描述因变量与其他自变量的关系.对于数据中的每个分类自变量,利用方差分析和单个分类自变量的回归分析查看cnt的取值是否与分类自变量取值有关,各类的平均差异如何.比如对season,读入数据X后,在R中运行M=lm(cnt~factor(season),data=X);anova(M);summary(M);对每个分类自变量做同样分析,得到输出:第二节Bikeshare数据第二节Bikeshare数据第二节Bikesh
文档评论(0)