网站大量收购闲置独家精品文档,联系QQ:2885784924

R语言在实验数据可视化与统计检验中的应用.docx

R语言在实验数据可视化与统计检验中的应用.docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

R语言在实验数据可视化与统计检验中的应用

曾祥潘广东省广州市白云区景泰小学

吴俊杰北京师范大学物理系

孙丽君山东省淄博第二中学

中小学校在实验研究中,往往受到各种条件的限制,不允许做大量的实验观测,因此能够取得的实验数据比较少。通过少量数据推测研究对象的规律,需要进行统计学分析和处理。借助统计软件可以很便捷地对数据进行统计分析,极大降低数据处理难度和节约分析时间。目前常用的统计软件可分为以SPSS为代表的商业软件和以R语言为代表的开源软件。相对而言,R语言更适合中小学校使用。这是因为R语言除了满足统计领域的使用,还有非常强大的拓展性,提供了数千个涵盖了各个领域的开源工具包。同时,学校可借助R语言开展统计、编程或其他领域的教学实践。另外,R语言及开源工具包都可以免费使用,这有助于研究成果的推广与延续。

笔者结合实验实例,叙述了在对照实验项目中采用R语言进行数据的整理、分析及可视化呈现。这样有助于中小学师生了解R语言的功能与应用,帮助有需要的研究者迅速掌握R语言,正确地统计分析数据。

R语言是一种交互式计算处理环境,用户可在官网()下载安装。R语言安装后是在命令行窗口操作,为了方便使用,可安装R语言的集成开发环境Rstudio。Rstudio可在官网()找到免费版本下载,安装后界面如图1所示。

图1Rstudio功能界面

Rstudio界面可分为四个功能区。其中程序编辑区用于编写R语言脚本程序,程序执行后输出数据和提示信息将在命令控制台显示。如果是简单的操作可直接在控制台输入指令,无需编写独立程序。数据环境用于呈现导入的数据结构等信息。在使用R语言绘图时,图片会在绘图输出中显示出来。

数据采集有很多方式,既可以用人工记录的传统方式,也可以通过信息化仪器设备自动采集。

(1)手工记录。这是传统方式,用眼看手记把实验数据抄写在记录纸上或直接录入到电子表格。对于数据多、持续时间长的实验项目,需要耗费比较多的人力资源,而且持续记录容易疲劳,从而导致出现较多的错误。

(2)数字化实验(DIS)自动记录。使用DIS器材开展实验,可以解决手工记录容易出错的问题。但是DIS设备购置经费投入大,不容易普及推广。部分实验项目可借助开源硬件传感器,通过自制实验器材的方式解决,这需要实验员做更多的技术准备。

(3)对实验项目改进。利用人工智能等先进技术改进实验器材,使其提高使用效率、提升精度等。例如,借助深度学习工具,自动识别仪器读数等。还可以重构实验项目,如利用OpenCv计算机视觉识别实验对象的周长、投影面积,代替手工测量和计算。通过这些方法能够较便捷地取得实验数据。

实验数据获得后,可保存为CVS、XLS等数据格式,再通过Rstudio菜单File→ImportDataset导入R语言进行分析检验。

数据可视化是把数据转成图形的方式显示出来,可以让用户快速、直观地分析数据,了解数据的整体状况。R语言常用的可视化图形有直方图、散点图、箱形图等。下面,以绘制小番茄重量的频率分布直方图为例,了解R语言的绘图方法。

先在Rstudio导入小番茄重量文件“tomato.xls”,该电子表格第1列“sn”为序号,第2列“weight”是小番茄重量。在命令控制台输入以下绘图指令:

hist(tomato$weight,freq=F)

其中,“hist”是绘制直方图函数;“tomato$weight”是数据来源,来自tomato文件的weight列;“freq=F”是指定绘制频率直方图,如果改为“freq=T”则是绘制频数直方图。绘制的图像效果如图2所示。

图2小番茄重量分布直方图

此外,还可以在直方图上叠加其他图形。例如,叠加密度曲线,输入以下指令:

lines(density(tomato$weight),lwd=2)

在上述指令中,“lines”是画线函数;“density(tomato$weight)”的作用是把重量数据转换成密度数据;“lwd=2”是设定线条粗细。绘图效果如下页图3所示。

图3直方图叠加密度曲线

通过观看图形可以非常清晰地了解数据的分布情况,也能快速发现是否有奇异数据的存在。频率分布直方图也是在后续做数据正态分布检验的一个参考。

在数理统计分析中,只能由估计量估计总体的参数,总体参数始终是不可知的,只能通过统计检验,由统计量推断总体参数。一般在统计中先对参数提出假设,然后再根据假设进行数据检验。下面,以检验樱桃轮廓特征(果实投影面积及宽高比)差异性为例子介绍检验过程。

取得大红樱桃、大黄樱桃各30枚,拍照后用OpenCv获取每一颗樱桃的轮廓特征数据。假设显著性水平a=0.05,问是否可以认定每两组樱桃的轮廓有差异?

分析:每一组樱桃30颗,数量少属于小样本;樱桃样本是随机分组,属于独立样本。因此可使用两独立样本t检验,其

文档评论(0)

ZC强 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档