R 语言数据集
数据集
数据集是数据的集合,通常以表格的形式呈现。
在 R 语言中有一个很受欢迎的内置数据集,名为 "mtcars"(汽车趋势汽车道路测试),它是从 1974 年的《美国汽车趋势》杂志中检索到的。
在下面的例子中(以及在接下来的章节中),我们将使用 mtcars
数据集进行统计:
实例
mtcars
结果如下:
有关数据集的信息
您可以用问号 (?
) 获取有关 mtcars
数据集的信息:
实例
?mtcars
结果如下:
获取信息
使用 dim()
函数查找数据集的维度,使用 names()
函数查看变量的名称:
Data_Cars <- mtcars
# Use dim() to find the dimension of the data set
dim(Data_Cars)
# Use names() to find the names of the variables from the data set
names(Data_Cars)
[1] 32 11
[1] "mpg" "cyl" "disp" "hp" "drat" "wt" "qsec" "vs" "am" "gear"
[11] "carb"使用 rownames()
函数获取第一列中每一行的名称,即每辆车的名称:
实例
Data_Cars <- mtcars
rownames(Data_Cars)
结果如下:
从上面的例子中,我们发现数据集有 32 个观测值(马自达 RX4、马自达 RX4 Wag、Datsun 710 等)和 11 个变量(mpg、cyl、disp 等)。
变量被定义为可以测量或计数的东西。
以下是 mtcars 数据集变量的简要说明:
变量名称 | 描述 |
---|---|
mpg | 英里/(US)加仑 |
cyl | 气缸数 |
disp | 排量 |
hp | 总马力 |
drat | 后轴传动比 |
wt | 重量(1000 磅) |
qsec | 1/4 英里时间 |
vs | 发动机 (0 = V-V型, 1 = 直列) |
am | 变速器 (0 = 自动, 1 = 手动) |
gear | 前进档数 |
carb | 化油器的数量 |
打印变量值
如果要打印属于某个变量的所有值,请使用 $
符号和该变量的名称(例如 cyl
)访问数据框:
实例
Data_Cars <- mtcars
Data_Cars$cyl
结果如下:
[1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4
变量值排序
要对值进行排序,请使用 sort()
函数:
实例
Data_Cars <- mtcars
Data_Cars$cyl # Print cyl values
sort(Data_Cars$cyl) # Sort cyl values
结果如下:
[1] 4 4 4 4 4 4 4 4 4 4 4 6 6 6 6 6 6 6 8 8 8 8 8 8 8 8 8 8 8 8 8 8
从上面的例子中,我们看到大多数汽车都有 4 缸和 8 缸。
数据分析
现在我们有了一些关于数据集的信息,我们可以开始用一些统计数字来分析它。
例如,我们可以使用 summary()
函数来获取数据的统计摘要:
实例
Data_Cars <- mtcars
summary(Data_Cars)
summary()
函数的作用是:为每个变量返回 6 个统计数字:
- 最小值
- 第一分位数(百分位数)
- 中间值
- 平均值
- 第三分位数(百分位数)
- 最大值
我们将在接下来的章节中介绍所有这些数据,以及其他统计数字。