R 语言数据集

数据集

数据集是数据的集合,通常以表格的形式呈现。

在 R 语言中有一个很受欢迎的内置数据集,名为 "mtcars"(汽车趋势汽车道路测试),它是从 1974 年的《美国汽车趋势》杂志中检索到的。

在下面的例子中(以及在接下来的章节中),我们将使用 mtcars 数据集进行统计:

实例
  1. mtcars

结果如下:


有关数据集的信息

您可以用问号 (?) 获取有关 mtcars 数据集的信息:

实例
  1. ?mtcars

结果如下:


获取信息

使用 dim() 函数查找数据集的维度,使用 names() 函数查看变量的名称:

  1. Data_Cars <- mtcars
  2. # Use dim() to find the dimension of the data set
  3. dim(Data_Cars)
  4. # Use names() to find the names of the variables from the data set
  5. names(Data_Cars)

[1] 32 11

[1] "mpg" "cyl" "disp" "hp" "drat" "wt" "qsec" "vs" "am" "gear"

[11] "carb"

使用 rownames() 函数获取第一列中每一行的名称,即每辆车的名称:

实例
  1. Data_Cars <- mtcars
  2. rownames(Data_Cars)

结果如下:

从上面的例子中,我们发现数据集有 32 个观测值(马自达 RX4、马自达 RX4 Wag、Datsun 710 等)和 11 个变量(mpg、cyl、disp 等)。

变量被定义为可以测量或计数的东西。

以下是 mtcars 数据集变量的简要说明:

变量名称描述
mpg英里/(US)加仑
cyl气缸数
disp排量
hp总马力
drat后轴传动比
wt重量(1000 磅)
qsec1/4 英里时间
vs发动机 (0 = V-V型, 1 = 直列)
am变速器 (0 = 自动, 1 = 手动)
gear前进档数
carb化油器的数量

打印变量值

如果要打印属于某个变量的所有值,请使用 $ 符号和该变量的名称(例如 cyl)访问数据框:

实例
  1. Data_Cars <- mtcars
  2. Data_Cars$cyl

结果如下:

[1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4

变量值排序

要对值进行排序,请使用 sort() 函数:

实例
  1. Data_Cars <- mtcars
  2. Data_Cars$cyl # Print cyl values
  3. sort(Data_Cars$cyl) # Sort cyl values

结果如下:

[1] 4 4 4 4 4 4 4 4 4 4 4 6 6 6 6 6 6 6 8 8 8 8 8 8 8 8 8 8 8 8 8 8

从上面的例子中,我们看到大多数汽车都有 4 缸和 8 缸。


数据分析

现在我们有了一些关于数据集的信息,我们可以开始用一些统计数字来分析它。

例如,我们可以使用 summary() 函数来获取数据的统计摘要:

实例
  1. Data_Cars <- mtcars
  2. summary(Data_Cars)

summary() 函数的作用是:为每个变量返回 6 个统计数字:

  • 最小值
  • 第一分位数(百分位数)
  • 中间值
  • 平均值
  • 第三分位数(百分位数)
  • 最大值

我们将在接下来的章节中介绍所有这些数据,以及其他统计数字。