R 语言数据集

数据集

数据集是数据的集合，通常以表格的形式呈现。

在 R 语言中有一个很受欢迎的内置数据集，名为 "mtcars"（汽车趋势汽车道路测试），它是从 1974 年的《美国汽车趋势》杂志中检索到的。

在下面的例子中（以及在接下来的章节中），我们将使用 mtcars 数据集进行统计：

实例

mtcars

结果如下:

有关数据集的信息

您可以用问号 (?) 获取有关 mtcars 数据集的信息:

实例

?mtcars

运行一下

结果如下:

获取信息

使用 dim() 函数查找数据集的维度，使用 names() 函数查看变量的名称:

Data_Cars <- mtcars
# Use dim() to find the dimension of the data set
dim(Data_Cars)
# Use names() to find the names of the variables from the data set
names(Data_Cars)

运行一下

[1] 32 11

[1] "mpg" "cyl" "disp" "hp" "drat" "wt" "qsec" "vs" "am" "gear"

[11] "carb"

使用 rownames() 函数获取第一列中每一行的名称，即每辆车的名称:

实例

Data_Cars <- mtcars
rownames(Data_Cars)

运行一下

结果如下:

从上面的例子中，我们发现数据集有 32 个观测值（马自达 RX4、马自达 RX4 Wag、Datsun 710 等）和 11 个变量（mpg、cyl、disp 等）。

变量被定义为可以测量或计数的东西。

以下是 mtcars 数据集变量的简要说明:

变量名称	描述
mpg	英里/（US）加仑
cyl	气缸数
disp	排量
hp	总马力
drat	后轴传动比
wt	重量（1000 磅）
qsec	1/4 英里时间
vs	发动机 (0 = V-V型, 1 = 直列)
am	变速器 (0 = 自动, 1 = 手动)
gear	前进档数
carb	化油器的数量

打印变量值

如果要打印属于某个变量的所有值，请使用 $ 符号和该变量的名称（例如 cyl）访问数据框:

实例

Data_Cars <- mtcars
Data_Cars$cyl

运行一下

结果如下:

[1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4

变量值排序

要对值进行排序，请使用 sort() 函数:

实例

Data_Cars <- mtcars
Data_Cars$cyl # Print cyl values
sort(Data_Cars$cyl)  # Sort cyl values

运行一下

结果如下:

[1] 4 4 4 4 4 4 4 4 4 4 4 6 6 6 6 6 6 6 8 8 8 8 8 8 8 8 8 8 8 8 8 8

从上面的例子中，我们看到大多数汽车都有 4 缸和 8 缸。

数据分析

现在我们有了一些关于数据集的信息，我们可以开始用一些统计数字来分析它。

例如，我们可以使用 summary() 函数来获取数据的统计摘要:

实例

Data_Cars <- mtcars
summary(Data_Cars)

运行一下

summary() 函数的作用是：为每个变量返回 6 个统计数字:

最小值
第一分位数（百分位数）
中间值
平均值
第三分位数（百分位数）
最大值

我们将在接下来的章节中介绍所有这些数据，以及其他统计数字。

R 语言数据集

数据集

实例

有关数据集的信息

实例

获取信息

实例

打印变量值

实例

变量值排序

实例

数据分析

实例

分类导航