NumPy 随机数据分布

什么是数据分布?

数据分布是所有可能值的列表,以及每个值出现的频率。

这些列表在使用统计和数据科学时非常重要。

随机模块提供返回随机生成的数据分布的方法。


Random Distribution

随机分布是遵循某个 概率密度函数 的一组随机数。

概率密度函数:

描述连续概率的函数,即数组中所有值的概率。

可以使用 Random 模块的choice()方法,根据定义的概率生成随机数。

choice()方法允许我们指定每个值的概率。

概率由 0 到 1 之间的数字设置,其中 0 表示该值永远不会出现,1 表示该值始终会出现。

实例

生成包含100个值的一维数组,其中每个值必须为 3、5、7或 9。

值为 3 的概率设置为 0.1

值为 5 的概率设置为 0.3

值为 7 的概率设置为 0.6

值为 9 的概率设置为 0

  1. from numpy import random
  2. x = random.choice([3, 5, 7, 9], p=[0.1, 0.3, 0.6, 0.0], size=(100))
  3. print(x)

所有概率数之和应为 1。

即使将示例运行 100 次以上,值 9 也永远不会出现。

通过在size参数中指定形状,可以返回任何形状和大小的数组。

实例

与上面的示例相同,但返回一个包含 3 行的二维数组,每行包含 5 个值。

  1. from numpy import random
  2. x = random.choice([3, 5, 7, 9], p=[0.1, 0.3, 0.6, 0.0], size=(3, 5))
  3. print(x)

分类导航