常用概率分布

大可

2023-11-11

Quantitative › 统计学

对数正态分布, 正态分布, 离散型随机变量, 连续均匀分布, 连续型随机变量

一、基本概念

Discrete distributino 离散型分布:
- Discrete random variable 离散型随机变量：takes on at most a finite and countalbe number of possible values. 随机变量的结果是可数的。
Continuous distribution 连续型分布：
- Continuous random variable 连续型随机变量：takes on an infinite and uncountable number of possible values. 连续随机变量的结果是不可数的。
Probability function 概率函数: Specifies the probability that the discrete random variable takes on a specific value.
- P(X = x) is the probability that a random variable X takes on the value x.
Probability density function(pdf) 概率密度函数,f(x): Specifies the probability that the continuous random variable takes on a value within a range.
- The probability of taking on a specific value is always zero,P(X = x) =0.
Cumulative distribution function(cdf) 累计分布函数,F(X): 给出了一个随机变量小于某个特定值x的概率，P（X<=x）。
1. 对于离散型和连续型随机变量：
  1. F（x）= P(X<=x)
  2. P(x1 < X <= x2) = F(x2) - F(x1)
2. CDF函数和累计相对频率是对应的。

二、 Discrete Distributions 离散分布

Discrete uniform distribution 离散均匀分布
1. 定义：Has a finite number of possible outcomes,all of which are equally likely.
2. Example: P(x) = 0.2,for X = {1,2,3,4,5};then
  1. P(3) = 20%
  2. F(3) = P(X<=3) = 60%
  3. P(2 <= X <= 4) = 60%
Bernoulli random variable 伯努利随机变量
1. 定义：The number of successes in n Bernoulli trils,assuming that:
  1. The probability of success(p) is constant for all trials,成功概率p是常数。p(1) = P(Y=1) = p。当结果是成功时，令Y等于1。
  2. The trails are all independent所有的实验结果都是独立的.
2. Expected value for binomial rndom variable = np
3. Variance for binomial random variable = np(1-p)
4. The probability of binomial random variable：
5. A Binomial model for stock price movement

三、Continuous Distribution 连续分布

Continuous uniform distribution 连续均匀分布
1. 定义：连续均匀分布是概率论和统计学中的一种常见的概率分布，它描述了在一个区间内所有可能取值的概率是相等的情境。在连续均匀分布中，任何两个区间内的可能取值都有相同的概率。
2. Probability density function:
3. Probability for an inteval:
4. Cumulative probability distribution:
Normal Distribution 正态分布
1. 正态分布的属性
  1. 正态分布由均值和方差描述
  2. Skewness = 0
  3. Kurtosis = 3
  4. 两个或者多个正态随机变量的线性组合也是符合正态分布的
  5. 概率越远离均值，概率越来越降低，尾部向左和向右延伸到无穷
2. 正态分布的一些概率表述（有时用样本标准差s来估计总体标准差σ）：
  1. 约50%的观测值落在 μ ± (2/3) σ
  2. 约68%的观测值落在 μ ± σ
  3. 约90%的观测值落在 μ ± 1.65 σ
  4. 约95%的观测值落在 μ ± 1.96 σ (官方2σ)
  5. 约99%的观测值落在 μ ± 2.58 σ (官方3σ)
3. Standardizing标准化
  1. 定义：一个随机变量X有两个步骤，从X中将X的均值减去，再除以X的标准差。这个过程有助于将不同正态分布的数据进行比较，简化计算，并使用标准正态分布的标准分数进行概率计算。
  2. 公式：Z = （X - μ）/ σ
4. 正态分布的应用
  1. Shortfall risk 损失风险
    1. 定义：该风险是指在某个时间区间内投资价值会低于某个最低可接受水平的可能性，投资者将任何低于shortfall risk水平的收益率是不可接受的。
    2. The lower hte better.
  2. Safety-first ratio
    1. 定义: The distance from the mean return to the shortfall level in units of standard deviation.
    2. The higer,the better.
    3. Minimizing shortfall risk = Maximizing safety-first ratio
    4. 公式：
5. 对数正态分布
  1. 现复习一下对数的概念：
  2. 对数正态分布的概念：
    1. X is normally distributed, e的x次方是对数正态分布；
    2. 该分布广泛地用于股票和其他资产价格概率分布的建模中（资产价格不可能为负）；
    3. 对数正态分布两个最值得注意的结果是它以0为下界，而且偏向右侧；
6. Student’s-distribution
  1. 来历：t分布得名于英国统计学家William Sealy Gosset的笔名“Student”。Gosset在1908年首次引入了t分布，并以”Student”的名义在统计学的文献中发表了这个分布的相关工作。
  2. 定义：t分布（t-distribution）是统计学中一种用于估计总体均值的概率分布。它在样本较小、总体标准差未知时经常被使用，常用于构建置信区间和进行假设检验。t分布的形状类似于标准正态分布，但具有更宽的尾部。Definede by a single parameter: Degrees of freedom(df).
  3. Symmetrical(bell shaped呈钟形),skewness = 0.
  4. 尾部比z分布更肥（扩散）
  5. 自由度df越大，t分布越趋近于标准正态分布；
  6. 应用：t分布应用于小样本情况，当总体标准差未知时。在许多统计推断问题中，例如构建置信区间，进行t检验分布等。
  7. 图例：
7. Chi-Square distribution(χ²)
  1. 定义：卡方分布（Chi-Square Distribution）是概率统计中一种常见的概率分布，通常用于处理与卡方检验（Chi-Square Test）相关的统计问题。卡方分布是一种特殊的伽马分布，其自由度（degrees of freedom）决定了分布的形状。
    1. df = n -1 = k，where： n is the sample size
  2. Asymmetrical 非对称
  3. The sum of squares of k independent standard normally distributed random variables.
  4. As df increase,the pdf becomes more like a bell shape.
  5. t图例：
8. F-distribution
  1. 定义：F分布（F-distribution）是一种概率分布，通常用于分析方差分析（ANOVA）和回归分析中的统计检验。F分布的特点在于它是两个独立卡方分布的比值，其中这两个卡方分布的自由度分别为df1和df2.F分布的形状通常取决于两个自由度参数。
  2. Asymetrical 非对称
  3. Bounded from below by zero.
  4. As df1 and df2 increase,the pdf will become more like a bell shape.
  5. 图例
9. t分布、卡方分布和F分布的区别：
10. Univariate distribution 单变量分布
  1. Discribes a single random variable.
11. Multivariate distribution 多变量分布
  1. Decribes the probabilities for a group of related random variables.
    1. n means in total.
    2. n variances in total.
    3. n(n-1)/2 distinctcorrelations in total.
  2. 多变量分布的性质：
    1. 联合概率密度函数或概率质量函数
    2. 边缘分布
    3. 条件分布
    4. 协方差和相关性
    5. 特征函数
12. Discrete compounding
13. Countinuous compouding
  ==> ==>

三、Simulation 模拟

Monte Carlo simulation

定义：Use randomly generated values for risk factors,based on their assumed distributions,to produce a distribution of possible outcome.蒙特卡洛模拟是一种基于随机抽样的数值计算方法，通过随机生成大量样本数据，从而模拟和分析各种可能的系统行为。这种方法通常用于求解无法通过解析方法获得精确解的问题，或者用于评估风险、做出决策。
Limitation:
1. Fairly complex 相当复杂.
2. Do not directly provide precise insights 不能提供准确的见解.
3. Provide answer no better than tha assumption used 提供不比所使用的假设更好的答案.
蒙特卡洛模拟的基本步骤：
1. 问题建模：将问题抽象为数学模型，确定需要模拟的系统和变量。
2. 参数设定：为模型中的变量设定参数的概率分布或取值范围。
3. 随机抽样：通过随机抽样方法生成大量样本数据，这可以是伪随机数生成器产生的序列。
4. 模拟计算：使用生成的样本数据运行模型，记录结果。
5. 统计分析：对模拟结果进行统计分析，得出问题的概率性特征、期望值等。
尽管蒙特卡洛模拟是一种强大的数值计算方法，但也存在一些局限性，其中一些主要的局限性包括：
1. 计算成本高：当模型复杂或维度较高时，需要大量的随机抽样来获得准确的结果。这可能导致计算成本昂贵，特别是对于需要大量模拟运行的复杂问题。
2. 收敛速度慢：有些问题需要大量的模拟运行才能收敛到准确的解。这使得蒙特卡洛模拟在某些情况下的收敛速度较慢，需要更多的计算资源和时间。
3. 依赖随机性：蒙特卡洛模拟的结果取决于随机抽样，因此对于相同的模型和输入，不同的运行可能产生不同的结果。这种随机性可能导致对结果的误解或不确定性。
4. 不适用于所有问题：对于一些问题，特别是那些可以通过解析方法获得准确解的问题，蒙特卡洛模拟可能显得过于繁琐和不必要。在这些情况下，更传统的解析方法可能更为有效。
5. 难以处理高维问题：随着问题维度的增加，蒙特卡洛模拟的性能可能会下降。这被称为“维度灾难”，即在高维空间中，需要大量的样本来维持相同的准确性。
6. 样本相关性：如果生成的样本之间存在相关性，可能导致对结果的偏见。一些采样技术，如马尔可夫链蒙特卡洛（MCMC），被设计来应对这个问题，但其引入了其他复杂性。