新闻中心

Python中从自定义经验累积分布函数(CDF)抽样:直接与平滑插值方法

2025-11-20
浏览次数:
返回列表

Python中从自定义经验累积分布函数(CDF)抽样:直接与平滑插值方法

本文详细阐述了如何从自定义的经验累积分布函数(cdf)中生成随机样本。我们将探讨两种主要方法:一是利用numpy的`interp`函数进行基于线性插值的直接抽样,该方法高效且易于实现;二是借助scipy的`interp1d`函数,通过选择不同的插值类型(如线性、三次样条等)实现更平滑的抽样。文章将通过具体的代码示例,指导读者如何在python环境中实现这些抽样技术,并讨论不同方法的适用场景与注意事项。

1. 逆变换抽样原理概述

从任意累积分布函数(CDF)中抽样的核心方法是逆变换抽样(Inverse Transform Sampling)。其基本原理是:如果随机变量$X$的CDF为$F(x)$,且$U$是一个服从$[0, 1]$区间均匀分布的随机变量,那么$Y = F^{-1}(U)$(其中$F^{-1}$是$F$的逆函数)将服从与$X$相同的分布。

对于离散或经验CDF,我们通常没有一个解析的逆函数。在这种情况下,我们可以通过插值来近似$F^{-1}(U)$。具体来说,给定一组$(x_i, F(x_i))$数据点,我们可以将$U$值视为新的$F(x)$值,然后通过插值找到对应的$x$值。

2. 数据准备:定义经验CDF

首先,我们需要定义一个经验累积分布函数。通常,这以一组离散的$(x, \text{cdf})$对的形式给出,其中$x$是某个值,$\text{cdf}$是小于或等于$x$的观测值的比例。

import pandas as pd
import numpy as np
from scipy.interpolate import interp1d
import matplotlib.pyplot as plt

# 定义一个经验CDF
# 'x' 列表示随机变量的值
# 'cdf' 列表示累积概率
cdf_data = pd.DataFrame.from_dict(
    {'x':[10e6, 20e6, 50e6, 100e6, 250e6],
     'cdf':[0.4, 0.6, 0.7, 0.8, 1]}
)

print("定义的经验CDF数据:")
print(cdf_data)

3. 方法一:基于线性插值的CDF抽样 (使用 numpy.interp)

numpy.interp 函数可以用于一维线性插值。在逆变换抽样中,我们将均匀分布的随机数作为新的CDF值(xp),然后根据已知的CDF值(fp)和对应的$x$值(x),来查找插值后的$x$值。

原理: np.interp(x_new, xp, fp) 实际上是在已知点 (xp[i], fp[i]) 的基础上,对 x_new 进行线性插值,以得到对应的 fp 值。在我们的场景中,xp是CDF的概率值,fp是对应的$x$值。我们将均匀分布的随机数作为x_new(即我们希望的CDF概率),然后通过插值找到对应的$x$值。

# 生成10,000个服从[0, 1)均匀分布的随机数
num_samples = 10000
uniform_samples = np.random.uniform(0, 1, num_samples)

# 使用numpy.interp进行线性插值抽样
# uniform_samples 是我们希望的CDF值 (y轴)
# cdf_data['cdf'] 是已知的CDF值 (x轴)
# cdf_data['x'] 是已知的x值 (y轴)
# np.interp 会找到与 uniform_samples 对应的 x 值
samples_method1 = np.interp(uniform_samples, cdf_data['cdf'], cdf_data['x'])

print("\n方法一(线性插值)抽样结果示例 (前5个):")
print(samples_method1[:5])

# 可视化抽样结果的直方图
plt.figure(figsize=(10, 6))
plt.hist(samples_method1, bins=50, density=True, alpha=0.7, color='skyblue', label='线性插值抽样')
plt.title('基于numpy.interp的CDF抽样结果直方图')
plt.xlabel('X 值')
plt.ylabel('概率密度')
plt.grid(True, linestyle='--', alpha=0.6)
plt.legend()
plt.show()

4. 方法二:基于更高级插值的CDF抽样 (使用 scipy.interpolate.interp1d)

scipy.interpolate.interp1d 提供了更灵活的插值选项,包括线性、最近邻、零阶、Slerp以及三次样条插值等。这允许我们在抽样时引入不同程度的平滑。

原理: interp1d 首先创建一个插值函数,然后我们可以用这个函数来计算新的点。在逆变换抽样中,我们创建的插值函数将CDF概率映射到$x$值。

小云雀 小云雀

剪映出品的AI视频和图片创作助手

小云雀 1949 查看详情 小云雀
# 创建一个插值函数,将CDF概率映射到X值
# x轴是CDF值,y轴是对应的X值
# kind 参数指定插值类型,例如 'linear' (线性), 'cubic' (三次样条)
# fill_value='extrapolate' 允许在定义域之外进行外推,但通常在CDF抽样中应避免
# 或者设置 fill_value=(cdf_data['x'].iloc[0], cdf_data['x'].iloc[-1]) 进行边界钳制

# 线性插值 (与np.interp效果类似)
f_linear = interp1d(cdf_data['cdf'], cdf_data['x'], kind='linear',
                    bounds_error=False, fill_value=(cdf_data['x'].iloc[0], cdf_data['x'].iloc[-1]))
samples_linear_interp1d = f_linear(uniform_samples)

print("\n方法二(scipy.interpolate.interp1d, 线性插值)抽样结果示例 (前5个):")
print(samples_linear_interp1d[:5])

# 三次样条插值 (更平滑的曲线)
# 注意:三次样条插值需要至少4个数据点
if len(cdf_data) >= 4:
    f_cubic = interp1d(cdf_data['cdf'], cdf_data['x'], kind='cubic',
                       bounds_error=False, fill_value=(cdf_data['x'].iloc[0], cdf_data['x'].iloc[-1]))
    samples_cubic_interp1d = f_cubic(uniform_samples)

    print("\n方法二(scipy.interpolate.interp1d, 三次样条插值)抽样结果示例 (前5个):")
    print(samples_cubic_interp1d[:5])

    # 可视化两种插值方法的CDF曲线和抽样结果的直方图
    plt.figure(figsize=(14, 6))

    # 绘制原始CDF和插值CDF
    plt.subplot(1, 2, 1)
    plt.plot(cdf_data['x'], cdf_data['cdf'], 'o', label='原始CDF数据点')
    x_interp = np.linspace(cdf_data['x'].min(), cdf_data['x'].max(), 500)
    cdf_interp_linear = f_linear(np.interp(x_interp, cdf_data['x'], cdf_data['cdf'])) # 逆向插值得到CDF曲线
    cdf_interp_cubic = f_cubic(np.interp(x_interp, cdf_data['x'], cdf_data['cdf'])) # 逆向插值得到CDF曲线

    # 为了正确绘制逆CDF,我们需要插值CDF值到X值
    # 更直接的方式是绘制插值函数本身
    cdf_points = np.linspace(0, 1, 100)
    plt.plot(f_linear(cdf_points), cdf_points, '-', label='线性插值CDF (逆函数)')
    plt.plot(f_cubic(cdf_points), cdf_points, '--', label='三次样条插值CDF (逆函数)')

    plt.title('原始与插值CDF的逆函数')
    plt.xlabel('X 值')
    plt.ylabel('累积概率')
    plt.grid(True, linestyle='--', alpha=0.6)
    plt.legend()

    # 绘制抽样结果直方图
    plt.subplot(1, 2, 2)
    plt.hist(samples_linear_interp1d, bins=50, density=True, alpha=0.5, color='skyblue', label='线性插值抽样')
    plt.hist(samples_cubic_interp1d, bins=50, density=True, alpha=0.5, color='lightcoral', label='三次样条插值抽样')
    plt.title('基于interp1d的不同插值抽样结果直方图')
    plt.xlabel('X 值')
    plt.ylabel('概率密度')
    plt.grid(True, linestyle='--', alpha=0.6)
    plt.legend()
    plt.tight_layout()
    plt.show()
else:
    print("\n数据点不足,无法进行三次样条插值 (至少需要4个点)。")

5. 注意事项与选择建议

  1. 插值类型选择:

    • 线性插值 (numpy.interp 或 interp1d(kind='linear')): 简单、计算效率高,适用于数据点之间变化相对平稳,或对精度要求不极致的场景。它会产生分段线性的逆CDF,导致抽样结果的概率密度函数(PDF)是分段常数。
    • 三次样条插值 (interp1d(kind='cubic')): 产生更平滑的逆CDF,进而生成更平滑的PDF。适用于需要模拟连续且平滑分布的场景,但计算成本略高,且需要更多的数据点(至少4个)。
    • 其他插值类型(如quadratic、nearest等)可根据具体需求选择。
  2. 边界处理 (fill_value 和 bounds_error):

    • 在interp1d中,bounds_error=False并结合fill_value=(low, high)可以确保当抽样的均匀随机数落在CDF定义域之外时,结果会被钳制在CDF的最小和最大$x$值。这对于避免不合理的抽样结果至关重要。numpy.interp默认会进行边界钳制。
    • 对于CDF抽样,均匀随机数理论上总在$[0, 1]$之间,而我们的CDF数据通常覆盖整个$[0, 1]$区间(从0到1)。因此,外推(fill_value='extrapolate')通常是不必要的,甚至可能导致不合理的样本值。
  3. 数据点数量与质量:

    • 经验CDF的数据点越多,插值结果越接近真实的潜在分布。
    • 数据点的分布和精度会直接影响抽样结果的准确性。
  4. 计算效率:

    • numpy.interp通常比scipy.interpolate.interp1d在处理大量样本时更高效,尤其是在只需要线性插值的情况下。
    • 如果需要高级插值,interp1d是更合适的选择。

总结

本文介绍了在Python中从自定义经验累积分布函数(CDF)进行抽样的两种主要方法。numpy.interp提供了一种高效的线性插值方法,适用于快速生成基于分段线性逆CDF的样本。而scipy.interpolate.interp1d则提供了更灵活的插值选项,特别是三次样条插值,能够生成更平滑的样本分布,更适合需要模拟连续分布特性的场景。选择哪种方法取决于对抽样结果平滑度和计算效率的具体需求。理解逆变换抽样原理和不同插值方法的特性是有效应用这些技术的关键。

以上就是Python中从自定义经验累积分布函数(CDF)抽样:直接与平滑插值方法的详细内容,更多请关注其它相关文章!


# 我们可以  # 安阳实力网站优化招聘  # 站外营销推广方式有那些  # 金坛灯箱网站建设  # 河南企业网站推广服务商  # 网站建设空间构成素材  # 天河seo网站优化推广技巧  # 衢州seo优化营销  # 荥阳市网站优化费用多少  # 太原百度关键词排名优化  # 罗山网站推广服务商电话  # 创建一个  # python  # 是在  # 定义域  # 适用于  # 两种  # 逆变  # 自定义  # 随机数  # 插值  # igs  # pdf 


相关栏目: 【 科技资讯46185 】 【 网络学院92790


相关推荐: 抖音商城签到领现金是真的吗_抖音商城签到奖励与提现说明  Excel组合图表怎么做 Excel创建柱状图与折线组合图教程【图表】  如何为你的Composer包编写自动化测试_集成PHPUnit到Composer的scripts工作流  Win11截图该按哪些键 Win11截屏完整流程解析【教程】  解决Flask中Quill编辑器内容提交失败及TypeError的指南  如何创建独立于主系统的J*a运行环境_隔离式环境搭建策略  荣耀Play7T运行卡顿解决_荣耀Play7T性能优化  AWS EC2实例间SQL Server连接超时:安全组配置与故障排除指南  CKEditor 5 自定义构建在React应用中渲染失败的调试与解决  深入理解J*aScript中的B样条曲线与节点向量生成  中兴Axon42Ultra怎样在文件App筛图_iPhone中兴Axon42Ultra文件App筛图【图片筛选】  J*a递归快速排序中静态变量导致数据累积问题的解决方案  Tabulator表格日期时间排序问题及自定义解决方案  Kafka Streams中基于消息头条件过滤消息的实现指南  抖音网页版平台入口 抖音网页版官网在线访问教程  深入理解字体排版:Adobe光学字偶距与CSS字偶距的差异与实现  c++中的std::launder有什么实际用途_c++对象生命周期与指针优化  高德地图家和公司地址在哪设置 高德地图通勤路线设置方法【超详细】  zookeeper 都有哪些功能?  韩小圈电脑版在线入口_网页版免费登录地址  Golang如何使用bytes.Split分割字节切片_Golang bytes切片分割方法  php源码怎么看淘宝客系统_看php源码淘宝客系统技巧  海量存储:机器视觉智能化的核心基石  高德地图总提示网络异常怎么办 高德地图离线导航设置与网络排查方法  漫蛙Manwa2官网入口地址分享 漫蛙漫画PC版永久访问通道  12306选座怎么选到商务座_12306商务座选择与配置说明  深入理解Google Cloud Datastore查询:祖先路径与数据一致性  Python:递归比较文件夹内容并找出特定类型文件的差异  在命令行怎么运行html项目_命令行运行html项目方法【教程】  PySpark中高效提取字符串右侧可变长度数字:使用regexp_extract  QQ邮箱网页版入口 QQ邮箱官方邮箱登录通道  AO3官方在线访问地址 Archive of Our Own最新镜像合集  如何在J*a中使用Locale处理多语言环境  163邮箱注册官网 免费申请163个人邮箱  C++如何连接MySQL数据库_C++使用Connector/C++操作MySQL数据库教程  邮政快递包裹最新位置 邮政快递实时追踪入口  Go调试环境为何无法启动_Go调试器启动失败原因与解决策略  PDF怎么合并PDF并保持格式_PDF合并文件保持排版教程  Django模型中自动计算可用余额的实现方法  J*aScript:在map操作中高效处理空数组  uc浏览器网页版极速入口 uc网页浏览器网页版流畅体验  2026年CSGO开箱网站推荐 CSGO开箱平台精选  如何提高微信支付的安全性_微信支付安全防护与设置建议  J*aScript中高效清空DOM列表元素:解决for循环中断与任务管理问题  网易大神怎么保存别人动态的图片_网易大神动态图片保存方法  Tabulator表格中精确实现日期时间排序的指南  Django表单验证失败时保留用户输入数据的最佳实践  React/Next.js中实现列表项的动态移动与状态管理:兼论唯一键的重要性  J*a应用集成GitHub CLI与API认证指南  CSS图片焦点样式实现教程:理解与应用tabindex属性 

搜索