登录后台

页面导航

本文编写于 143 天前,最后修改于 141 天前,其中某些信息可能已经过时。

前言

话不多说先上题

image-20201223000000024

1. 项目需求

  • 显示数据相关性
  • 猜测符合那种分布并给出可信度
  • 该分布在逻辑意义上对数据相关的指导意义(哪些数据有可能对哪些结果有直接因果关系,并且给出因果关系的概率)

2. 前期准备

  • 统计学数据相关性:一是相关分析,即通过引入一定的统计指标量化变量之间的相关程度;另一个是回归分析,由于回归分析不仅仅刻画相关关系,更重要的是刻画因果关系
  • 统计学分布:离散型随机变量分布(两点分布/伯努利分布、二项分布、超几何分布、几何分布、负二项分布、泊松分布)、连续型随机变量分布(均匀分布、指数分布、正态分布)
  • python所使用的工具包(numpy、scipy、matplotlib)Anaconda
  • python所使用的辅助包( Pandas、Statsmodels、Seaborn)

3. 工具包介绍

  • numpyscipymatplotlib

    NumPy 通常与 SciPy(Scientific Python)和 Matplotlib(绘图库)一起使用, 这种组合广泛用于替代 MatLab,是一个强大的科学计算环境,有助于我们通过 Python 学习数据科学或者机器学习
  • pandas

    Pandas 是基于 NumPy 的一个开源 Python 库,它被广泛用于快速分析数据,以及数据清洗和准备等工作。它的名字来源是由“ Panel data”(面板数据,一个计量经济学名词)两个单词拼成的。简单地说,你可以把 Pandas 看作是 Python 版的 Excel
  • statsmodels

    Python StatsModels允许用户浏览数据,执行统计测试和估计统计模型。它应该补充SciPy的统计模块。它是Python科学堆栈的一部分,用于处理数据科学,统计数据和数据分析
  • seaborn

    seaborn同matplotlib一样,也是Python进行数据可视化分析的重要第三方包。但seaborn是在matplotlib的基础上进行了更高级的API封装,使得作图更加容易,图形更加漂亮

已有 1 条评论