概率的应用Ⅰ: 随机应答问卷调查(Randomised Response Sur
概率学和统计学最大的区别在于,概率推测不确定时间长期的可能性,而统计则完全相反,我们先收集结果后推测过程。
举一个具体例子
统计学是计量经济学的基础, 而概率学又是统计学的基石。 概率学和统计学最大的区别在于,概率推测不确定时间长期的可能性,而统计则完全相反,我们先收集结果后推测过程。 举一个具体例子: 假设有一个桶,里面有一些红色的珠子和一些黑色的珠子。概率学家知道里面各有多少珠子,想要找出抽到一个红色珠子的可能性。而统计学家则需要从桶里拿出一些珠子来计算桶里红色珠子的比率。 说真的应用概率论,学习统计和概率总是让我很头疼,因为内容太枯燥了,每次上课只学理论就会觉得很无聊。不过统计和概率的真正意义在于应用,每次做题就能理解好多上课没听懂的理论。 因为这学期主要在学概率,今天就来和大家分享两个概率的实际应用,希望大家也能在概率里找到乐趣。 1 ) 随机应答问卷调查 (Randomised Response Survey) 有时候研究人员做实验,如果调查问卷里有一些比较私人或者敏感的问题,人们可能为了面子会给出与事实不相符的答案。举一个十分典型又日常的例子,当初看《非诚勿扰》的时候,男嘉宾播放VCR介绍自己的感情经历,大多数都会说自己曾经有过3段情感经历,几乎很少会有男嘉宾会多过这个数字,可事实确实如此吗?这个答案也是不得而知了。 研究人员为了避免这个问题,在问卷调查中得出确实的答案,想到了一个办法:Randomised Response Technique (Warner, 1965, Journal of American Statistical Association) 假如我们想要做一个问卷调查:你是否进入过异性厕所? 样本量,n = 100 一般人们的回答是: a) 我进过异性厕所 b) 我没有进过异性厕所 不同于一般直接让人们回答这个问题,现在我们将(a) 和 (b) 按照一定比率发给被调查者,然后被调查者根据他们拿到的(a) 或(b)来回答是或不是。 这样一来我们就能得到被调查者的真实答案,因为调查人员最终得到的结果只有是或不是,而调查人员也不知道结果对应的是(a)或(b)哪一句。 假设,按8:2的比率发出(a)和(b)两个句子,我们能得到一个概率树。 这样我们就能得到 \pi , “我进过异性厕所的”总概率,确保了数据获取的准确率。 2) 哈迪温伯格定律(Hardy-Weinberg Law) “哈迪温伯格定律”是生物学和遗传学中概念,指在理想状态下,各等位基因的频率和等位基因的基因型频率在遗传中是稳定不变的,即保持着基因平衡。 假设这世界上有两种染色体A和a,所以我们会得到AA, Aa 和 aa 三种基因组合。3种基因各有p, q, r比率。 下一代的基因组成是从父母的基因中各拿一个染色体,组成一对。 假设第二代AA, Aa 和 aa 三种基因的比率分别为p’, q’, r’。 哈迪温伯格定律解释说AA, Aa 和 aa, 的比率将一直是p’, q’, r’, 不变。 假设从父母中继承到A或a的概率和在总人口中抽取A或a的概率是相同的。 P(A) = P( A|AA ) * P( AA ) + P( A| aa ) * P( aa ) + P( A| Aa ) * P( Aa ) = 1 * p + 0 * q + 0.5 * r = p + 0.5r 同理可得 P(a) = q + 0.5r 第二代的p’, q’, r’ 比率即为 p’ = P(A) * P(A) = (p + 0.5r)^2 q’ = P(A) * P(a) = (q + 0.5r)^2 r = 2 * P(A) * P (a) = 2(p +0.5r) (q + 0.5r) 第二代中有A 的可能性为 P(A) = P( A|AA ) * P( AA ) + P( A| aa ) * P( aa ) + P( A| Aa ) * P( Aa ) = 1 * p’ + 0 * q’ + 0.5 * r’ = p’ + 0.5r’ = (p + 0.5r)^2 + 2(p + 0.5r) (q + 0.5r) = p + 0.5r (和第一代结果相同) 这样就从概率的角度证明了哈迪温伯格定律。 今天和大家分享了两个概率的应用,让我们认识到概率的应用范围十分广泛,可以跨越不同领域涉及到生物学,对实验研究,收取数据也很有帮助。希望我在学习概率的路上能学到各种有趣的应用,也和大家一起分享,一起了解概率,喜欢概率。 注:第一次在知乎上发文,对如何输入公式不是很熟悉,这次的格式不是很整齐,下一次会注意的 (编辑:92站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |