在统计学理论的估计中,用不放回抽样来估计离散型均匀分布最大值问题中著名的德国坦克问题(英语:German tank problem),它因在第二次世界大战中用于估计德国坦克数量而得名。
简介在统计学理论的估计中,用不放回抽样来估计离散型均匀分布最大值问题中著名的德国坦克问题(英语:German tank problem),它因在第二次世界大战中用于估计德国坦克数量而得名。
这些分析说明了频率推断和贝叶斯推断之间的不同。
基于“单个”样本估计的样本总数各有不同,而在“多个”样本的基础上估计则是现实生活中一个很有意义的估计问题,它的答案很简单,但并不那么明显。1
历史上的问题在战争的过程中,西方盟国一直在努力确定德国的生产速度,并以两种主要方式得到这个数据:常规情报收集和统计估计。大部分情况下,统计估计的可信度很大程度上决定于常规情报收集。而有时常规情报收集会和统计估计一起结合使用,如在D日前夕估计豹式坦克的生产速度。
盟军指挥机构已经注意到了出现在意大利的五号坦克(豹式坦克),速度快,装备有75 mm/L70长管战车炮,是很不寻常的重型坦克,但在法国北部编号就很小,就和虎I坦克在突尼斯那样。由于谢尔曼坦克在对阵三号坦克和四号坦克时表现良好,美国陆军对它非常自信,以至于迫不及待地希望与他们相遇。就在D日的不久前,有消息称德国手中有大量的五号坦克。
为了确定这种说法的真实性,盟军要尝试估计正在生产坦克的数量。为此,他们要使用被缴获或被摧毁的坦克的序列号。他们主要使用变速箱的号码,因为其为两个完整的序列。底盘和发动机号码也有使用,但它们的编号规则比较复杂。各种其他的零件用来对分析结果进行交叉检查。对轮胎也做了类似的分析,其上观察到了顺序编号(即1、2、3、……、N)。
对坦克车轮的分析产生了对使用中的车轮模具数量的估计。在与英国车轮制造商讨论过后,他们估计了这么多的模具可以生产多少车轮,进而是每个月可生产的坦克数量。对两辆坦克(每辆32个车轮,总计64个车轮)车轮的分析的结果是1944年2月的生产数量估计在270左右,大大超出此前预期。
德国战后公布的记录显示,1944年2月一个月的生产量是276辆。统计方法结果的精确度是常规情报收集方法所远远不能达到的,而“德国坦克问题”这个词也成为了这种统计分析问题的标志。
估计产量并不是这种序列号分析的唯一应用。它也用于探查更多德国生产的信息,包括工厂数目、工厂的相对重要性、供应链长度(基于生产和使用之间的滞后程度)、生产工艺的改变、及对诸如橡胶等资源的使用。
具体数据根据常规盟军情报的估计,德国在1940年6月和1942年9月之间,每月大约能生产1,400辆坦克。将缴获坦克的序列号代入下文的公式,可计算出每月246辆。战后,从阿尔伯特·斯佩尔所管辖的部门缴获的德国生产记录显示,实际数目是245辆。
某些特定月份的估计如下:
|| ||
类似分析在二战期间,类似的序列号分析也在其他军事装备上应用过,其中最成功的属V-2火箭。
二战期间,德国情报部门分析了苏联军事装备工厂,朝鲜战争期间苏联装备工厂也被分析过。苏联在二战期间也估计过德国坦克的生产数。
20世纪80年代,一些美国人被获准进入以色列的梅卡瓦坦克的生产线。生产编号是分类过的,但水箱上有序列号,可以用来估计生产量。
该公式在非军事中也有使用,如估计Commodore 64计算机的总数,其结果(1.25亿)与官方数字相当匹配。1
参见标记重捕法,另一种估计样本总数的方法
最大间距估计,对“假设均匀分布”直觉的推广
哥白尼原则,类似的预测,基于单个样本(目前的年龄)计算预期寿命。
一个应用:末日论,估计人类的预期生存时间
其他对估计的讨论最大似然估计
估计偏差#离散均匀分布的最大值
本词条内容贡献者为:
杜强 - 高级工程师 - 中国科学院工程热物理研究所