爱吱声

标题: 本福特定律验证疫情数据 [打印本页]

作者: togo    时间: 2020-2-13 10:00
标题: 本福特定律验证疫情数据
YouTube有一期李永乐老师教大家用本福特定律验证淘宝双十一数据是否作假的视频,我看了以后有点心得。! D# z3 P( t) T+ n# Y2 l! ~9 ?
觉得用来验证一下现在的疫情数据可能有些参考意义
: B2 Y0 ]& B9 X$ V8 j5 m6 M! o0 I/ S
: C; v, G  ]' e
& j# g* @, `6 r5 J+ Y; ~- Z( [什么是本福特定律. {) H7 I7 A2 u6 \6 [; p# A
**********************
0 B8 Q% S- C3 i  C/ I1 x1935年的某一天,物理学家富兰克.本福特(Frank.Benford)在图书馆查阅资料,他在翻阅对数表时,发现对数表的头几页要比后面的页脏一些。5 H5 K! r, n* k( p- ^- S3 R, B/ v* {
话说聪明的脑袋是一样的,愚笨的脑袋各式各样。牛顿的脑袋被苹果砸中,于是发现了万有引力。本福特也是如此,他拍了一下脑袋,发现了“本福特定律”。. X% g  q7 d4 z- D  t9 Y; B
对数表的前几页比后面的脏,这说明有更多的人查阅头几页,这说明以1、2、3开头的数据比7、8、9开头的数据多。- G, e  D- C: l- q% k6 c
本福特搜集了人口、地理、经济等许多统计数据进一步分析,发现自然数据源,只要样本足够多,数据中以1为打头的数字出现的频率并不是1/9,而是30.1%。以2开头的数字出现的频率是17.6%。往后出现频率依次减少,以9为首的数字出现的频率最低,只有4.6%。
  F; e: y  z8 ~9 W( V- N/ H; c, o: w
数字
出现频率

. C% s/ b3 L; S
1
0.301
; C0 s6 ]& R  n: c
2
0.176
( V8 b# u/ o0 C( R: D3 N
3
0.125
- P1 t4 O5 m2 K
4
0.097

; j0 R* c: q8 Z
5
0.079

/ S4 J. E6 H$ ?" Z' E( n
6
0.067
# J% g6 P/ T* Q( ?5 H" A; W; H
7
0.058
2 f) c1 J" D" E/ e
8
0.051
6 s- _$ i# W8 x" H* S: f- d
9
0.046

& t. A5 R, q) J( F" _. \
合计
1.000
本福特定律的应用条件是:  y. _9 x0 H4 N, T, H
1.数据不能是规律排序的。
8 }9 p2 f* R- `6 w! ?6 H2.数据不能经过人为修饰。
) p$ U+ _8 X4 y
8 P, I) ?5 H* A# Y
************************************
9 V6 B: o! `0 F5 ^( I* C7 a; K7 p2 j% k6 i& j5 p4 c

) Q2 V' t1 u6 u" @0 y
$ D/ _7 I0 D- B3 }; K我从网上找到了一个疫情数据的统计表,刨去了比例计算的列,统计了其他数据里面首位出现的次数,粗粗比较一下两个数据的柱状图,感觉拟合是不错的。结论是疫情数据看不出有造假的痕迹。
: p6 e% H4 L. F: W. Y6 u. k$ e: A8 v  D  `

& L8 y9 K# r! v
+ }2 ^8 O5 \4 J. V1 ~6 O* L7 Y% L2 D原始数据表/ ]2 n* o2 w5 [8 i

4 [4 d, A( T+ @+ D: A
作者: 龙血树    时间: 2020-2-13 10:29
拟合如何应该有检验指标以及参照的critical value?
作者: togo    时间: 2020-2-13 11:51
龙血树 发表于 2020-2-12 18:29, Z$ j* N  D9 W, b! Y, T
拟合如何应该有检验指标以及参照的critical value?

1 h+ h& B1 t7 B8 e" h: V等明天上班后算一下correlation coefficient 和 p




欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) Powered by Discuz! X3.2