其实,在概率论中是专门有方法来进行模型验证的:
假设在每次强化时系统会对一个随机变量进行采样,0为失败,1为成功,我们把这个随机变量称作X
根据FOX的坚持,+4到+5的成功率是80%,则这个变量X必须符合p值为0.8的伯努利分布(Bernoulli distribution)
即 X~Ber(0.8)
现在假设我们有n个采样(即强化n次),记为x_1,x_2,...,x_n
对于每一组数据集,令 X_avg = (sum {i from 1 to n} x_i) / n
如果我们同时满足 n>20(及采样数大于20),np>5 (这里p=0.8,n>20的前提下已经自动满足了), n(1-p)>5 (算下来n>25),则根据中心极限定理, (X_avg - p) / sqrt(p*(1-p)/n) 符合参数(0,1)的正态分布
即 (X_avg - p) / sqrt(p*(1-p)/n) ~ N(0,1)
现在,我们要根据n次的强化的结果,来判断p=0.8的可信度,我们的结论可以有两种:
H_0: 我们承认p=0.8
H_1: FOX在坑我们(p不等于0.8)
在我们得出H_0或H_1的结论后可能会有的错误也有两种:
1类:我们说H_1,但事实是H_0
2类:我们说H_0,但事实是H_1
当然,1类错误是FOX不想看到的,我们定一类错误的概率为5%(即置信概率95%)
则对应的置信区间为:
G^ = {x_avg: abs((x_avg - p) / sqrt(p*(1-p)/n)) < z_97.5%}
这里z_97.5%是正态分布在97.5%处的百分位数, 我帮大家查好表了: z_97.5%=1.96
换言之,在多于25次强化的条件下,我们只要把 x_avg(n次强化中成功次数/n),p=0.8,n(强化次数)带入到abs((x_avg - p) / sqrt(p*(1-p)/n))中,如果结果小于1.96,FOX还是可信的,反之我们就要退货了(在一般工业里这批货就是次品,直接退回)
17楼的n=12,采样数不足,大大们,放更多的数据吧
当然,概率肯定不是绝对的,但是采样数越多,结果也会越准确
[ 本帖最后由 Proton 于 2013-3-16 19:20 编辑 ]