跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
折叠
品牌标识
  1. 主页
  2. 苍茫之境 (SOC)
  3. =.= 强化成功率的bug还不改么....

=.= 强化成功率的bug还不改么....

已定时 已固定 已锁定 已移动 苍茫之境 (SOC)
1服
23 帖子 14 发布者 236 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • P 离线
    P 离线
    Proton
    写于 最后由 编辑
    #21

    其实,在概率论中是专门有方法来进行模型验证的:
    假设在每次强化时系统会对一个随机变量进行采样,0为失败,1为成功,我们把这个随机变量称作X

    根据FOX的坚持,+4到+5的成功率是80%,则这个变量X必须符合p值为0.8的伯努利分布(Bernoulli distribution)

    即 X~Ber(0.8)

    现在假设我们有n个采样(即强化n次),记为x_1,x_2,...,x_n
    对于每一组数据集,令 X_avg = (sum {i from 1 to n} x_i) / n

    如果我们同时满足 n>20(及采样数大于20),np>5 (这里p=0.8,n>20的前提下已经自动满足了), n(1-p)>5 (算下来n>25),则根据中心极限定理, (X_avg - p) / sqrt(p*(1-p)/n) 符合参数(0,1)的正态分布

    即 (X_avg - p) / sqrt(p*(1-p)/n) ~ N(0,1)

    现在,我们要根据n次的强化的结果,来判断p=0.8的可信度,我们的结论可以有两种:
    H_0: 我们承认p=0.8
    H_1: FOX在坑我们(p不等于0.8)

    在我们得出H_0或H_1的结论后可能会有的错误也有两种:
    1类:我们说H_1,但事实是H_0
    2类:我们说H_0,但事实是H_1

    当然,1类错误是FOX不想看到的,我们定一类错误的概率为5%(即置信概率95%)

    则对应的置信区间为:
    G^ = {x_avg: abs((x_avg - p) / sqrt(p*(1-p)/n)) < z_97.5%}

    这里z_97.5%是正态分布在97.5%处的百分位数, 我帮大家查好表了: z_97.5%=1.96

    换言之,在多于25次强化的条件下,我们只要把 x_avg(n次强化中成功次数/n),p=0.8,n(强化次数)带入到abs((x_avg - p) / sqrt(p*(1-p)/n))中,如果结果小于1.96,FOX还是可信的,反之我们就要退货了(在一般工业里这批货就是次品,直接退回)

    17楼的n=12,采样数不足,大大们,放更多的数据吧
    当然,概率肯定不是绝对的,但是采样数越多,结果也会越准确

    [[i] 本帖最后由 Proton 于 2013-3-16 19:20 编辑 [/i]]

    1 条回复 最后回复
    0
    • 3 离线
      3 离线
      38465
      写于 最后由 编辑
      #22

      膜拜大神!:orz: :orz: :orz: :orz: :orz:

      1 条回复 最后回复
      0
      • 喂 离线
        喂 离线
        喂到碗里来
        写于 最后由 编辑
        #23

        XSK XSK XSK XSK XSK 高人在民间:orz: :orz: :orz: :orz:

        1 条回复 最后回复
        0
        回复
        • 在新帖中回复
        登录后回复
        • 从旧到新
        • 从新到旧
        • 最多赞同


        • 登录

        • 没有帐号? 注册

        • 登录或注册以进行搜索。
        © 2026 xyz-soft.com
        沪ICP备10216881号-1
        • 第一个帖子
          最后一个帖子
        0
        • 版块
        • 最新
        • 标签
        • 热门
        • 用户
        • 群组