当前位置: 首页 > news >正文

dw做aspx网站大连工程信息招标网

dw做aspx网站,大连工程信息招标网,英文网站建设目的,广州微信网站建设效果文章目录 案例:宝可梦、数码宝贝分类器第一步:需要定义一个含有未知数的function第二步:loss of a function如何Sample Training Examples > 如何抽样可以得到一个较好的结果如何权衡模型的复杂程度 Tradeoff of Model Complexity todo 这…

文章目录

    • 案例:宝可梦、数码宝贝分类器
      • 第一步:需要定义一个含有未知数的function
      • 第二步:loss of a function
      • 如何Sample Training Examples => 如何抽样可以得到一个较好的结果
        • 如何权衡模型的复杂程度 Tradeoff of Model Complexity

todo
这里主要讲了如果挑选训练数据集,后续的内容在,等之后看到这里再补充笔记

案例:宝可梦、数码宝贝分类器

案例:需要找一个函数,输入一个动物,输出类别宝可梦还是数码宝贝

第一步:需要定义一个含有未知数的function

先对资料做一些观察,想象一下function应该长什么样。

观察发现①数码宝贝的线条比较复杂②宝可梦的线条比较简单 => 根据线条风格区分

使用一些工具包做Edge detection边缘检测后,将图片隐射成黑白,白色的为边缘,输出白色像素点的个数。白色像素点的个数超过某个阈值,说明线条复杂。

这个阈值h是一个未知参数,我们先假设函数只有这一个未知参数。

第二步:loss of a function

首先需要数据集D,loss根据数据集D算出

1.有数据集 D = { ( x 1 , y ^ 1 ) , . . . . , ( x n , y ^ n ) } D=\{(x^1,\hat{y}^1),....,(x^n,\hat{y}^n)\} D={(x1,y^1),....,(xn,y^n)},n表示第几个资料

x x x:输入宝可梦或者数码宝贝的图片

y ^ \hat y y^: 该图是宝可梦还是数码宝贝

2.先随机给个阈值h,然后根据资料D计算参数h的loss

数据集的损失L(h,D):输入阈值h和数据集D,输出错误率

每一笔资料的loss l ( h , x n , y ^ n ) ) l(h,x^n,\hat{y}^n)) l(h,xn,y^n)):h是f的参数,输入xn,输出yn,比较model值与真实值是否相等,不相等就输出0,相等就输出1

Error rate 很直观。也可以选择使用cross-entropy

如何Sample Training Examples => 如何抽样可以得到一个较好的结果

理想情况:假设我们可以收集所有的宝可梦和数码宝贝,其集合为 D a l l D_{all} Dall。我们找到了最好的阈值 h a l l h^{all} hall, h a l l = a r g min ⁡ h L ( h , D a l l ) h^{all} = arg\min_hL(h,D_{all}) hall=argminhL(h,Dall)

这里的损失函数不可以微分,所以没办法用梯度下降方法。但是h的个数其实是有限的,可以通过穷举的方法找出使损失函数值最小的阈值h。

事实情况:我们只能收集到 D a l l D_{all} Dall中的部分案例 D t r a i n D_{train} Dtrain(从all中随机抽样出来的案例,案例符合独立同分布), D t r a i n = { ( x 1 , y ^ 1 ) , . . . . , ( x n , y ^ n ) } D_{train}=\{(x^1,\hat{y}^1),....,(x^n,\hat{y}^n)\} Dtrain={(x1,y^1),....,(xn,y^n)}。可以找到 h t r a i n = a r g min ⁡ h L ( h , D t r a i n ) h^{train} = arg\min_hL(h,D_{train}) htrain=argminhL(h,Dtrain)

希望现实情况的 h t r a i n h^{train} htrain在所有数据集中的表现和 h a l l h^{all} hall在所有数据集中的表现越接近越好。

不同的 D t r a i n D_{train} Dtrain训练出来出来的 h t r a i n h^{train} htrain不同,这里 h t r a i n h^{train} htrain在所有数据集中的表现很依赖训练h时Sample到的数据集。

问题:我们希望 L ( h t r a i n , D a l l ) − L ( h a l l , D a l l ) ≤ δ L(h^{train},D_{all}) - L(h^{all},D_{all}) \leq \delta L(htrain,Dall)L(hall,Dall)δ,什么样的 D t r a i n D_{train} Dtrain训练出来的 h t r a i n h^{train} htrain可以满足这个期望?

h a l l h^{all} hall是从 D a l l D_{all} Dall中找出来让 L ( h a l l , D a l l ) L(h^{all},D_{all}) L(hall,Dall)最小的值,所以 L ( h t r a i n , D a l l ) L(h^{train},D_{all}) L(htrain,Dall)是大于等于 L ( h a l l , D a l l ) L(h^{all},D_{all}) L(hall,Dall)

不过 L ( h t r a i n , D t r a i n ) L(h^{train},D_{train}) L(htrain,Dtrain)是有可能小于 L ( h a l l , D a l l ) L(h^{all},D_{all}) L(hall,Dall)

Smaple出来的资料 D t r a i n D_{train} Dtrain,穷举所有可能的h(从1到10000),任意h满足 ∣ L ( h , D t r a i n ) − L ( h , D a l l ) ∣ ≤ δ 2 |L(h,D_{train}) - L(h,D_{all})| \leq \frac{\delta}{2} L(h,Dtrain)L(h,Dall)2δ,理想和显示就会很接近。 => D t r a i n D_{train} Dtrain D a l l D_{all} Dall分布很像。

问题:有多大的可能性Sample出来一个bad D t r a i n D_{train} Dtrain

  • 以下的讨论与模型无关
  • 以下的讨论对资料本来的分布无假设
  • 以下的讨论可以使用任何loss function

每一个坏的资料,背后都存在一个h使得 ∣ L ( h , D t r a i n ) − L ( h , D a l l ) ∣ > ϵ |L(h,D_{train}) - L(h,D_{all})| \gt \epsilon L(h,Dtrain)L(h,Dall)>ϵ => P ( D t r a i n i s b a d ) = ∪ h ∈ H P ( D t r a i n i s b a d d u e t o h ≤ ∑ h ∈ H P ( D t r a i n i s b a d d u e t o h ) P(D_{train} \ is \ bad) = \cup_{h \in \Eta} P(D_{train} \ is \ bad \ due \ to \ h\leq \sum_{h\in \Eta} P(D_{train} \ is \ bad \ due \ to \ h) P(Dtrain is bad)=hHP(Dtrain is bad due to hhHP(Dtrain is bad due to h)重叠的地方会多次被计算

由最后的式子可知, ∣ H ∣ |H| H是候选项h的数量,N是所选数据集 D t r a i n D_{train} Dtrain里资料的个数

  1. 增加训练样本数量,N越大 D t r a i n D_{train} Dtrain越接近 D a l l D_{all} Dall P ( D t r a i n i s b a d ) P(D_{train} \ is \ bad) P(Dtrain is bad)的概率越小。
  2. 较少模型复杂性,|H|候选项的数目越小,较少模型的复杂程度, P ( D t r a i n i s b a d ) P(D_{train} \ is \ bad) P(Dtrain is bad)的概率越小。

其实这些理论只是用来试图解释原理,但并没有人用在实际数据集中真正计算,因为计算的结果往往会大于1

最小样本量应该满足以下式子

问题:本案例中h的取值是离散的,所以 ∣ H ∣ |H| H是个确定值。当h取值是连续的, ∣ H ∣ |H| H是一个无穷 ,那 P ( D t r a i n i s b a d ) P(D_{train} \ is \ bad) P(Dtrain is bad)永远小于无穷大,那式子还有什么意思?

回答

  1. 在计算机中没有真正连续的东西,用计算机中的bit描述数值时,精度终究是有限的(所以就不是无穷的)。
  2. VC-dimension另外一种计算参数是连续时模型的复杂程度
如何权衡模型的复杂程度 Tradeoff of Model Complexity

理论上,理想与现实接近的方法

  1. 增加训练样本数量,N越大 D t r a i n D_{train} Dtrain越接近 D a l l D_{all} Dall P ( D t r a i n i s b a d ) P(D_{train} \ is \ bad) P(Dtrain is bad)的概率越小。
  2. 较少模型复杂性,|H|候选项的数目越小,较少模型的复杂程度, P ( D t r a i n i s b a d ) P(D_{train} \ is \ bad) P(Dtrain is bad)的概率越小。

问题:|H|太小会导致什么问题?模型复杂程度太小会导致什么问题?

|H|太小,能选择的h数量太少,可能找不到使 L ( h , D a l l ) L(h,D_{all}) L(h,Dall)最小的h。(大海捞针,针不在大海)

收集数据集中案例的个数N通常不是我们能控制的,可能想采用小的|H|来让理想和现实更接近。

=> 小的|H|会导致可选择的参数h数量变少,导致最优的 h a l l h^{all} hall在可选范围之外,也就是说得到一个较大的 L ( h a l l , D a l l ) L(h^{all},D_{all}) L(hall,Dall)

http://www.yayakq.cn/news/706115/

相关文章:

  • 东莞网站设计知名 乐云践新蜂聘网360建筑网
  • 淘宝联盟登记新网站net域名网站
  • wordpress站点名称的影响seo优化网站教程百度
  • 学做包子馒头的网站ip网域名查询
  • 做网站编辑要会什么中国造价网官网
  • 网站制作软件 aws怎么制作自己的网页
  • 临沂seo建站江阴服装外贸现状
  • 网站部分乱码html5做网站导航
  • 成品网站货源入口浙江最新通知今天
  • 兰州网站搜索引擎优化健身器材网站源码
  • 网站托管目的是什么动漫制作专业就业方向和前景
  • 免费行情软件app网站大全下载有图片教做美食的网站
  • 淘宝客网站里面catid=16网络推广技巧培训
  • 站外推广免费网站东莞家居网站建设
  • 济南品质网站建设费用篮网目前排名
  • 安全教育网站建设背景微信开发者工具官方文档
  • 保定网站建设方案托管平台开发的基本流程
  • 抓取网站后台齐齐哈尔市建设网站
  • 防制网站怎么做网站 三合一
  • 网站备案抽查英文外贸网站设计
  • 网站建设总体设计德尔普的网站建设的价格
  • c2c网站开发毕业设计code snippet wordpress
  • 做侵权网站用哪里的服务器稳wordpress 怎么切换主题
  • 长春企业网站如何建设电商商城系统免费版下载
  • 电脑网站拦截怎么解除影楼网站模版
  • 佛山家居企业网站建设做psd模板下载网站
  • 网站备案每年审吗上海闵行做网站
  • 定远县建设局网站网络营销教案ppt
  • 网站设计分类网站到期不续费
  • 网站设计找谁做长春二道网站建设