当前位置: 首页 > news >正文

网站迁移教材赵县住房和城乡建设局网站首页

网站迁移教材,赵县住房和城乡建设局网站首页,wordpress动态默认参数,建设部科技项目申报网站继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业,再谈谈大语言模型预训练数据集的优化思路。 1. GPT2使用的数据集是WebText,该数据集大概40GB,由OpenAI创建,主要内…

继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业,再谈谈大语言模型预训练数据集的优化思路。

1. GPT2使用的数据集是WebText,该数据集大概40GB,由OpenAI创建,主要内容爬取自Reddit平台的出站网络链接对应的网站,每个链接要至少有三个赞,以保障数据质量。

2. 但是WebText数据集不公开,仅OpenAI自己能使用,于是OpenWebText数据集(OpenWebText数据集)应运而生,该数据集搜集超过23亿个链接,大于WebText数据集。

3. GPT3的训练使用了Common Crawl、WebText2、维基百科、电子书也以及一些多种来源的网络文本、新闻网站数据集等(纽约时报的新闻大概也被爬取了,所以有了后来的诉讼),大概570GB。

4. 以下是llama开源模型早期版本的预训练数据集来源,来源于多个数据集,大概4.8TB,比GPT3多了Github、ArXiv(开放的学术论文分享平台,Kaggle上也有它的数据集)还有StackExchange。

5. 写到这里可以说明为什么说互联网的数据没有被耗尽:

  •  许多网站的数据是不可爬取的,有研究认为类似Twitter、Faceboo等这种网站可爬取的数据只占20%左右
  • 封闭APP的数据不可爬取,以中文互联网为例,现在APP的数据要远大于PC互联网数据了,最典型比如微信、小红书等这些APP的数据非常多、非常有价值,但是无法获取
  • 互联网数据在实时更新,不断有新的数据进来

6. 进一步,企业的私有数据没有被用来训练。

7. 再进一步,物理世界的许多数据并没有被捕获,比如线下大会的视频如果没有传到网络就无法被纳入训练集。智能汽车将会提供超大量的数据,未来AR眼镜如果能普及将会是一个更大的数据来源。

8. 所以预训练用的数据集其实还可以优化,还有以下思路可以参考:

  • 预训练的数据集来源优化,获取更高质量的数据集
  • 模型训练的时候为了节省资源会对原数据进行压缩降维,如果数据集高质量点但小点,可以给减小压缩空间

参考来源:
大语言模型(LLM)预训练数据集调研分析

大模型训练数据集分析:多样性和挑战-CSDN博客

http://www.yayakq.cn/news/252764/

相关文章:

  • 网站设计就业前景营销型网站的建设和运营
  • 东莞seo网站建设公司wordpress设置主从库
  • 个人免费网站建站关键词安次区建设局网站
  • 网站建设目录网站开发公司排行榜
  • 杭州网站建设招聘网苏州有哪些互联网公司
  • 国外以紫色为背景的网站vue网站开发注意事项
  • 凡科建网站怎么做阴影立体网络营销推广的核心是什么
  • 中小企业网站建设客户需求调查问卷网站建设与维护管理办法
  • 营销型企业网站功能织梦做的网站页面打不开
  • 宁波制作网站的公司wordpress百家主题
  • 网站logo设计在线生成响水企业做网站多少钱
  • php网站开发实例建筑培训中心
  • 丽水市住房和城建建设局网站基于asp的网站设计与实现
  • 网站名查询wordpress 获取随机文章
  • 响应式网站开发的物流网站建设相关的问题
  • php就是做网站吗网页设计成品源代码
  • 北京住房和城乡建设部网站一个主机可以建设多少个网站
  • 重庆网站排名优化教程东莞手机微信网站制作
  • 苏州专业网站seo推广北京网站建设 专业10年
  • 特微网站首页wordpress淘宝商城模板
  • 做家具城网站的意义如何建立一个网站并运行
  • 杭州旅游 网站建设哪些网站是用vue做的
  • 课程网站建设的基本原理常用的网站开发语言
  • 网站建设的公司价格学习html5的网站
  • 织梦网站地图生成赣州人才网下载
  • 麦包包的网站建设越秀手机网站建设
  • 网站开发毕业答辩演讲稿范文奥鹏网页设计与网站建设
  • 网站建设在会计里算什么资产常用于做网站的软件
  • 国内ui网站有哪些淘宝网站的建设目的是什么意思
  • 网站源码怎么上传如何自己做一个app软件