当前位置: 首页 > news >正文

襄阳网站建设xtehusinovation wordpress

襄阳网站建设xtehus,inovation wordpress,用什么网站可以做链接,游戏开发和软件开发哪个难摘要 这篇文档介绍了Hugging Face Hub的缓存系统。该系统旨在提供一个中央缓存,以便不同版本的文件可以被下载和缓存。缓存系统将文件组织成模型、数据集和空间等不同的目录,每个目录包含特定类型的文件。系统确保如果文件已经下载并更新,除非明确要求,否则不会再次下载。…

摘要

这篇文档介绍了Hugging Face Hub的缓存系统。该系统旨在提供一个中央缓存,以便不同版本的文件可以被下载和缓存。缓存系统将文件组织成模型、数据集和空间等不同的目录,每个目录包含特定类型的文件。系统确保如果文件已经下载并更新,除非明确要求,否则不会再次下载。

这篇文档还提到了一些关于缓存系统的具体信息,例如缓存目录的结构、文件夹中包含的文件类型以及如何检查和删除缓存。此外,文档还介绍了如何使用Hugging Face CLI工具来扫描和删除部分缓存。

从这篇文档中,你可以得到以下要点:

  • Hugging Face Hub的缓存系统旨在提供一个中央缓存,以便不同版本的文件可以被下载和缓存。
  • 缓存系统将文件组织成模型、数据集和空间等不同的目录,每个目录包含特定类型的文件。
  • 缓存系统使用符号链接来共享相同的文件,以节省磁盘空间。
  • 可以使用Hugging Face CLI工具来扫描和删除部分缓存,以释放磁盘空间。
  • 可以自定义缓存目录,并可以通过环境变量或参数来指定。
  • 缓存系统还支持检查和删除缓存中的文件。
  • 除了Hugging Face Hub的缓存系统之外,下游库还可以使用cached_assets_path()方法来缓存与HF相关的其他文件。
  • Hugging Face Hub的缓存系统使用符号链接来提高效率,但并非所有计算机都支持符号链接。
  • 可以使用huggingface-cli工具的scan-cache命令来扫描缓存并获取报告。
  • 可以使用huggingface-cli工具的delete-cache命令来删除部分缓存。

🚚🚒🚑🚎🚐🚌🛻🚙🛺🚕🚓🚗🚚🚒🚑🚎🚐🚌🛻🚙

了解缓存

Hugging Face Hub 缓存系统旨在成为依赖于 Hub 的库之间共享的中央缓存。在 v0.8.0 中进行了更新,以防止在不同版本之间重新下载相同的文件。

缓存系统设计如下:

<CACHE_DIR> 
├─ <MODELS> 
├─ <DATASETS> 
├─ <SPACES>

< CACHE_DIR > 通常是您用户的主目录。但是,您可以通过所有方法的 cache_dir 参数或指定 HF_HOME 或 HUGGINGFACE_HUB_CACHE 环境变量来自定义它。

模型、数据集和空间共享一个公共根目录。这些存储库中的每个存储库都包含存储库类型、命名空间(如果存在)和存储库名称:

<CACHE_DIR> 
├─ models--julien-c--EsperBERTo-small 
├─ models--lysandrejik--arxiv-nlp 
├─ models--bert-base-cased 
├─ datasets--glue 
├─ datasets--huggingface--DataMeasurementsFiles 
├─ spaces--dalle-mini--dalle-mini

所有文件现在都将从 Hub 下载到这些文件夹中。缓存确保如果文件已经存在且未更新,则不会下载两次;但是,如果已更新并且您要求获取最新文件,则会下载最新文件(同时保留以前的文件以防您再次需要它)。

为了实现这一点,所有文件夹都包含相同的框架:

<CACHE_DIR> 
├─ datasets--glue 
│ ├─ refs 
│ ├─ blobs 
│ ├─ snapshots 
...

每个文件夹都设计为包含以下内容:

Refs

refs 文件夹包含指示给定引用的最新修订的文件。例如,如果我们之前从存储库的主分支中获取了一个文件,则 refs 文件夹将包含一个名为 main 的文件,它本身将包含当前 head 的提交标识符。

如果 main 的最新提交标识符为 aaaaaa,则它将包含 aaaaaa。

如果相同的分支使用新的提交进行更新,该提交的标识符为 bbbbbb,则重新从该引用下载文件将更新 refs/main 文件以包含 bbbbbb。

Blobs

blobs 文件夹包含我们已经下载的实际文件。每个文件的名称都是它们的哈希值。

Snapshots

snapshots 文件夹包含到上述 blobs 的符号链接。它本身由多个文件夹组成:每个已知修订一个文件夹!

在上面的解释中,我们最初从 aaaaaa 修订中获取了一个文件,然后再从 bbbbbb 修订中获取了一个文件。在这种情况下,我们现在在快照文件夹中有两个文件夹:aaaaaa 和 bbbbbb。

在这些文件夹中,有活动符号链接,其名称为我们已下载的文件的名称。例如,如果我们在修订 aaaaaa 中下载了 README.md 文件,则将具有以下路径:

<CACHE_DIR>/<REPO_NAME>/snapshots/aaaaaa/README.md

那个 README.md 文件实际上是一个符号链接,链接到具有文件哈希值的 blob。

通过以这种方式创建框架,我们打开了文件共享机制:如果在修订 bbbbbb 中获取了相同的文件,则它将具有相同的哈希值,文件将不需要重新下载。

.no_exist(高级)

除了 blobs、refs 和 snapshots 文件夹外,您还可能在缓存中找到 .no_exist 文件夹。此文件夹跟踪您尝试下载但在 Hub 上不存在的文件。它的结构与快照文件夹相同,每个已知修订一个子文件夹:

<CACHE_DIR>/<REPO_NAME>/.no_exist/aaaaaa/config_that_does_not_exist.json

与快照文件夹不同,文件是简单的空文件(没有符号链接)。在此示例中,“config_that_does_not_exist.json” 文件在修订“aaaaaa” 上不存在于 Hub 上。由于它仅存储空文件,因此在磁盘使用方面,此文件夹可以忽略不计。

那么现在您可能会想知道,为什么这些信息甚至相关呢?在某些情况下,框架尝试加载模型的可选文件。保存可选文件的不存在使加载模型更快,因为它每个可选文件节省了 1 个 HTTP 调用。例如,在 transformers 中,每个 tokenizer 都可以支持其他文件。您第一次在计算机上加载 tokenizer 时,它将缓存哪些可选文件存在(哪些不存在),以使下一次初始化的加载时间更快。

要测试是否本地缓存了文件(而不进行任何 HTTP 请求),可以使用 try_to_load_from_cache() 助手。它将返回文件路径(如果存在并已缓存)、_CACHED_NO_EXIST 对象(如果已缓存不存在)或 None(如果我们不知道)。

http://www.yayakq.cn/news/680966/

相关文章:

  • 典型的网站开发人员优秀网站设计平台
  • 杭州免费建站英文版科技网站
  • 网站创建时间查询肖港网站开发
  • 网站怎么搭建电商入门视频教程免费
  • 大连网站专业制作和平区网站建设
  • 怎么查看网站是否被百度收录网站做管理后台需要知道什么
  • 万网做网站多少钱大良建设网站
  • 国内最大的网站制作公司网站改版有什么影响
  • 如何用模板做网站运城 网站建设
  • 做网站仓库报表系统上虞网站开发
  • 网站建设怎么设计更加吸引人天津做网站找津坤科技
  • 福州网站建设企业哪家好?公司电商网站开发方案
  • tk网站免费wordpress 免费博客平台
  • 网站图片翻页效果如何做网站推广营销技巧
  • 网站建设英文专业术语两台电脑一台做服务器 网站
  • 我要找人做网站的主页湖南网站建设价位
  • 做网站需要学那几个软件学校网站网站建设
  • 街道办的网站由谁做的做网站需要阿里云吗
  • 网站开发的毕业周记产品设计ppt
  • 肇庆市建设企业网站怎么样贵州省建设厅官网网站
  • 章丘公司做网站网站建设内容存储
  • 建设网站的协议高端品牌羽绒服前十名
  • 做网站的哪家好建工论坛网
  • 做视频网站需要哪些技术指标怎么制作网站模版
  • 山东建设工程招标网官方网站长沙微信网站制作
  • 网上怎么开平台做销售网站怎么发内容优化
  • 企业做网站得多少钱网站后台可以做两个管理系统么
  • 婴幼儿网站模板网站的建设不包括什么
  • 如何在图片上做网站水印图制作网站注册页面
  • 企业搭建网站的必要性哪些网站可以免费做简历