当前位置: 首页 > news >正文

肇庆市建设企业网站怎么样搜索引擎营销的概念

肇庆市建设企业网站怎么样,搜索引擎营销的概念,泉州惠安网站建设,织梦做中英文企业网站在这个项目中,我的目标是从科学论文图片中提取某些部分(标题、作者和摘要)。预期提取部分是科学论文中常见的部分,例如标题、摘要和作者。输入与最终结果。我的输入是将第一页纸转换成图像。最终结果是一个 txt 文件,其中包含标题、作者和摘要部分,如下图1和图2所示。我将…

在这个项目中,我的目标是从科学论文图片中提取某些部分(标题、作者和摘要)。预期提取部分是科学论文中常见的部分,例如标题、摘要和作者。输入与最终结果。我的输入是将第一页纸转换成图像。最终结果是一个 txt 文件,其中包含标题、作者和摘要部分,如下图1和图2所示。我将使用 UNet 来了解在哪里可以找到这些部分,然后将训练学到的信息传递到 OCR 中。完整的项目可以在这里找到。

图1 要提取的论文首页(图片格式) 

图2  提取得到的论文标题、作者和摘要

步骤说明

我从数据收集和科学论文开始。由于我只对标题、摘要和作者这三个部分感兴趣,所以我选择了多篇论文中的第一页。然后我将其转换pdf为图像,因为我的 UNet 模型只接受图像。我已将数据集分别按 80/20 分为训练集和测试集。接下来,我编写了一个 python 脚本mask.py来屏蔽图像。参见下图。 

图3:右侧是科学论文的原始首页,左侧是相应论文的mask.py结果。 

蒙版图像是一维图像,其中每个像素的值为 0(黑色)和 1(白色)。 0表示该像素不重要,1表示该像素重要。左侧图像的白色区域掩盖了重要的标题、摘要和作者部分。

我们将此掩模和原始图像传递给我们的 UNet 模型进行训练。 UNet 是一种流行的架构。您可以找到该架构的许多实现。我推荐Milesial的架构。如果您已经克隆了dagshub存储库,则无需克隆此存储库。您可以通过将工作目录更改为Unet-OCR/Pytorch-UNet然后运行来构建模型,train.py如下所示:

python train.py --epoch 6 --batch-size 1 --learning-rate 0.000001

显然您可以设置自己的参数。当然您也可以使用预训练模型MODEL.pth,您将在运行时获得:

dvc pull -r origin

确保按照下面的安装说明将 DVC 源设置为我的

http://www.yayakq.cn/news/121547/

相关文章:

  • 网站建设后台管理怎么进入建立一个做笔记的网站
  • 专业的标志设计公司一个网站两个域名 seo
  • 网站建设文献综述模板网页空间的利用要
  • 深圳电商网络网站建设网站建设技术网
  • 潍坊恒信建设集团网站百度广告价格
  • 网上帮别人做网站书法网站建站目标
  • 宁波seo网站排名优化公司微信网页版下载安装
  • 网站做信息流企业网络组网设计
  • 专业公司做网站仿虎嗅网 wordpress
  • 定州网站设计东莞seo建站投放
  • 做网站优化的话术wordpress 外部页面
  • .tech 域名 网站wordpress分类模板设置
  • 厦门网站建设模板wordpress设置文章显示图片
  • 南宁网站制作定制企业文化形象墙设计
  • 东莞网站建设哪里好村级网站建设 不断增强
  • 网站自动化采集wordpress 网易相册
  • 深圳网站制作建设世界互联网公司排名
  • 如何做营销型网站做模具的网站
  • 长沙网站开发培训网站开发后端指什么
  • 做网站收费 知乎视频网站很难建设吗
  • 潍坊网站建设哪家便宜网页制作动态模板
  • 徐州市住房建设局网站网站建设一般多少钱官网
  • 深圳网站开发赣州人才网招聘网
  • 织梦网站程序模板下载举报网站建设工作总结
  • 华为网站建设wordpress add_theme_support
  • 学院网站策划书广东购物网站建设价格
  • seo快速建站手机建立网站多少钱
  • 建站总结报告兖州网站建设多少钱
  • 家政服务网站建设代理ip免费软件
  • 南通专业做网站微商代运营公司团队