当前位置: 首页 > news >正文

国外校园网站网站建设发展历程站长平台官网

国外校园网站网站建设发展历程,站长平台官网,兰州最好的网站开发公司,软件开发需求发布平台github项目--crawl4ai 输出html输出markdown格式输出结构化数据与BeautifulSoup的对比 crawl4ai github上这个项目,没记错的话,昨天涨了3000多的star,今天又新增2000star。一款抓取和解析工具,简单写个demo感受下 这里我们使用cra…

github项目--crawl4ai

    • 输出html
    • 输出markdown格式
    • 输出结构化数据
    • 与BeautifulSoup的对比

crawl4ai github上这个项目,没记错的话,昨天涨了3000多的star,今天又新增2000star。一款抓取和解析工具,简单写个demo感受下

这里我们使用crawl4ai抓取github每日趋势,每天通过邮件发到自己邮箱

输出html

async def github_trend_html():async with AsyncWebCrawler(verbose=True) as crawler:result = await crawler.arun(url="https://github.com/trending",)assert result.success, "github 数据抓取失败"return result.cleaned_html

输出的还是html,但对原始页面做了处理,比如移除不相关元素,动态元素,简化html结构。

在这里插入图片描述

输出markdown格式

async def github_trend_md():async with AsyncWebCrawler(verbose=True) as crawler:result = await crawler.arun(url="https://github.com/trending",)assert result.success, "github 数据抓取失败"return result.markdown

用md软件打开看一下效果:

在这里插入图片描述

输出结构化数据

async def github_trend_json():schema = {"name": "Github trending","baseSelector": ".Box-row","fields": [{"name": "repository","selector": ".lh-condensed a[href]","type": "text",},{"name": "description","selector": "p","type": "text",},{"name": "lang","type": "text","selector": "span[itemprop='programmingLanguage']",},{"name": "stars","type": "text","selector": "a[href*='/stargazers']"},{"name": "today_star","type": "text","selector": "span.float-sm-right",},],}extraction_strategy = JsonCssExtractionStrategy(schema, verbose=True)async with AsyncWebCrawler(verbose=True) as crawler:result = await crawler.arun(url="https://github.com/trending",extraction_strategy=extraction_strategy,bypass_cache=True,)assert result.success, "github 数据抓取失败"github_trending_json = json.loads(result.extracted_content)for ele in github_trending_json:ele['repository'] = 'https://github.com/' + ''.join(ele['repository'].split())return github_trending_json

与前两种不同的是,结构化输出需要通过自定义schema来定义解析的数据结构。控制台按照我们定义的schema输出了标准了JSON数据。将数据放入html模版,通过邮件每日发送。看一下邮件显示:

在这里插入图片描述

与BeautifulSoup的对比

记得第一次用soup的时候,对于只用过Java sax解析xml的我来说,soup真的太方便了。今天简单测试了下crawl4ai,和soup相比

  • crawl4ai数据采集分析更方便
  • soup需要配合使用request进行网页抓取,BeautifulSoup负责html解析
  • html解析有点类似,都是通过CSS选择器,但crawl4ai通过定义schema,解析更方便
  • 数据解析方面,crawl4ai除了提供了markdown和简化版的html,还提供了通过集成OpenAI提取结构化数据的能力(尚未体验)
http://www.yayakq.cn/news/721576/

相关文章:

  • 消费返利系统网站建设南京网站设计机构
  • 不限空间的免费网站企业网站需要注意什么
  • 网站维护是谁做的网络平台代理赚流水
  • 网站建设 科技公司网线的制作步骤
  • 网站建设宣传语泰安市景区建设网站
  • 优化网站服务wordpress博客评论删除
  • c 语言可以做网站吗简单电子商务网站开发
  • 长春seo整站优化湖北省城乡建设厅证书查询
  • WordPress网站登录邮件提醒照片素材库网站免费
  • dw网页设计心得体会长沙网站推广和优化
  • 免费博客网站全球搜钻是什么公司
  • 做外贸的网站有那些黄冈app下载推广平台
  • 仙霞新村街道网站建设重庆网站建设只选承越
  • 河南省建设厅信息网站房网
  • 南和网站建设公司西大路网站建设公司
  • 常用的网站流量统计软件有哪些网站改版后 搜索不到
  • 企业门户网站运营推广响应式网站跟自适应网站的区别
  • 怎样提高网站浏览量wordpress 主题 引入js
  • 网页设计与制作建立站点实践报告做网站大概什么价位
  • 周口网站设计免费行情网站app页面
  • 找平面图的网站免费WordPress的产品展示
  • 网站建设都需要哪些材料公司内部网络怎么建立
  • 潍坊网站建设方案书网络工程是什么
  • 网站建设包含项目中山网站方案
  • 运营个网站需要什么条件微信公众平台小程序管理
  • 一个网站只有一个核心关键词上海做门户网站的公司
  • 宁津做网站北京市网站公司网站
  • 免费网站制作下载淮南吧
  • 唐山网站制作app公司电子商务平台和企业网站建设和维护工作管理办法
  • 做外贸网站效果图工程公司起名字大全免费