当前位置: 首页 > news >正文

网站可以做信息抓取吗互联网网站设计

网站可以做信息抓取吗,互联网网站设计,网店网络推广方案,网站建设功能模块一、统计资料的基础概念与收集 (一)统计资料的定义与构成要素 定义:统计资料是指可用以推导出某项结论的一些事实或数字。 构成要素: 元素:研究对象的基本组成单位。 变量:关于元素的属性或特征&#…

一、统计资料的基础概念与收集

(一)统计资料的定义与构成要素

  1. 定义:统计资料是指可用以推导出某项结论的一些事实或数字。

  2. 构成要素

  • 元素:研究对象的基本组成单位。

  • 变量:关于元素的属性或特征,分为定量变量(结果可用数字表示)和定性变量(结果不可用数字表示)。

  • 统计数据:统计变量的取值。

(二)变量的测量尺度

  1. 定类尺度:按现象性质差异区分,如性别、种族,各类别平等无顺序。

  2. 定序尺度:按现象顺序差异区分,如教育程度(小学、中学、大学),有高低之分但差异不可计量。

  3. 定距尺度:按现象绝对数量差异区分,如温度(℃),可加减运算但无绝对零点。

  4. 定比尺度:有绝对零点,如身高、体重,可进行加减乘除运算。

(三)统计资料的收集方法

  1. 直接收集
  • 实验式收集:如科学管理理论中的工作定额实验。

  • 非实验式收集:通过调查、观测等方式,如问卷调查。

  1. 间接收集:引用二手数据,如国家统计局公报、年鉴、专业数据库。

(四)统计资料的误差来源

  1. 抽样误差:由样本推断总体时产生的误差,影响因素包括样本量、抽样方法、抽样组织形式。

  2. 非抽样误差

  • 测量误差:如调查中受访者回答错误。

  • 数据处理误差:录入错误、计算错误等。

  • 其他:如缺失数据、虚假数据(如 2016 年美国大选预测中特朗普支持者沉默或说假话)。

(五)典型案例:2016 年美国大选预测失败

  • 原因分析:样本点分布不均匀、缺失数据、失真数据(部分支持者沉默或说谎)、未考虑关键变量(如 “黑客门” 影响)。

二、统计资料的整理

(一)整理目的与统计表类型

  1. 目的:将原始资料加工整理,便于发现数据规律性,为进一步分析做准备。

  2. 统计表类型

  • 序列表:按时间或地域排列,如历年国家公务员考试报名情况。

  • 分类表

    • 定性分布表:按性质分类,如 2023 年分区域就业人员工资表。

    • 频数分布表:按数值分类,记录各组频数,如学生成绩分布。

(二)频数分布表的制作

  1. 步骤
  • 确定组数 k(100 个数据以内分 5-10 组,超过 100 分 10-15 组)。

  • 计算组距 h=(Xmax-Xmin)/k。

  • 确定各组上下限(第一组下界 = Xmin-h/2)。

  • 归并数据,统计频数。

  1. 案例:200 个学生高等数学成绩(组距 10):
40-49:1人,50-59:14人,60-69:55人,70-79:58人,80-89:52人,90-99:17人,100-109:3人

(三)统计图的类型与应用

  1. 线图:展示时间序列数据趋势,如国内生产总值与进出口总额变化。

  2. 条形图:比较不同类别数据,如 2011 年房企销售金额 TOP10。

  3. 圆饼图:展示部分与整体关系,如武汉市 2003 年工业企业单位数占比。

  4. 散点图:分析双变量关系,如国内生产总值与进出口总额的相关性。

  5. 面积图:展示数据随时间的累积变化,如音乐类型流行趋势。

  6. 两轴折线图:同时展示两组数据,如 2013 年全国城市平均工资与排名。

(四)双变量二元分布表

  1. 定义:记录两变量分类组合的频数,如飞行错误状态与原因的二元分布:
\| 错误原因 | R(规范) | M(仪表) | O(其它) | 合计 |\|----------|--------|--------|--------|------|\| T(起飞)  | 4      | 8      | 8      | 20   |\| C(巡航)  | 2      | 3      | 4      | 9    |\| L(着陆)  | 7      | 3      | 6      | 16   |\| 合计     | 13     | 18     | 14     | 45   |
  1. 边际分布:表中最右列和最下行分别为两变量的单变量分布(如飞行状态的边际分布:T=20, C=9, L=16)。

  2. 关联分析:通过二元分布分析两变量关系,如起飞时易发生规范和仪表错误,着陆时规范错误较少。

三、统计资料的综合分析

(一)表示集中位置的特征数

  1. 算术平均数(x̄)
  • 公式:未分组数据 x̄=ΣXi/n,分组数据 x̄=Σ(fiXi)/Σfi。

  • 性质:离差之和为零,离差平方和最小。

  • 案例:125 名新生体重平均 = 6949/125=55.592kg。

  1. 几何平均数(G)
  • 适用:环比数据(增长率、发展速度)。

  • 公式:G=ⁿ√(r1×r2×…×rn)。

  • 案例:天津工业总产值年均增长率:

2001-2005年环比发展速度:114.0,119.6,124.1,131.0,120.8G=⁵√(114×119.6×124.1×131×120.8)=121.8,年均增长率=21.8%
  1. 调和平均数(H)
  • 适用:相对变化率(速度、价格)。

  • 公式:H=n/(1/R1+1/R2+…+1/Rn)。

  • 案例:往返速度 20km/h 和 30km/h,平均速度 H=2/(1/20+1/30)=24km/h。

  1. 众数(Mode):频数最大的值,可能不唯一,如成绩分布中 70-79 分频数 58 为众数。

  2. 中位数(Me):排序后中间位置的值,n 奇数时 Me=X (n+1)/2,n 偶数时 Me=(Xn/2+Xn/2+1)/2。

  • 案例:12 个月薪数据排序后,Me=(2390+2420)/2=2405。
  1. 百分位数(P)
  • 计算:i=np%,i 非整数时向上取整,i 整数时取第 i 和 i+1 项平均值。

  • 案例:12 个报价数据第 80 百分位数:i=12×80%=9.6→第 10 项 = 11。

(二)表示变异程度的特征数

  1. 极差(R):R=Xmax-Xmin,如报价数据 R=15.9-3=12.9。

  2. 四分位间距(IQR):IQR=Q3-Q1,如月薪数据 Q1=2365, Q3=2500, IQR=135。

  3. 平均差(MD):MD=Σ|Xi-x̄|/n,分组数据 MD=Σ(fi|Xi-x̄|)/n。

  • 案例:职工工资平均差 = 3700/180≈20.6 元。
  1. 方差与标准差
  • 总体方差 σ²=Σ(Xi-μ)²/N,样本方差 s²=Σ(Xi-x̄)²/(n-1)。

  • 总体标准差 σ=√σ²,样本标准差 s=√s²。

  • 案例:14 个产品数据方差 = 0.002<0.005,机器无需关闭。

  1. 变异系数(CV):CV=s/x̄×100%,消除量纲影响。
  • 案例:A 班成绩 x̄=80, s=10, CV=12.5%;B 班 x̄=40, s=8, CV=20%,A 班更整齐。
  1. 标准分数(z):z=(Xi-x̄)/s,表示数据相对位置。
  • 案例:网购金额标准分数用于衡量个体偏离均值的程度。

(三)表示偏倚程度的特征数

  1. 偏度系数(SK)
  • 公式:SK=Σ(Xi-x̄)³/[(n-1) s³]。

  • 意义:SK=0 对称,SK>0 右偏,SK<0 左偏。

  1. 峰度系数(K)
  • 公式:K=Σ(Xi-x̄)⁴/[(n-1) s⁴]-3。

  • 意义:K=0 标准正态,K>0 尖峰,K<0 扁平。

(四)五数概括法与盒形图

  1. 五数概括:最小值、Q1、中位数、Q3、最大值。
  • 案例:月薪数据五数概括:2210, 2365, 2405, 2500, 2825。
  1. 盒形图绘制
  • 画方盒(Q1-Q3),中间垂线为中位数。

  • 计算界限:Q1-1.5IQR 和 Q3+1.5IQR,以外为异常值。

  • 须线连接界限内的最值,异常值用 “*” 标出。

四、做题技巧与注意事项

(一)集中趋势特征数选择

  • 数据对称:算术平均数最佳。

  • 环比数据:几何平均数。

  • 极端值影响大:中位数。

  • 相对变化率:调和平均数。

(二)变异程度分析步骤

  1. 先算极差,快速了解数据范围。

  2. 计算四分位间距,排除极端值影响。

  3. 计算方差 / 标准差,衡量数据离散程度。

  4. 比较变异系数,用于不同数据集的相对变异比较。

(三)双变量分析要点

  1. 绘制散点图,初步判断相关性。

  2. 整理二元分布表,分析边际分布与关联关系。

  3. 结合实际背景,解释变量间的潜在联系。

(四)常见错误规避

  • 误用算术平均数于环比数据(如直接平均增长率)。

  • 忽略异常值对平均数的影响。

  • 未检验数据分布假设(如使用正态分布统计量前未检查偏度峰度)。

五、公式速查表

统计量 公式
算术平均数 x̄=ΣXi/n(未分组),x̄=Σ(fiXi)/Σfi(分组)
几何平均数 G=ⁿ√(r1×r2×…×rn)
调和平均数 H=n/(1/R1+1/R2+…+1/Rn)
中位数 n 奇数:Me=X (n+1)/2,n 偶数:Me=(Xn/2+Xn/2+1)/2
方差 总体 σ²=Σ(Xi-μ)²/N,样本 s²=Σ(Xi-x̄)²/(n-1)
标准差 σ=√σ²,s=√s²
变异系数 CV=s/x̄×100%
标准分数 z=(Xi-x̄)/s
四分位间距 IQR=Q3-Q1
偏度系数 SK=Σ(Xi-x̄)³/[(n-1)s³]
峰度系数 K=Σ(Xi-x̄)⁴/[(n-1)s⁴]-3
kmjOuO
http://www.yayakq.cn/news/638962/

相关文章:

  • 重庆大型网站建设百度上开个网站怎么做
  • 网站扫二维码怎么做的阿里云网站建设里云官网模版
  • 天津河北做网站的公司排名视频类网站建设的成果
  • 使用apmserv本地搭建多个网站网站 文章排版
  • 东莞公司网站制作要多少钱财佰通突然做网站维护
  • 哪个网站的ps元素好河南电力建设工程公司网站
  • 网站名称和域名有关系亲子网 网站正在建设中
  • 适合新手模仿的网站展厅设计服务商
  • 渌口区市政建设局网站app拉新平台有哪些
  • 创世网站建设公司Ie8网站后台编辑文章
  • 中国建设协会官方网站哪个网站可以做拼图
  • 网站基础建设搜索引擎优化要考虑哪些方面
  • 做企业网站都有什么平台做网站需要会什么
  • 企业网站备案需要多久江西省住房和城乡建设厅官方网站
  • 中国建设银行大学生招聘信息网站账号权重查询入口
  • 宿迁建设局网站a类证查询如何建设一个简易网站
  • 建网站用什么软件中国购物网站排名
  • 网站建设logo要什么格式南海建设工程交易网站
  • 怎么做网站扩展做快递网站制作
  • 仿站小工具使用教程html5是什么
  • 东莞网站建设公司注册WordPress建站 seo
  • 响应式网站的优点石家庄招标网官方网站
  • 成都品牌建设网站公司微商城网站建设
  • 网站开发用的开源系统成都便宜网站建设公司
  • 免费的行情软件网站下载免费wordpress ent 主题
  • 网站设计培训学院无忧seo
  • 网站编辑外包网站开发 旅游
  • 网站分类查询天津免费建站
  • 赤峰住房城乡建设部网站wordpress免费淘宝客主题
  • 海南省住房建设厅网站首页北京所有公司名单