当前位置: 首页 > news >正文

网站英文版怎么做中国机械加工网18易8下4拉hu

网站英文版怎么做,中国机械加工网18易8下4拉hu,iis5.1新建网站,设计说明万能模板300字代码开源链接#xff1a;GitHub - wujiekd/Predicting-used-car-prices: 阿里天池与Datawhale联合举办二手车价格预测比赛#xff1a;优胜奖方案代码总结 比赛介绍 赛题以二手车市场为背景#xff0c;要求选手预测二手汽车的交易价格#xff0c;这是一个典型的回归问题。…代码开源链接GitHub - wujiekd/Predicting-used-car-prices: 阿里天池与Datawhale联合举办二手车价格预测比赛优胜奖方案代码总结 比赛介绍 赛题以二手车市场为背景要求选手预测二手汽车的交易价格这是一个典型的回归问题。 其他具体流程可以看比赛官网。 数据处理 1、box-cox变换目标值“price”解决长尾分布。 2、删除与目标值无关的列例如“SaleID”“name”。这里可以挖掘一下“name”的频度作为新的特征。 3、异常点处理删除训练集特有的数据例如删除“seller”1的值。 4、缺失值处理分类特征填充众数连续特征填充平均值。 5、其他特别处理把取值无变化的列删掉。 6、异常值处理按照题目要求“power”位于0600因此把“power”600的值截断至600把notRepairedDamage的非数值的值替换为np.nan让模型自行处理。 特征工程 1、时间地区类 从“regDate”“creatDate”可以获得年、月、日等一系列的新特征然后做差可以获得使用年长和使用天数这些新特征。 “regionCode”没有保留。 因为尝试了一系列方法并且发现了可能会泄漏“price”因此最终没保留该特征。 2、分类特征 对可分类的连续特征进行分桶kilometer是已经分桶了。 然后对power和model进行了分桶。 使用分类特征“brand”、“model”、“kilometer”、“bodyType”、“fuelType”与“price”、“days”、“power”进行特征交叉。 交叉主要获得的是后者的总数、方差、最大值、最小值、平均数、众数、峰度等等 这里可以获得非常多的新特征挑选的时候直接使用lightgbm帮我们去选择特征一组组的放进去最终保留了以下特征。注意这里使用1/4的训练集进行挑选可以帮助我们更快的锁定真正Work的特征 model_power_sum,model_power_std, model_power_median, model_power_max, brand_price_max, brand_price_median, brand_price_sum, brand_price_std, model_days_sum,model_days_std, model_days_median, model_days_max, model_amount,model_price_max, model_price_median,model_price_min, model_price_sum, model_price_std, model_price_mean3、连续特征 使用了置信度排名靠前的匿名特征“v_0”、“v_3”与“price”进行交叉测试方法以上述一样效果并不理想。 因为都是匿名特征比较训练集和测试集分布分析完基本没什么问题并且它们在lightgbm的输出的重要性都是非常高的所以先暂且全部保留。 4、补充特征工程 主要是对输出重要度非常高的特征进行处理特征工程一期 对14个匿名特征使用乘法处理得到14*14个特征 使用sklearn的自动特征选择帮我们去筛选大概运行了半天的时间。 大致方法如下 from mlxtend.feature_selection import SequentialFeatureSelector as SFS from sklearn.linear_model import LinearRegression sfs SFS(LGBMRegressor(n_estimators 1000,objectivemae ),k_features50,forwardTrue,floatingFalse,cv 0)sfs.fit(X_data, Y_data) print(sfs.k_feature_names_)最终筛选得到 new3*3, new12*14, new2*14,new14*14特征工程二期 对14个匿名特征使用加法处理得到14*14个特征 这次不选择使用自动特征选择了因为运行实在太慢了笔记本耗不起。 使用的方法是删除相关性高的变量,把要删除的特征记录下来 大致方法如下剔除相关度0.95的 corr X_data.corr(methodspearman) feature_group list(itertools.combinations(corr.columns, 2)) print(feature_group)# 删除相关性高的变量,调试好直接去主函数进行剔除 def filter_corr(corr, cutoff0.7):cols []for i,j in feature_group:if corr.loc[i, j] cutoff:print(i,j,corr.loc[i, j])i_avg corr[i][corr[i] ! 1].mean()j_avg corr[j][corr[j] ! 1].mean()if i_avg j_avg:cols.append(i)else:cols.append(j)return set(cols)drop_cols filter_corr(corr, cutoff0.95) print(drop_cols)最终获得的应该删除的特征为 [new146, new136, new012, new911, v_3, new1110, new1014, new124, new34, new1111, new133, new81, new17, new1114, new813, v_8, v_0, new35, new29, new92, new011, new137, new811, new512, new1010, new138, new1113, new79, v_1, new74, new134, v_7, new56, new73, new910, new1112, new05, new413, new80, new07, new128, new108, new1314, new57, new27, v_4, v_10, new48, new814, new59, new913, new212, new58, new312, new010, new90, new111, new84, new118, new11, new105, new82, new61, new21, new112, new25, new014, new47, new149, new02, new41, new711, new1310, new63, new110, v_9, new36, new121, new93, new45, new129, new38, new08, new18, new16, new109, new54, new131, new37, new64, new67, new130, new114, new311, new68, new09, new214, new62, new1212, new712, new126, new1214, new410, new24, new60, new39, new28, new611, new310, new70, v_11, new13, new83, new1213, new19, new1013, new510, new22, new69, new710, new00, new117, new213, new111, new511, new46, new122, new44, new614, new01, new414, v_5, new411, v_6, new04, new15, new314, new210, new94, new26, new1414, new116, new91, new313, new1313, new106, new23, new211, new14, v_2, new513, new42, new06, new713, new89, new912, new013, new1012, new514, new610, new107, v_13, new52, new613, new914, new139, new147, new812, new33, new612, v_12, new144, new119, new127, new49, new412, new113, new03, new810, new1311, new78, new714, v_14, new1011, new148, new12]]特征工程三、四期 这两期的效果不明显为了不让特征冗余所以选择不添加这两期的特征具体的操作可以在feature处理的代码中看到。 5、神经网络的特征工程补充说明 以上特征工程处理都是针对于树模型来进行的接下来简单说明神经网络的数据预处理。 各位都知道由于NN的不可解释性可以生成大量的我们所不清楚的特征因此我们对于NN的数据预处理只要简单处理异常值以及缺失值。 大部分的方法都包含在以上针对树模型数据处理方法中重点讲述几个不同点 在对于“notRepairedDamage”的编码处理对于二分类的缺失值往往取其中间值。 在对于其他缺失值的填充在测试了效果后发现填充众数的效果比平均数更好因此均填充众数。 选择的模型 本次比赛我选择的是lightgbmcatboostneural network。 本来也想使用XGBoost的不过因为它需要使用二阶导因此目标函数没有MAE并且用于逼近的一些自定义函数效果也不理想因此没有选择使用它。 经过上述的数据预处理以及特征工程 树模型的输入有83个特征神经网络的输入有29个特征。 1、lightgbm和catboost 因为它们都是树模型因此我同时对这两个模型进行分析 第一lgb和cab的训练收敛速度非常快比同样参数的xgb快非常多。 第二它们可以处理缺失值计算取值的增益择优录取。 第三调整正则化系数均使用正则化防止过拟合。 第四降低学习率获得更小MAE的验证集预测输出。 第五调整早停轮数防止陷入过拟合或欠拟合。 第六均使用交叉验证使用十折交叉验证减小过拟合。 其他参数设置无明显上分迹象以代码为准不一一阐述。 查看本文全部内容欢迎访问天池技术圈官方地址二手车价格预测第十三名方案总结_天池技术圈-阿里云天池
http://www.yayakq.cn/news/2505/

相关文章:

  • 南京手机网站制作WordPress怎么给网页效果
  • 建设银行嘉兴分行官方网站支持wordpress的主机
  • 专门做软陶的网站凡客诚品官网怎么登录
  • 杭州建站价格安徽省建设行业安全协会网站
  • 网站排名推广WordPress注册登录框
  • 酒店招聘做的好的网站电商设计属于什么专业
  • asp简单购物网站源码律师做推广宣传的网站
  • 懒人建站seo流量是什么意思
  • 响应式网站无法做联盟广告怎么注册公司需要多少钱
  • 小米公司网站前建设分析深圳东门地铁站叫什么
  • 石家庄网站建设远策科技dede静态网站
  • 东莞网站设计智能 乐云践新楼市政策最新消息
  • 绍兴 网站建设目前国内做情趣最好的网站
  • 管理信息系统与网站建设有什么区别网络广告是什么
  • 精品网站建设费用 找磐石网络一流北京网站建设 公司
  • 如何建立自己的网站商城有名做网站公司
  • 常州市中大建设工程有限公司网站开发一个平台
  • 做网站都需要学什么语言新闻中心网页设计
  • 做网站多少钱 优帮云微信公众平台注册公众号
  • php电子商务网站开发实例做空机构的网站
  • 网站推广的企业湖南网站建设工作室
  • 永久建站平台solidworks永久免费版
  • 建一个网站怎么赚钱福田庆三下巴
  • 网站外链单页购物网站源码
  • 北京市住房和城乡建设厅官方网站建筑图纸怎样识图
  • 怎么创建网站建设什么网站做电子元器件
  • 广州seo网站推广优化青少年编程培训哪家好
  • 房地产网站模板库国内crm系统
  • 怎样制作一个app软件网站关键词快速排名优化
  • 网站建设基础问题企业网站建设智恒网络