2020.07.12
复赛开始的前一天数据就已经放出来了,下载到服务器以后还是像往常一样将测试集所有订单绘制出来一张张观察一下。
复赛A榜的测试集一共有219条订单,和初赛A、B榜的订单量几乎一致,经过观察以后发现复赛订单有了很大的变化,就是大量订单只截取了中间一段的数据,这种订单在初赛是比较少数的。
至于训练集的话相对初赛的数据多了600Mb,按照官方的说法是在初赛数据集的基础上追加了一部分。
2020.07.13
使用和初赛相同的方法处理数据提取特征,不过数据清洗的时候没有对距离初始港的距离进行订单过滤,模型参数也是使用的v2.13的,线上得分8227.34。
由于测试集样本采样较初赛有很大变化,有三分之一的订单都是只有中间一截数据,所以今天每个队伍提交的结果都较初赛B榜误差有较大的上升,最低的是5770.71,高的有好几万甚至几十万,就我们现在这个分数甚至能排在第三。我想大家都应该是和我们一样直接使用的初赛的模型进行训练的,所以在新的测试集上会有较大误差,估计很快就能回复正规。不过对于测试集新的样本分布情况原来的降采样方法可能就不怎么合适了,需要研究新的采样方法以使训练集贴合测试集。
2020.08.10
2020华为云大数据挑战赛总算是结束了,至少对我们队来说的话算是结束了。复赛一直没有更新日志主要是模型一直崩,做了各种尝试,借鉴了队友们的先进经验也没有实质性的进展,搞得我心态爆炸也就懒得写了。
复赛A榜的时候,队友们凭借手动修改异常订单最高做到了误差870多分,排名第八。但是到了复赛B榜却遇到了我们意想不到的情况,原计划三天的B榜改成了今天一上午,到中午12点截止,总共只有3次提交机会。我们本打算两个队友一人交一次,再融合一波的,没想到早上起来连接学校内网的VPN用不起了,因为我们都在校外,之前队友都是用学校老师提供的服务器在做比赛,所以需要靠VPN才能访问。最后有一个队友在9点过的时候通过网页连上了VPN,但是我和另外一个队友死活连不上。我们通过腾讯会议进行屏幕共享、远程交流,最后几经波折在11点完成了模型的训练和提交,第一波提交下来1600多分,第二波1200多分,最后融合了一下还是1200多分。
不过总的来说我们学校的队伍还是挺强的,Top10有4支队伍,Top20有7支队伍:
排名 | 团队名 | 得分 |
---|---|---|
1 | 欲上青天揽明月 | 204.72 |
2 | 队名还没定 | 230.77 |
7 | 我们要去北京 | 613.13 |
9 | 冬天的骨头 | 658.5 |
12 | Shuffle2020 | 755.43 |
13 | 翻滚吧!后浪 | 787.47 |
18 | Rush | 925.72 |
31 | 应该不得呢 | 1264.65 |
33 | 名字好难取啊 | 1323.94 |
由于主办方临时商议,决定前20都能到决赛现场去答辩,也希望他们最终能取得一个好的成绩,之后下来好交流学习一下。