互联网大数据时代,海量数据爆炸式的出现在网络中,我们该如何获取对自己有用的信息呢?

答案是筛选!

通过某项技术将相关的内容收集起来,分析删减才能得到我们真正需要的信息。网络爬虫技术是一个可以在虚拟世界里,无所不能的利器。开发者也如雨后春笋般的投入到爬虫行列中,无论是工作需要还是练手,均可分分钟上手写爬虫代码。

中数经纬首席科学家、中数经纬算法专家团汇聚最优资源,面向全国开发者首次举办“中数经纬爬虫PK赛”,意在为爬虫爱好者提供施展才华的平台,致力于培养爬虫专业人才,并尽可能提供合适的就业机会。

爬取网络上的公开数据(敏感话题除外),内容自行发挥,语言不限(例如:C\C++、Python、PHP、Java等)。

对爬取数据进行加工,去重去噪处理。包含但不限于利用人工智能技术(如:情感分析、语义分析、NLP算法等)进行自动话题挖掘与分类。

个人开发者

爬虫爱好者

在校学生

开源形式的作品(原创)

具备核心功能的DEMO

功能完备的产品

源码

样本数据

运行说明

以下类别任选其一作为竞赛采集对象。

门户、论坛、博客等。样本数据规则:标题,作者,评论,点赞数,阅读数,评论内容。

微信、APP新闻客户端等。样本数据规则:标题,作者,评论,点赞数,阅读数,评论内容。

报名
10月15日
提交DEMO or GitHub地址
当天秀部分代码PK,
分享爬虫用到的思想及技术。
10月24日
11月15日
公布PK结果
10月15日报名
提交DEMO or GitHub地址
10月24日当天秀部分代码PK,分享爬虫用到的思想及技术。
11月15日公布PK结果

根据爬取的数据源,去噪能力,以及算法进行综合评估。

中数经纬首席科学家

中数经纬算法专家团

1名

移动硬盘2TB
+

证书
+
个人海报

3名

机械键盘
+

证书
+
个人海报

5名

爬虫书籍
+

证书
+
个人海报

20名
超大号回车键发泄玩具+证书+个人海报
*姓名
*手机
*邮箱
*微信号
链接
上传DEMO

压缩包支持rar、zip格式,大小限制在10M以内。如上传失败,请发送到邮箱market@chinadata8.com