互联网大数据时代,海量数据爆炸式的出现在网络中,我们该如何获取对自己有用的信息呢?
答案是筛选!
通过某项技术将相关的内容收集起来,分析删减才能得到我们真正需要的信息。网络爬虫技术是一个可以在虚拟世界里,无所不能的利器。开发者也如雨后春笋般的投入到爬虫行列中,无论是工作需要还是练手,均可分分钟上手写爬虫代码。
中数经纬首席科学家、中数经纬算法专家团汇聚最优资源,面向全国开发者首次举办“中数经纬爬虫PK赛”,意在为爬虫爱好者提供施展才华的平台,致力于培养爬虫专业人才,并尽可能提供合适的就业机会。
爬取网络上的公开数据(敏感话题除外),内容自行发挥,语言不限(例如:C\C++、Python、PHP、Java等)。
对爬取数据进行加工,去重去噪处理。包含但不限于利用人工智能技术(如:情感分析、语义分析、NLP算法等)进行自动话题挖掘与分类。
个人开发者
爬虫爱好者
在校学生
开源形式的作品(原创)
具备核心功能的DEMO
功能完备的产品
源码
样本数据
运行说明
以下类别任选其一作为竞赛采集对象。
门户、论坛、博客等。样本数据规则:标题,作者,评论,点赞数,阅读数,评论内容。
微信、APP新闻客户端等。样本数据规则:标题,作者,评论,点赞数,阅读数,评论内容。
根据爬取的数据源,去噪能力,以及算法进行综合评估。
中数经纬首席科学家
中数经纬算法专家团
移动硬盘2TB
+
证书
+
个人海报
机械键盘
+
证书
+
个人海报
爬虫书籍
+
证书
+
个人海报