【打卡】零基础入门推荐系统-新闻推荐-创新互联

创新互联建站专注于企业成都营销网站建设、网站重做改版、双台子网站定制设计、自适应品牌网站建设、HTML5、商城系统网站开发、集团公司官网建设、外贸网站建设、高端网站制作、响应式网页设计等建站业务，价格优惠性价比高，为双台子等各大城市提供网站开发制作服务。

赛题背景

Task1：比赛报名

Task2：比赛数据分析

1. 用户属性分析

赛题背景

赛题以预测用户未来点击新闻文章为任务，数据集报名后可见并可下载，该数据来自某新闻APP平台的用户交互数据，包括30万用户，近300万次点击，共36万多篇不同的新闻文章，同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性，将会从中抽取20万用户的点击日志数据作为训练集，5万用户的点击日志数据作为测试集A，5万用户的点击日志数据作为测试集B。

Task1：比赛报名

1. 比赛报名

2. 下载数据

3. 读取数据

（1）读取articles.csv

显然，该数据包括文章id、该文章对应的文章类型id、文章创建时间、文章字数四列数据，共364047行，记录了364047篇文章的分类、创建时间和文章字数。

（2）读取articles_emd.csv

该数据为364047行，251列，我将其理解为通过某种手段将每篇文章原文表示成1行250列的嵌入式向量，简单看作每篇文章的特征。

（3）testA_click_log.csv

该数据共518010行，9列，第一列是用户id，第二列是该用户点击的文章id，第三列是阅读该文章的时间，第四列是点击该文章的环境（不懂环境表示什么），第五列是点击设备组（不懂设备组表示什么，是手机还是电脑还是平板吗？）第六列是点击操作系统（感觉是是windows还是ios还是linux还是android这些），第7列是点击国家，第8列是点击地区，第9列是点击来源类型（感觉类似于从网页点击还是聊天窗口点击还是朋友圈点击这种），是记录了不知道5万用户（赛题说明中有说总共包括30万用户，近300万次点击，从中抽取20万用户的点击日志数据作为训练集，5万用户的点击日志数据作为测试集A，5万用户的点击日志数据作为测试集B）在哪个国家哪个地区通过XX渠道，在XX环境，XX设备组上，用XX操作系统，阅读了哪篇文章。

（4）train_click_log.csv

点击日志的训练集，和测试集A一样，只不过有1112623行，比测试集多1倍左右。

（5）提交数据

其中user_id为用户id, article_1,article_2,article_3,article_4,article_5为预测用户点击新闻文章Top5的article_id依概率从高到低排序.

（6）简单思考

本赛题的目的是预测用户未来将点击的1篇新闻文章（可以根据概率预测5篇），有一个问题就是，已经阅读过的文章是否默认不会再阅读了？——或许能简单提高一下正确率。

这36万篇文章有字数、类型、创建时间和嵌入式向量4个特征，用户阅读文章肯定大部分都是同类的，和类型有关，也有可能和字数有关，嵌入式向量个人感觉其实和类型差不多，但是其表示的信息比文章类型丰富的多，因此若能利用上肯定能大幅度提高正确率。至于创建时间的话，用于阅读某篇文章肯定是在这个文章发布后，因此如何在模型中利用文章创建时间和用户阅读时间是需要考虑的。文章一经发布，被阅读的人越多，则更有可能被更多的人阅读是显然的。

Task2：比赛数据分析 1. 用户属性分析

（1）训练集与测试集中分别有多少用户