【打卡】零基础入门推荐系统-新闻推荐-创新互联
目录
创新互联建站专注于企业成都营销网站建设、网站重做改版、双台子网站定制设计、自适应品牌网站建设、HTML5、商城系统网站开发、集团公司官网建设、外贸网站建设、高端网站制作、响应式网页设计等建站业务,价格优惠性价比高,为双台子等各大城市提供网站开发制作服务。赛题背景
Task1:比赛报名
Task2:比赛数据分析
1. 用户属性分析
赛题背景
赛题以预测用户未来点击新闻文章为任务,数据集报名后可见并可下载,该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,将会从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B。
Task1:比赛报名1. 比赛报名
2. 下载数据
3. 读取数据
(1)读取articles.csv
显然,该数据包括文章id、该文章对应的文章类型id、文章创建时间、文章字数四列数据,共364047行,记录了364047篇文章的分类、创建时间和文章字数。
(2)读取articles_emd.csv
该数据为364047行,251列,我将其理解为通过某种手段将每篇文章原文表示成1行250列的嵌入式向量,简单看作每篇文章的特征。
(3)testA_click_log.csv
该数据共518010行,9列,第一列是用户id,第二列是该用户点击的文章id,第三列是阅读该文章的时间,第四列是点击该文章的环境(不懂环境表示什么),第五列是点击设备组(不懂设备组表示什么,是手机还是电脑还是平板吗?)第六列是点击操作系统(感觉是是windows还是ios还是linux还是android这些),第7列是点击国家,第8列是点击地区,第9列是点击来源类型(感觉类似于从网页点击还是聊天窗口点击还是朋友圈点击这种),是记录了不知道5万用户(赛题说明中有说总共包括30万用户,近300万次点击,从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B)在哪个国家哪个地区通过XX渠道,在XX环境,XX设备组上,用XX操作系统,阅读了哪篇文章。
(4)train_click_log.csv
点击日志的训练集,和测试集A一样,只不过有1112623行,比测试集多1倍左右。
(5)提交数据
其中user_id
为用户id
, article_1,article_2,article_3,article_4,article_5
为预测用户点击新闻文章Top5的article_id
依概率从高到低排序.
(6)简单思考
本赛题的目的是预测用户未来将点击的1篇新闻文章(可以根据概率预测5篇),有一个问题就是,已经阅读过的文章是否默认不会再阅读了?——或许能简单提高一下正确率。
这36万篇文章有字数、类型、创建时间和嵌入式向量4个特征,用户阅读文章肯定大部分都是同类的,和类型有关,也有可能和字数有关,嵌入式向量个人感觉其实和类型差不多,但是其表示的信息比文章类型丰富的多,因此若能利用上肯定能大幅度提高正确率。至于创建时间的话,用于阅读某篇文章肯定是在这个文章发布后,因此如何在模型中利用文章创建时间和用户阅读时间是需要考虑的。文章一经发布,被阅读的人越多,则更有可能被更多的人阅读是显然的。
Task2:比赛数据分析 1. 用户属性分析(1)训练集与测试集中分别有多少用户
可以看到,训练集共有ID为0~199999的用户共20w人;测试集共有ID为200000~249999的用户共5w人。
(2)训练集和测试集用户城市分布
训练集和测试集用户分布的城市范围都是一样的,都是1~11这11个城市。绘制出训练集20w用户的城市分布,由于点数太多,很难看出什么,大概能看出大多数人都在1、10、11城市点击过。
随机抽取1000个用户,绘制散点图, 发现分布在其他城市的用户很少。
因此查看分布在各个城市的用户数目, 城市1~11的用户分别为192713, 348, 277, 203, 227, 412, 232, 509, 470, 3493, 1906,显然,用户主要分布在城市1,且远大于其他城市,单一用户可能存在多个城市浏览的情况。
(3)平均每个用户会点击多少个文章
你是否还在寻找稳定的海外服务器提供商?创新互联www.cdcxhl.cn海外机房具备T级流量清洗系统配攻击溯源,准确流量调度确保服务器高可用性,企业级服务器适合批量采购,新人活动首月15元起,快前往官网查看详情吧
网页名称:【打卡】零基础入门推荐系统-新闻推荐-创新互联
标题路径:http://ybzwz.com/article/ccscpc.html