【Dataset】Goodbooks-10k: 图书推荐数据

【Dataset】Goodbooks-10k: 图书推荐数据
当前推荐领域一些公开的据集都是关于电影和音乐的(比如Netflix、Movielens等)，没有关于图书推荐的数据。本文将要介绍的就是一份用于图书推荐的数据集，该数据来源于goodreads网站，包含1万本最受欢迎图书的6百万评分数据，由以下数据组成：
- 评分数据
- 被用户标记为想读的图书
- 图书详情(作者、年份等)
- 图书标签
ratings.csv

包含按时间存储的评分数据，大小为69MB，结构如下：
```
user_id,book_id,rating
1,258,5
2,4081,4
2,260,5
2,9296,5
2,2318,3
```
评分范围1-5；图书ID是1-10000的连续数字；用户ID是1-53424的连续数字。

to_read.csv

被用户标记为想读的数据，有将近1百万条按照时间存储的user_id、book_id对。

books.csv

从goodreads的XML文件中抽取出来的每本书的详情(goodreads ID、作者、书名、平均分等)，XML源文件保存在books_xml目录下。

books_tags.csv

用户分配给图书的标签，通过ID表示；按照goodreads_book_id升序、count降序存储，其中count表示有多少用户为该图书标记该标签。
```
goodreads_book_id,tag_id,count
1,30574,167697
1,11305,37174
1,11557,34173
```
tags.csv

标签ID对应的标签名。
```
tag_id,tag_name
0,-
19,--your-message-here--
25,-fiction
26,-fictional
27,-fictitious
```
关于图书ID

一本书可能有很多版本，goodreads_book_id和best_book_id通常是指最受欢迎的版本。而goodreads中的work_id指的是抽象意义的书，通过该ID会列出该书的所有版本。ratings.csv和to_read.csv中的book_id指的是work_id而不是goodreads_book_id，这意味着不同版本的评分是经过聚合处理的。

数据介绍

GitHub
相关阅读:
排序算法（三人组加上快排）
property函数的使用
 nginx
列表中相同key的字典相加
 python的数据结构
 循环的应用
 JPA使用指南 javax.persistence的注解配置讲解
 Spring中使用@Value读取porperties文件中的属性值方法总结及注意事项
 java中Properties类及读取properties中属性值
 jackson中@JsonProperty、@JsonIgnore等常用注解总结
原文地址：https://www.cnblogs.com/cling-cling/p/10136020.html

【Dataset】Goodbooks-10k: 图书推荐数据

ratings.csv

to_read.csv

books.csv

books_tags.csv

tags.csv

关于图书ID