• ML.NET 示例:推荐之矩阵分解


    写在前面

    准备近期将微软的machinelearning-samples翻译成中文,水平有限,如有错漏,请大家多多指正。
    如果有朋友对此感兴趣,可以加入我:https://github.com/feiyun0112/machinelearning-samples.zh-cn

    电影推荐 - 矩阵分解示例

    ML.NET 版本 API 类型 状态 应用程序类型 数据类型 场景 机器学习任务 算法
    v0.7 动态 API 最新版本 控制台应用程序 .csv 文件 推荐 矩阵分解 MatrixFactorizationTrainer

    在这个示例中,您可以看到如何使用ML.NET来构建电影推荐引擎。

    问题

    在本教程中,我们将使用MovieLens数据集,其中包含电影评分,标题,流派等信息。在构建我们的电影推荐引擎的方法方面,我们将使用分解机,它使用协同过滤方法。

    “协同过滤”是在一个基本假设的情况下运作的,即如果某人A在一个问题上与某人B具有相同的意见,则在另一个问题上,相对其他随机选择的人,A更倾向于B的观点。

    使用ML.NET,我们支持以下三种推荐场景,根据您的场景,您可以从下面的列表中选择三种场景之一。

    场景 算法 示例链接
    你有用户购买行为中的用户Id、产品Id和评分。 矩阵分解 当前示例
    你仅有用户购买行为中用户Id和产品Id,但是没有评分。 这在来自在线商店的数据集中很常见,您可能只能访问客户的购买历史记录。 有了这种类型的推荐,你可以建立一个推荐引擎用来推荐经常购买的物品。 One Class 矩阵分解 产品推荐器
    您希望在您的推荐引擎中使用用户Id、产品Id和评分之外的更多属性(特征),例如产品描述,产品价格等。 场感知分解机 基于分解机的电影推荐器

    数据集

    原始数据来自MovieLens数据集:
    http://files.grouplens.org/datasets/movielens/ml-latest-small.zip

    ML 任务 - 矩阵分解(推荐)

    这个示例的ML任务是矩阵分解,它是一个执行协同过滤的有监督的机器学习任务。

    解决方案

    要解决此问题,您需要在现有训练数据上建立和训练ML模型,评估其有多好(分析获得的指标),最后您可以使用/测试模型来预测给定输入数据变量的需求。

    建立 -> 训练 -> 评估 -> 使用

    1. 建立模型

    建立模型包括:

    • 定义映射到数据集的数据模式,并使用DataReader读取(recommended-ratings-train.csvrecommended-ratings-test.csv

    • 矩阵分解需要对userId,movieId这两个特征进行编码

    • 然后MatrixFactorizationTrainer将这两个已编码特征(userId, movieId)作为输入

    下面是用于建立模型的代码:

     
     var mlcontext = new MLContext();
    
     var reader = mlcontext.Data.TextReader(new TextLoader.Arguments()
                {
                    Separator = ",",
                    HasHeader = true,
                    Column = new[]
                    {
                        new TextLoader.Column("userId", DataKind.R4, 0),
                        new TextLoader.Column("movieId", DataKind.R4, 1),
                        new TextLoader.Column("Label", DataKind.R4, 2)
                    }
                });
    
     IDataView trainingDataView = reader.Read(new MultiFileSource(TrainingDataLocation));
    
     var pipeline = mlcontext.Transforms.Categorical.MapValueToKey("userId", "userIdEncoded")
                                       .Append(mlcontext.Transforms.Categorical.MapValueToKey("movieId", "movieIdEncoded")
                                       .Append(new MatrixFactorizationTrainer(mlcontext, "Label","userIdEncoded", "movieIdEncoded")));
    

    2. 训练模型

    训练模型是在训练数据(具有已知电影和用户评分)上运行所选算法以调整模型参数的过程。 它是在评估器对象的Fit()方法中实现的。

    要执行训练,您需要调用Fit()方法访问在DataView对象中提供的训练数据集(recommendation-ratings-train.csv文件)。

    var model = pipeline.Fit(trainingDataView);
    

    请注意,ML.NET使用延迟加载方法处理数据,所以实际上只有调用.Fit()方法时才真正在内存中加载数据。

    3. 评估模型

    我们需要这一步来总结我们的模型对新数据的准确性。 为此,上一步中的模型针对未在训练中使用的另一个数据集运行(recommendation-ratings-test.csv)。

    Evaluate() 比较测试数据集的预测值并生成各种指标,例如准确性,您可以进行研究。

    Console.WriteLine("=============== Evaluating the model ===============");
    IDataView testDataView = reader.Read(new MultiFileSource(TestDataLocation));
    var prediction = model.Transform(testDataView);
    var metrics = mlcontext.Regression.Evaluate(prediction, label: "Label", score: "Score");
    

    4. 使用模型

    训练模型后,您可以使用Predict()API来预测特定电影/用户组合的评分。

    var predictionengine = model.MakePredictionFunction<MovieRating, MovieRatingPrediction>(mlcontext);
    var movieratingprediction = predictionengine.Predict(
                    new MovieRating()
                    {
                        //Example rating prediction for userId = 6, movieId = 10 (GoldenEye)
                        userId = predictionuserId,
                        movieId = predictionmovieId
                    }
                );
     Console.WriteLine("For userId:" + predictionuserId + " movie rating prediction (1 - 5 stars) for movie:" +  
                       movieService.Get(predictionmovieId).movieTitle + " is:" + Math.Round(movieratingprediction.Score,1));
           
    

    请注意,这是用矩阵分解进行电影推荐的一种方法。还有其他的推荐方案,我们也将为其建立示例。

  • 相关阅读:
    ORACLE不常用但实用的技巧- 树查询 level用法
    oracle的start with connect by prior如何使用
    Oracle SQL日期及日期格式获取命令
    2019年起一般纳税人和小规模纳税人的区别
    10.pandas的替换和部分替换(replace)
    pandas中.value_counts()的用法
    Python模块/包/库安装几种方法(转载)
    预处理数据的方法总结(使用sklearn-preprocessing)
    python时间序列分析之_用pandas中的rolling函数计算时间窗口数据
    BZOJ2007 [Noi2010]海拔
  • 原文地址:https://www.cnblogs.com/feiyun0112/p/10104881.html
Copyright © 2020-2023  润新知