bornhe's blog: 三月 2012

协同过滤 —— Collaborative Filtering
协同过滤简单来说就是根据目标用户的行为特征，为他发现一个兴趣相投、拥有共同经验的群体，然后根据群体的喜好来为目标用户过滤可能感兴趣的内容。

协同过滤推荐 —— Collaborative Filtering Recommend
协同过滤推荐是基于一组喜好相同的用户进行推荐。它是基于这样的一种假设：为一用户找到他真正感兴趣的内容的最好方法是首先找到与此用户有相似喜好的其他用户，然后将他们所喜好的内容推荐给用户。这与现实生活中的“口碑传播(word-of-mouth)”颇为类似。

协同过滤推荐分为三类：

基于用户的推荐（User-based Recommendation）
基于项目的推荐（Item-based Recommendation）
基于模型的推荐（Model-based Recommendation）

基于用户的协同过滤推荐 —— UserCF
原理：基于用户对物品的喜好找到相似邻居用户，然后将邻居用户喜欢的物品推荐给目标用户

UserCF

上图示意出User CF的基本原理，假设用户A喜欢物品A和物品C，用户B喜欢物品B，用户C喜欢物品A、物品C和物品D；从这些用户的历史喜好信息中，我们可以发现用户A和用户C的口味和偏好是比较类似的，同时用户C还喜欢物品D，那么我们可以推断用户A可能也喜欢物品D，因此可以将物品D推荐给用户A。
实现：将一个用户对所有物品的偏好作为一个向量（Vector）来计算用户之间的相似度，找到K-邻居后，根据邻居的相似度权重以及他们对物品的喜好，为目标用户生成一个排序的物品列表作为推荐，列表里面都是目标用户为涉及的物品。

基于物品的协同过滤推荐 ——ItemCF
原理：基于用户对物品的喜好找到相似的物品，然后根据用户的历史喜好，推荐相似的物品给目标用户。与User CF类似，只是关注的视角变成了Item。

ItemCF

假设用户A喜欢物品A和物品C，用户B喜欢物品A、物品B和物品C，用户C喜欢物品A，从这些用户的历史喜好可以分析出物品A和物品C是比较类似的，喜欢物品A的人都喜欢物品C，基于这个数据可以推断用户C 很有可能也喜欢物品C，所以系统会将物品C推荐给用户C。
实现：将所有用户对某一个物品的喜好作为一个向量来计算物品之间的相似度，得到物品的相似物品后，根据用户历史的喜好预测目标用户还没有涉及的物品，计算得到一个排序的物品列表作为推荐。

相似度的计算 —— Similarity Metrics Computing
关于相似度的计算，现有的几种基本方法都是基于向量（Vector）的，其实也就是计算两个向量的距离，距离越近相似度越大。在推荐的场景中，在用户 - 物品偏好的二维矩阵中，我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度，或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。下面我们详细介绍几种常用的相似度计算方法：
(1) 欧几里德距离（Euclidean Distance）
最初用于计算欧几里德空间中两个点的距离，假设 x，y 是 n 维空间的两个点，它们之间的欧几里德距离是：

可以看出，当 n=2 时，欧几里德距离就是平面上两个点的距离。
当用欧几里德距离表示相似度，一般采用以下公式进行转换：距离越小，相似度越大

(2) 皮尔森相关系数（Pearson Correlation Coefficient）
皮尔森相关系数一般用于计算两个定距变量间联系的紧密程度，它的取值在 [-1，+1] 之间。

(3) Cosine 相似度（Cosine Similarity）
Cosine 相似度被广泛应用于计算文档数据的相似度：

相似邻居的计算
邻居就是上文说到的“兴趣相投、拥有共同经验的群体”，在协同过滤中，邻居的计算对于推荐数据的生成是至关重要的，常用的划分邻居的方法有两类：
(1) 固定数量的邻居：K-neighborhoods 或者 Fix-size neighborhoods
用“最近”的K个用户或物品最为邻居。如下图中的 A，假设要计算点 1 的 5- 邻居，那么根据点之间的距离，我们取最近的 5 个点，分别是点 2，点 3，点 4，点 7 和点 5。但很明显我们可以看出，这种方法对于孤立点的计算效果不好，因为要取固定个数的邻居，当它附近没有足够多比较相似的点，就被迫取一些不太相似的点作为邻居，这样就影响了邻居相似的程度，比如图 1 中，点 1 和点 5 其实并不是很相似。

(2) 基于相似度门槛的邻居：Threshold-based neighborhoods
与计算固定数量的邻居的原则不同，基于相似度门槛的邻居计算是对邻居的远近进行最大值的限制，落在以当前点为中心，距离为 K 的区域中的所有点都作为当前点的邻居，这种方法计算得到的邻居个数不确定，但相似度不会出现较大的误差。如下图中的 B，从点 1 出发，计算相似度在 K 内的邻居，得到点 2，点 3，点 4 和点 7，这种方法计算出的邻居的相似度程度比前一种优，尤其是对孤立点的处理。

Threshold-based neighborhoods要表现的就是“宁缺勿滥”，在数据稀疏的情况下效果是非常明显的。Mahout对这两类邻居的计算给出了自己的实现，分别是NearestNUserNeighborhood和ThresholdUserNeighborhood，从名字就可以看出它们的对应关系

UserNeighborhood

推荐数据的处理是大规模的，在集群环境下一次要处理的数据可能是数GB，所以Mahout针对推荐数据进行了优化。

Preference
在Mahout中，用户的喜好被抽象为一个Preference，包含了userId，itemId和偏好值（user对item的偏好）。Preference是一个接口，它有一个通用的实现是GenericPreference。

Preference

但因为用户的喜好数据是大规模的，我们通常会选择把它放入集合或者数组。但是因为Java的对象的内存消耗机制，在大数据量下使用Collection<Preference>和Preference[]是非常低效的。为什么呢？

在Java中，一个对象占用的字节数 = 基本的8字节 + 基本数据类型所占的字节 + 对象引用所占的字节
(1) 先说这基本的8字节
在JVM中，每个对象（数组除外）都有一个头，这个头有两个字，第一个字存储对象的一些标志位信息，如：锁标志位、经历了几次gc等信息；第二个字节是一个引用，指向这个类的信息。JVM为这两个字留了8个字节的空间。这样一来的话，new Object()就占用了8个字节，那怕它是个空对象。
(2) 基本类型所占用的字节数
byte/boolean 1bytes
char/short 2bytes
int/float 4bytes
double/long 8bytes
(3) 对象引用所占用的字节数
reference 4bytes
注：实际中，有数据成员的话，要把数据成员按基本类型和对象引用分开统计。基本类型按(2)进行累加，然后对齐到8个倍数；对象引用按每个4字节进行累加，然后对齐到8的倍数。
class test {
Integer i;
long l;
byte b;
}
占 8(基本) + 16(数据成员——基本类型：8 + 1，对齐到8) + 8(数据成员——对象引用Integer，4，对齐到8) = 32字节

如此一来的话，一个GenericPreference的对象就需要占用28个字节，userId(8bytes) + itemId(8bytes) + preference(4bytes) + 基本的8bytes = 28。如果我们使用了Collection<Preference>和Preference[]，就会浪费很多这基本的8字节。设想如果我们的数据量是上GB或是上TB，这样的开销是很难承受的。

为此Mahout封装了一个PreferenceArray，用于表示喜好数据的集合

PreferenceArray

GenericUserPreferenceArray

我们看到，GenericUserPreferenceArray包含了一个userId，一个itemId的数组long[]，一个用户的喜好评分数据float[]。而不是一个Preference对象的集合。下面我们做个比较，分别创建一个PreferenceArray和Preference数组

在size为5，但只包含一条喜好数据的情况下：PreferenceArray需要20Bytes(userId 8bytes + preference 4bytes + itemId 8bytes)，而Preference[]需要48字节(基本8bytes + 一个Preference对象28bytes + 4个空的引用4×3 12Bytes)。如果在有多条喜好数据的情况下，PreferenceArray中将只有一个itemId，这样它所占用的8Bytes微乎其微。所以PreferenceArray用它特殊的实现节省了4倍内存。

用《Mahout in action》一书中的原话“mahout has alreadly reinvented an 'array of Java objects'”——"mahout已经重新改造了Java对象数组"。PreferenceArray和它的具体实现减少的内存开销远远比它的的复杂性有价值，它减少了近75%的内存开销（相对于Java的集合和对象数组）

除了PreferenceArray，Mahout中还大量使用了像Map和Set这些非常典型的数据结构，但是Mahout没有直接使用像HashMap和TreeSet这些常用的Java集合实现，取而代之的是专门为Mahout推荐的需要实现了两个API，FastByIDMap和FastIDSet，之所以专门封装了这两个数据结构，主要目的是为了减少内存的开销，提升性能。它们之间主要有以下区别：

和HashMap一样，FastByIDMap也是基于hash的。不过FastByIDMap使用的是线性探测来解决hash冲突，而不是分割链；
FastByIDMap的key和值都是long类型，而不是Object，这是基于节省内存开销和改善性能所作的改良；
FastByIDMap类似于一个缓存区，它有一个“maximum size”的概念，当我们添加一个新元素的时候，如果超过了这个size，那些使用不频繁的元素就会被移除。

FastByIDMap和FastIDSet在存储方面的改进非常显著。FastIDSet的每个元素平均占14字节，而HashSet而需要84字节；FastByIDMap的每个entry占28字节，而HashMap则需要84字节。

DataModel
Mahout推荐引擎实际接受的输入是DataModel，它是对用户喜好数据的压缩表示。DataModel的具体实现支持从任意类型的数据源抽取用户喜好信息，可以很容易的返回输入的喜好数据中关联到一个物品的用户ID列表和count计数，以及输入数据中所有用户和物品的数量。具体实现包括内存版的GenericDataModel，支持文件读取的FileDataModel和支持数据库读取的JDBCDataModel。

DataModel

GenericDataModel是DataModel的内存版实现。适用于在内存中构造推荐数据，它仅只是作为推荐引擎的输入接受用户的喜好数据，保存着一个按照用户ID和物品ID进行散列的PreferenceArray，而PreferenceArray中对应保存着这个用户ID或者物品ID的所有用户喜好数据。

GenericDataModel

FileDataModel支持文件的读取，Mahout对文件的格式没有太多严格的要求，只要满足一下格式就OK：

每一行包含一个用户Id，物品Id，用户喜好
逗号隔开或者Tab隔开
*.zip 和 *.gz 文件会自动解压缩（Mahout 建议在数据量过大时采用压缩的数据存储）

FileDataModel从文件中读取数据，然后将数据以GenericDataModel的形式载入内存，具体可以查看FileDataModel中的buildModel方法。

JDBCDataModel支持对数据库的读取操作，Mahout提供了对MySQL的默认支持MySQLJDBCDataModel，它对用户喜好数据的存储有以下要求：

用户ID列需要是BIGINT而且非空
物品ID列需要是BIGINT而且非空
用户喜好值列需要是FLOAT
建议在用户ID和物品ID上建索引

有的时候，我们会忽略用户的喜好值，仅仅只关心用户和物品之间存不存在关联关系，这种关联关系在Mahout里面叫做“boolean preference”。之所以会有这类喜好，是因为用户和物品的关联要么存在，要么不存在，记住只是表示关联关系存不存在，不代表喜欢和不喜欢。实际上一条“boolean preference”可有三个状态：喜欢、不喜欢、没有任何关系。

在喜好数据中有大量的噪音数据的情况下，这种特殊的喜好评定方式是有意义的。同时Mahout为“boolean preference”提供了一个内存版的DataModel——GenericBooleanPrefDataModel

GenericBooleanPrefDataModel

可以看到，GenericBooleanPrefDataModel没有对喜好值进行存储，仅仅只存储了关联的userId和itemId，注意和GenericDataModel的差别，GenericBooleanPrefDataModel采用了FastIDSet，只有关联的Id，没有喜好值。因此它的一些方法（继承自DataModel的）如getItemIDsForUser()有更好的执行速度，而getPreferencesFromUser()的执行速度会更差，因为GenericBooleanPrefDataModel本来就没存储喜好值，它默认用户对物品的喜好值都是1.0

@Override

public Float getPreferenceValue(long userID, long itemID) throws NoSuchUserException {

FastIDSet itemIDs = preferenceFromUsers.get(userID);

if (itemIDs == null) {

throw new NoSuchUserException(userID);

}

if (itemIDs.contains(itemID)) {

return 1.0f;

}

return null;

}

bornhe's blog

2012年3月17日星期六

Mahout 之（二）协同过滤推荐

2012年3月10日星期六

Mahout 之（一）数据承载