Skip to content

Feature Hashing for Large Scale Multitask Learning #7

@egolearner

Description

@egolearner

2009 ICML
https://arxiv.org/pdf/0902.2206.pdf

介绍

hashing-trick:将高维输入向量映射到低维特征空间。

Φ: Rd -> R^m where m << d

优点是保留稀疏性,且没有存储成本。

Hash Functions

image

sign hash函数ξ: N -> {+1/-1}的作用是消除碰撞导致的偏差,本质上是做了两次哈希。

应用

论文中主要以个性化邮件过滤器为例,垃圾邮件的标签数据不多,无法只对每个用户训练过滤器,而是每个用户的个性化过滤器加一个全局过滤器。
image
φ0为全局hash函数,φu为个性化hash函数。
用户的个性化hash函数φu为hash(concat(uid,word))
image

如上图所示,使用22位或更多的hash-table后,个性化的过滤器减少了30%的垃圾邮件。

Metadata

Metadata

Assignees

No one assigned

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions