2009 ICML https://arxiv.org/pdf/0902.2206.pdf ## 介绍 hashing-trick:将高维输入向量映射到低维特征空间。 > Φ: R<sup>d</sup> -> R^<sup>m</sup> where m << d 优点是保留稀疏性,且没有存储成本。 ## Hash Functions  sign hash函数`ξ: N -> {+1/-1}`的作用是消除碰撞导致的偏差,本质上是做了两次哈希。 ## 应用 论文中主要以个性化邮件过滤器为例,垃圾邮件的标签数据不多,无法只对每个用户训练过滤器,而是每个用户的个性化过滤器加一个全局过滤器。  φ<sub>0</sub>为全局hash函数,φ<sub>u</sub>为个性化hash函数。 用户的个性化hash函数φ<sub>u</sub>为hash(concat(uid,word))  如上图所示,使用22位或更多的hash-table后,个性化的过滤器减少了30%的垃圾邮件。