- 博客(1)
- 资源 (1)
- 收藏
- 关注
原创 我所理解的simhash
摘要: 最近在看关于搜索引擎方面的书籍,常见的去重算法有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离 今天我所记录的是关于网页去重的另一个一个算法----simhash,刚好工作有需要就试着用上了。 首先需要了解的知识有: 1、位运算值适合整数,如果浮点数想要进行位运算就先Float.floatToIntBits 进行运算,然后再 Float.intBits
2016-12-15 10:19:33 212 1
这就是搜索引擎
2016-12-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人