自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 大量文本查重相似度计算功能设计-基于simhash+相似度算法

最近在做文本查重功能,陆续遇到一些问题,做一下记录: 1、simhash分桶策略,只适合基本完全相同的文本查重,比如网页查重。64位simhash如果有3位以内的海明距离,则认为文本一致;存储使用hbase等列式存储,分4个桶,64位simhash分4个桶存储,必有一个key一致。这样性能很高,但是也只能查相似度非常高的,90+%以上的; 2、 ...

2020-12-28 17:32:01 1493

原创 发布交流主题时,如果发布内容包含一些特殊中文字或者emoji表情符号时,mysql数据库el_pc_communicate_title表utf8编码的content字段报错的问题;

发布交流主题时,如果发布内容包含一些特殊中文字或者emoji表情符号时,mysql数据库el_pc_communicate_title表utf8编码的content字段报错的问题; 报错信息:### Cause: java.sql.SQLException: Incorrect string value: '\xF0\x9F\x98\x93\xF0\x9F...' for column 'con

2015-07-08 09:39:21 535

原创 关于li标签的value属性在ie浏览器下只能保存数值型数据的解决方法

比如想要在li标签的value属性里面存储两个以上的数值,数据使用下划线分割(例如“1_37001”)。在火狐下使用value属性没有问题,在ie下则只会显示value=“1”。解决的方法是把要存储的字符串放在自定义的属性里面,比如li_value=“1_37001”,如此可完美解决。

2015-05-22 09:42:53 358

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除