自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (18)
  • 收藏
  • 关注

原创 [ICDE‘20] Sequence-Aware Factorization Machines for Temporal Predictive Analytics (SeqFM)

原论文Motivation现有的基于矩阵分解的模型不能捕捉序列信息,于是作者提出了新颖的SeqFM模型,分别学习静态特征(如性别)、动态特征(如交互信息)以及二者之间的关系。Introduction为了避免特征工程中手工设计,FMs (factorization machines) 用来将原始的特征嵌入到隐向量空间,并且通过对emb内积学习特征之间的联系。但是plain FM受限于线性表达能力,DNN-based FM,如Xiangnan He的NFM,学习高阶的联系。FM有两种趋势:一种是.

2020-07-19 22:37:10 462

原创 【创新实训】推荐系统实验2(修改模型、混合数据集)

数据集混合的数据集单独使用douban_imdb训练确实有效果,但是因为是国外的数据集,国外电影占绝大部分,国内电影推荐效果非常差。douban_csdn数据集最稀疏,训练不出效果,mtime、douban_openkg指标还行,单独来用item太少。因此拟将这三个数据集混合在一起。douban_imdb电影频数往往达到五六万往上,其他数据集的频数比较而言太小了,需要删除douban_imdb的部分行。于是,我将所有数量大于1000的item,随机删除记录,只保留(500 + len(group)

2020-07-01 20:34:08 1162 1

原创 【创新实训】BERT4EL,基于文本相似度的实体消歧实现

任务描述现有douban、mtime、maoyan三个来源的电影,包含名称、简介、导演、演员、类型等等属性。需要相同的电影融合为一个电影条目,其中maoyan数量很少,可以合并到mtime中。参照实体消歧(或实体链接)的惯用语,数量最多的douban可以作为知识库中的entity,mtime(+maoyan)作为需要链接到KB的mention。思路事实上,这个任务也相当于文本多分类任务。类别数为KB中的entity数,那么将模型运算得到的mention hidden states输入到最后一层全连

2020-06-28 22:26:47 1413 6

原创 【创新实训】推荐系统之召回池设计

召回池我的想法是,输入形式为batch时模型总计算时间应当比一个一个喂小不少,因此可以建立一个比如200为大小的召回池,最多每隔0.5s送入模型进行计算,当waiting list已经到达了200,立即执行计算,重置定时任务。消息队列python的queue库是一个线程安全的队列,可以用作消息队列。其基本用法参考:Python之queue模块以及生产消费者模型先写一个类包装class Pack: def __init__(self, flag=False, _id=None, seq=

2020-06-21 10:16:04 2919

原创 【创新实训】用户后台

待办事项insertStamp现为字符串,以后需要更新为long类型的timestamp,以减少硬盘占用。注意代码也需更改Useruser为movie数据库下的collection,存放用户注册手机号、用户名、密码(暂hd5加密)、emb、浏览历史class User(Document): _id = ObjectIdField() phone = StringField() name = StringField() pwd = StringField() e

2020-06-20 17:23:16 187

原创 【创新实训】推荐系统模型训练实验

Experimentsdouban_imdb原数据集来自movieLens-25M,为显示反馈,以评分大于等于3作为隐式反馈。筛选出可以映射为douban_id的(最后应当筛选能映射为最终融合id的),去掉user、item频数小于5的,sess长度小于2的,按8:2划分数据集,train 152142条,test 36791条,item 10576个。NARM源码 session_NARMpytorch版本 Neural-Attentive-Session-Based-Recommendati

2020-06-18 22:19:40 511

原创 【创新实训】推荐系统召回学习

Reference个性化推荐系统_召回推荐系统简明教程-召回推荐系统的召回策略架构1.离线方式:离线的model file算出推荐结果,这些推荐结果可以是用户喜欢哪些item,也可以是item之间的相似度文件,然后写入KV存储,在线的server recall部分直接调用这个结果,拿到ID之后访问detail server得到详情,再往rank部分传递。2.半在线模式:将model file算出来的item embedding也存入KV,然后tf-server调用在线model 生成 user

2020-06-10 09:16:29 211

原创 【通知】项目日志从本专栏转移至收藏夹

因为转载不便(还得复制),现本专栏仅为个人开发日志,团队项目转移至收藏夹 创新实训

2020-06-07 10:22:14 167

原创 【创新实训】后端开发笔记

电影评价网

2020-06-06 20:56:56 322

原创 【创新实训】接口约定、需求草稿

接口数据库接口MongoDB的地址:39.106.132.48:27017可以clone下来,也可以直接用如果使用官方GUI(MongoDB Compass),链接的时候使用账号密码user:rootpwd:r****lf(见群,下同)cmd里,use movie(切换到movie集合)之后,db.auth(“usr”, “z****7”)前端和爬虫代码所需账号密码由相对路径下的setting.json(/crawler/ 和/backend/api/ 下)读取,该文件加入了.gitigno

2020-06-06 19:54:56 328

原创 【创新实训】前端开发笔记

电影评价网Vue依赖:Vue 3.x 建议使用脚手架Vue-cliVuex 负责静态存储ElementUI 组件库axios HTTP访问安装脚手架yum install npmnpm install -g vue-cli要求npm > 4.0版本过低建议使用版本管理工具nnpm install -g nn latest启动windows上建议使用 vue ui 命令启动脚手架GUI,然后新建项目。然后安装相应依赖。实现...

2020-06-06 19:54:18 293

原创 【论文精读】门控图神经网络GGNN及SRGNN

GGNNSRGNN是GGNN在推荐系统上的应用,核心网络几乎没有改变。GGNN的核心模型其实非常简单,在计算上和GRU基本没有区别。但为了更好的理解ava_vav​是如何构造出来的,我们还得从最基本的思想讲起。信息传播绝大多数GNN的思想在于消息传播(Message Passing)或者说信念传播(Belief Propagation)。很自然的,我们知道一个节点的信息可以根据其邻居节点信息进行更新。初代GNN2009年最早的GNN论文1将这个过程抽象为xn=fw(ln,lco[n],xne

2020-05-30 11:55:00 8937 5

原创 数据科学导论实验:XML及StanfordParser

之前有用过xml.ElementTree包,而且Beautiful Soup的方法也差不多,所以lxml上手也挺快的;另外要注意,文件夹下不能有和包同名的py,比如xml.pyxml解析from lxml import etreeparser = etree.XMLParser(recover=True)tree = etree.parse('reviews/video/reviews...

2020-02-22 11:56:35 720

原创 数据科学导论实验:基于Twitter的网络结构和社会群体演化

分析及预处理查看json结构随便选一个json文件拖入浏览器,借助chrome的开发者工具查看json结构其中,name其实不需要取,nick是唯一的且只允许英文数字下划线 (\w),作为用户的唯一标识迭代取数据先取完再处理耗费内存,故通过yield建立迭代器import jsonimport osdef extract_info(batch): plist = batc...

2020-02-22 11:53:46 1105 2

原创 【MapReduce】表自然连接笔记 Windows环境(HadoopStreaming、mrjob、java api三个版本)

表自然连接student_course表:(SID, CID, SCORE, TID)student表:(SID, NAME, SEX, AGE, BIRTHDAY, DNAME, CLASS)均有表头思路根据文件名添加标记,两个表通过mapper分别转换为 <SID, “S”, others…>和 <SID, “SC”, others> 的形式,然后通过shuf...

2020-02-22 11:48:58 707

原创 Nachos5.0 java版本前三个proj设计报告

Referencenachos-java Task1.1 Join 包括后面几篇,有proj1的5个task讲解Nachos Project2思路、代码操作系统nachoes一些问题与解决方法代码主要参考,但也需要修改 soohyunc/nachos我的实现代码 https://download.csdn.net/download/weixin_42127182/12105905(p...

2020-01-16 09:26:30 2394 1

原创 GRU4rec与SRGNN之间的比较

SRGNN采用了Attention机制(GRU能够增强或削弱前一时刻的信息,但从整体上考虑并不是很好),而且最后的再次考虑了最后一个点击的重要性SRGNN使用了数据增强(Data augmentation)的方法,一个Session可以切片成多个来训练GRU4rec受序列顺序影响很大,SRGNN直接考虑这个item与所有邻接item之间的关系,邻接顺序并没有影响,并且相比于GRU只考虑了之前...

2019-11-23 18:33:16 2953

原创 视频异常分析论文及源码整理

A Boost Strategy to the Generative Error Based Video Anomaly Detection Algorithmshttps://arxiv.org/ftp/arxiv/papers/1911/1911.08402.pdfhttps://github.com/yiweilu3/CONV-VRNN-for-Anomaly-DetectionA n...

2019-11-23 10:15:45 924 2

原创 VMware 连不上网问题终极解决(排除Ubuntu本身网络配置问题)

VMWare Ubuntu 连不上网问题解决(问题出现在Ubuntu网络配置上)排查了一下午,把CSDN上VMWare连不上网的博客搜了一遍,自己的VM确实配置好了NAT之类的设置,但依然连不上网。(偶尔刚开机时可以打开网站,但是再刷新又连不上了)排除了宿主机的网络设置问题(比如相关服务没打开之类的),问题应该出现在Ubuntu上。于是调用sudo /etc/init.d/networki...

2019-11-18 16:45:35 572

原创 概率图模型入门(隐马尔可夫模型HMM、条件随机场CRF)

隐马尔可夫模型利用先验概率,贝叶斯分类器可以对给定的样本数据进行一次概率估计。而对于序列数据,如天气等时间序列、顾客的购买历史、自然语言的语句等,其变量之间显然具有相关性时,假设各变量始终独立同分布的朴素贝叶斯就不足以完成估计和预测了。对于一组顺序数据即序列,直觉上,我们会猜想,与历史的观测相⽐,当前的观测值会为预测未来值提供更多的信息,为此,我们拓展出了贝叶斯网以解决序列问题。首先需要注意的...

2019-10-20 22:36:44 868

原创 Requests 读取中文乱码

首先,检查所爬取html的编码格式比如<head> <meta http-equiv="Content-Type" content="text/html; charset=gb2312"> ...<head>然后对requests get的结果 r 设置编码格式r.encoding = 'gb2312'如果这样依旧是乱码,很有可能是字符超过了...

2019-08-30 23:32:18 1378

原创 语料库整理(机器翻译等用)

翻译语句对http://www.manythings.org/anki/英语–多国家,其中Chinese - English 21116条

2019-07-30 18:44:07 5290 1

原创 一些CS领域、互联网领域的名词解释,作为知识补充

.so文件对应Windows的dll文件,是linux系统(尤其是安卓开发经常用到)的二进制文件,也即ELF文件。Android中的so文件用作C\C++编译出来的动态链接库,多用于NDK开发中。而jar则是静态库文件。UPnPUPnP通用即插即用(Universal Plug and Play)的目标是使家庭网络(数据共享、通信和娱乐)和公司网络中的各种设备能够相互无缝连接,并简化相关网络...

2019-06-07 22:29:47 6628

转载 Android虚拟机调试Socket使用127.0.0.1无法连接PC端服务器

Android调试Socket使用127.0.0.1无法连接PC端服务器1.首先,在AndroidManifest.xml文件中,必须加入<uses-permission android:name="android.permission.INTERNET"></uses-permission>2.以PC为接收端(服务器Server端),以Android虚拟机为发送端(...

2019-04-29 21:31:49 1561

原创 PS存储为和导出为的区别

主要是CMYK模式下不同做线下物料时,颜色模式要选用CMYK模式。而CMYK模式下,通过“存储为”保存为jpg格式的图片,在电子屏幕上显示会出现色差,与PS工作界面的预览并不一致,但实际打印出来还是正常的。如果是用“导出为”导出,猜测PS会自动进行处理为RGB模式,这样的jpg图片在电子屏幕上没有色差,与工作界面中显示的一致。因此如果是做好了样图要发送给对方浏览,用截图截太粗糙了,可以用“...

2019-03-07 13:10:37 34231 5

原创 树状打印任意形式二叉树

任意二叉树以树形结构打印高度为8的二叉树打印最终效果:二叉树高度大概为6、7时,宽度就超过了控制台的最大宽度,所以没有用cout输出,而是输出为一个文件(下方代码中out_file是之前声明过的一个ofstream)。注:输出后用记事本和sublime都没有预期的显示效果,需要用Notepad打开。为了压缩显示面积,每个节点(节点宽度最好是奇数)之间相隔为1,原本树的三角形表示用_、/、...

2019-02-12 10:26:35 1697

frappe.zip

原主页 http://web.archive.org/web/20180422190150/http://baltrunas.info/research-menu/frappe

2020-07-26

Nachos5.0 java版本代码实现,附设计报告.zip

Nachos5.0 java版本,包括proj1的6个Task、proj2的4个Task,山东大学操作系统课程设计

2020-01-16

RabbitMQ工具类封装实现

封装了RabbitMQ的订阅者线程和发布者线程(还有个初始化工厂的连接工具类),另外附加一个安卓的使用demo

2019-10-26

中英平行语料库(八万对,句粒度)

共8400多对中英语句,已预处理,中文用jieba分了词,标点符号没问题,保存于en-zh.csv,分隔符是制表符\t(不是默认逗号)。 句粒度,但有不少长句,裁剪后5w对也够用。 原始数据集也在包中,其中en-zh_News.tmx有一部分句子有问题,(en-zh.csv丢弃了有问题的句子),如果必要建议不要直接使用该文件。 另外附赠我对语料的预处理文件(propressor.py),以及数据集(pytorch的Dataset)等相关的实现(LangData.py)。 如果又可以改善的地方,欢迎留言

2019-08-11

Solitaire纸牌游戏.zip

山东大学软件学院面向对象课程设计,纸牌游戏,UI用的javaFx

2019-07-08

Socket实现的TCP_demo.zip

Socket的简单应用,这里是群聊的实现,可以自己加属性做接收方的判断以实现私聊。封装了TcpClientThread,其中有个函数接口可以在调用类中实现以进行UI改变,当然Android可以使用Message类进行消息传递。气泡、头像实现的也差不多。数据传送使用的gson

2019-07-08

飞花令app.zip

林风波老师布置的实验,飞花令的形式,根据关键字查询诗句。主要是RecycleView和文件流的应用,自己又做了些美化和优化,含多个关键字词的诗句不会重复出现,不会考虑序,关键字标红。

2019-07-08

山东大学软件学院机组考点整理复习

山大软院期末复习使用,根据陈志勇老师17级最后一节课说的考试重点整理,当然,考点每年都可能会有变化,但基本也就是这些了。 相关解释来自老师的ppt和老师给的作业答案,直接背就行。除了知识点还有相关例题便于复习时理解应用。章节顺序是按讲课的顺序整理的。 建议使用OneNote打开one文件复习,当然如果没下也可以用导出的pdf。

2019-07-08

山东大学软件学院17级数据结构实验源码

山东大学软件学院17级数据结构实验源代码,七个实验,另外还做了个补充实验。如果之后的指导书输入输出格式要求有变化,相应改改就行,类、算法什么的都写的挺完善的

2019-07-08

Huffman压缩解压系统设计.zip

根据霍夫曼(哈夫曼)算法写的应用系统,含C++版本和Java版本。C++版本是按照山大软件学院数据结构课设题目写的。Java版本是自己写的更完善的、侧重于解压压缩的项目。开发了一个月,稳定性良好,UI也不错,速度上做了不少优化。

2019-07-08

山东大学软件学院移动互联开发技术

山大软件学院林丰波老师的移动互联开发技术课程复习资料。包括吐血肝出来的名词解释,几乎完全覆盖课程相关(不过考试的时候侧重考移动开发方面的,有些互联网方面的不用刻意背),还有根据老师给的复习题写的答案,考试的时候出到了不少相似的题。建议还是多做些老师让码的项目,有些名词解释涉及到Android的一些类和方法。

2019-07-08

山东大学软件学院机组课设(非单总线)

山大软件学院17级计算机组成原理课程设计,包括八个基本实验、处理器实验、内存实验以及最后的非单总线设计,另外附带肥肠认真搞出来的指令集以及对应的指令流程。今年老师让做的扩展是累加、查找、排序等等,这里只做了累加和查找(查找没仔细验证,不过和累加一个难度的,老师就没检查),最后成绩A+优秀。另外,前八个基础实验的建议不用,用后面系统设计的元件,因为后来不合适做了一些改动。

2019-07-08

数据库系统概念第六版(机械工业出版社)

数据库系统概念课程的课本,数据库系统概念第六版(机械工业出版社),作者Abraham Silberschatz、Henry F. Korth、S. Sudarshan,压缩包里有英文原版的pdf,也有翻译版以及翻译版的锐化优化版

2019-07-08

山东大学软件学院面向对象历年期末考试题.zip

山东大学软件学院面向对象期末真题,12-17级学长学姐回忆整理的(13级的暂缺,不过也是最全的资料了),还有一份老师出卷用的样题。14年之后出的题都大差不差的,不过考试题量还是挺大的,学弟学妹们记得做的时候要做得快一些哦

2019-07-08

山东大学操作系统实验源码.zip

山东大学软件学院2019年操作系统实验,涵盖实验指导书上实验一到实验七的独立实验的源码

2019-07-08

操作系统概念翻译版第七版.pdf

软件工程、计算机科学等专业教学用书。较清晰的扫描版。高等教育出版社

2019-07-08

计算机组成原理(第2版)-唐朔飞.pdf

计算机组成原理(第2版)-唐朔飞.pdf、高等教育出版社。扫描版,但比较清晰。软件工程、计算机科学等专业教学用书。

2019-07-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除