- 博客(328)
- 资源 (6)
- 收藏
- 关注
原创 什么是检索增强生成(Retrieval-Augmented Generation,RAG)
检索增强生成(Retrieval-Augmented Generation,RAG),是指为大模型提供外部知识源的概念。能够让大模型生成准确且符合上下文的答案,同时能够减少模型幻觉。用最通俗的语言描述:在已有大模型的基础上,外挂一个知识库,让大模型学习这个知识库后,回答的内容与知识库更为相关,与实际业务场景更加贴切,符合我们的需求。
2024-03-30 16:30:56 692
原创 AI Agent(LLM Agent)入门解读
AI Agent可以理解为一个智能体,包括感知模块、规划决策模块和行动模块,类似于人类的五官、大脑和肢体。它能帮助人类处理复杂的任务,并能根据环境反馈进行学习和调整。五官可以理解为感知模块,大脑为规划决策模块,肢体是行动模块。如图:**举个例子:**用手摸了一下电线,感知模块被电麻了,此时大脑决策规划模块发出信号,把手拿走快逃。接着行动模块控制手从电线上拿开(当然也可能拿不开),这就是资料里常见的模型。将这个过程抽象出来,如图:可以看到,最关键的部分就是大脑部分,即规划决策模块。
2024-03-27 23:00:56 1319
原创 大语言模型(LLM)token解读
Token是LLM处理文本数据的基石,它们是将自然语言转换成机器可理解格式的关键步骤。标记化过程(Tokenization):这是将自然语言文本分解成token的过程。在这个过程中,文本被分割成小片段,每个片段是一个token,它可以代表一个词、一个字符或一个词组等。变体形式:根据不同的标记化方案,一个token可以是一个单词,单词的一部分(如子词),甚至是一个字符。例如,单词"transformer"可能被分成"trans-", “form-”, "er"等几个子词token。
2024-03-27 09:44:28 1591
原创 大语言模型(Large Language Model,LLM)简介
它是一种基于深度学习的人工智能模型,它从大量来自书籍、文章、网页和图像等来源的数据中学习,以发现语言模式和规则,如处理和生成自然语言文本。通常,大语言模型含数百亿(或更多)参数。
2024-03-24 15:30:50 740
原创 xctf攻防世界 MISC之CatFlag
拿到的是一个无后缀的flag文件,用winhex打开后发现是奇奇怪怪的乱码,用kali的strings搜索也没找到flag情况。
2023-09-06 23:34:56 6779
原创 因果推理概念再细化和梳理
前期看了一篇因果推理的综述,经阅读后对其进行了简单的整理,也有一些方法和细节不太熟悉,遂再次进行梳理,将理解不通透的概念重新整理。
2023-03-28 10:29:55 5741 1
原创 因果推断dowhy之-医学案例中的反事实分析
在这个例子中,我们知道,我们想得到一些反事实的问题,例如“如果我采用了医生的不同建议,会发生什么?更具体地说,患有严重眼干症的爱丽丝决定使用远程在线医疗平台,因为她无法在自己居住的地方看眼科医生。她通过报告自己的病史来判断爱丽丝是否患有罕见的过敏症,平台最后为她推荐了两种可能的眼药水,成分略有不同(“选项1”和“选项2”)。爱丽丝在网上快速搜索了一下,她发现选项1有很多积极的评价。尽管如此,她还是决定使用第二种方法,因为她的母亲过去也使用过这种方法,而且效果很好。
2023-03-24 15:24:28 6008
原创 因果推断dowhy之-401(k)资格对净金融资产的影响
在本案例研究中,我们将使用来自401(k)分析的真实数据来解释如何使用因果库来估计平均治疗效果(ATE)和条件ATE (CATE)。本案例数据来自真实数据。在20世纪80年代初,美国政府为雇员推出了几种税收递延储蓄选择,以增加个人退休储蓄。一个受欢迎的选择是401(k)计划,该计划允许员工将工资的一部分存入个人账户。考虑到由于个人特征(特别是收入)造成的差异性,这里的目标是由于401(k)计划是由雇主提供的,因此只有提供这些计划的公司的员工才有资格参加。因此,我们正在处理一项非随机研究。
2023-03-23 23:35:18 1020 3
原创 Anaconda配置R语言环境,使用Jupyter跑实验
最近要跑实验,需临时使用R语言。于是乎,为了图省事,不想下载和配置环境,遂在实验过程中,在Anaconda环境下配置,使用Jupyter Notebook进行实验。
2023-03-22 20:38:23 1564
原创 因果推断dowhy之-Lalonde数据集上的案例学习
本次实验是使用Lalonde数据集在DoWhy中的因果推断的探索。这项研究考察了职业在完成几年后对个人实际收入的影响。数据包括一些人口统计学变量(年龄、种族、学术背景和以前的实际收入),,以1978年的实际收入(数据中字段re78为outcome。
2023-03-21 21:17:00 1075
原创 因果推断dowhy之-评估会员奖励计划的效果
评估的例子。假设一个网站有会员奖励计划,如果客户注册,他们会得到额外的好处。我们如何知道该会员奖励计划是有用的?该问题的反事实问题是,该问题在因果推理中,我们感兴趣的是。
2023-03-15 22:52:50 378
原创 因果推断dowhy之-探索酒店取消预订的原因分析
本案例依旧是基于微软官方开源的文档进行学习,有想更深入了解的请移步微软官网。取消酒店预订可能有不同的原因。客户可能会要求一些无法提供的东西(例如,停车场),客户可能后来发现酒店没有满足他们的要求,或者客户可能只是取消了他们的整个旅行。其中一些问题,如停车,是酒店可以处理的,而另一些问题,如取消行程,则不在酒店的控制范围内。在本例中,我们的研究问题是估计当消费者在预定酒店时,为其分配一间与之前预定过的房间不同的房间对消费者取消当前预定的影响。分析此类问题的标准是。
2023-03-13 17:22:52 1255
原创 因果推断之微软开源的dowhy使用学习
因果推理是基于观察数据进行反事实估计,分析干预与结果之间的因果关系。DoWhy是微软发布的端到端基于一定经验假设的基础上,将问题转化为因果图,验证假设。提供因果推断的接口,整合了两种因果框架。DoWhy支持对后门、前门和工具的平均因果效应的估计,自动验证结果的准确性、鲁棒性较高。利用假设(先验知识)对因果推断问题建模。在假设(模型)下识别因果效应的表达式(因果估计量)。使用统计方法对表达式进行估计。使用各种鲁棒性检查来验证估计的正确性。
2023-03-13 11:02:11 2026
原创 pygraphviz安装教程
最近在做casual inference,做实验时候想因果图可视化,遂需要安装pygraphviz,整了一下午,终于捣鼓好了,真头大。环境:传送门:http://www.graphviz.org/download/进入后,选择操作系统对应的版本,如图所示。下载好后,双击正常安装,在安装选项中,记得选择add path for all users,否则容易出现控制台无反应的问题。安装完成后,检测一下是否安装成功,win+r,输入cmd,打开控制台,输入命令:如图:出现了版本号那就说明安装成功了。
2023-02-22 11:25:22 1418 3
原创 2020年因果推断综述《A Survey on Causal Inference》
文章对因果推理方法进行了全面的回顾,根据传统因果框架所做的三个假设,将这些方法分为两类,对于每个类别,都讨论和比较了传统的统计方法和最近的机器学习方法。
2023-02-09 15:58:35 1641
原创 logistic回归、lasso回归、ridge回归、Elastic Net回归之间的总结
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
2023-02-08 17:02:42 10252
原创 知识图谱常用评价指标:MRR,MR,HITS@K,Recall@K,Precision@K
MRR的全称是Mean Reciprocal Ranking(排名的倒数),其中Reciprocal是指“倒数的”的意思。该指标越大越好(即预测排名越靠前,倒数就越大,求和结果越大越好)。MRR=∣S∣1∑i=1∣S∣ranki1=∣S∣1(rank11+rank21+⋅⋅⋅+ranki1)其中S是三元组集合,∣S∣是三元组集合个数,ranki。
2022-11-14 10:43:01 16876 12
原创 PyCharm运行bash脚本
因python代码用bash去执行,而本机是windows操作系统,因此需要在本机的pycharm上进行调试,运行bash则是一个需要解决的问题。
2022-11-13 21:59:07 6053 5
原创 Papers with Code一个查找论文和对应代码的神器
Papers with Code 是一个包含机器学习论文及其代码实现的网站。大多数论文都是有GitHub代码的,这个网站很牛逼的地方就是对机器学习方向做了任务分类,检索对应的论文、数据、代码和精度榜单一目了然。妈妈再也不用担心我们复现代码难了!!!网站地址:https://paperswithcode.com/点击Browse State-of-the-Art进行查看最近的文章,网页会按照方向分类好,如图:比如想查找GCN论文,搜索简称或者论文名即可检索,回显内容有简介、论文地址、还有对应的代码,如图:
2022-11-13 09:49:58 28915 7
原创 分类之混淆矩阵(Confusion Matrix)
为什么时隔多年又再做一次混淆矩阵的整理,TMD就是每次用的时候要自己回过头查一遍,老是记不住,为了打好基础,再次进行梳理。
2022-10-27 19:11:40 1325
原创 机器学习之核函数的理解与常见核函数
最早的分类问题是线性分类,因此仅靠一条线可以进行划分。如图:但是对求解非线性问题,则是通过某种非线性变换φ(x),将输入空间映射到高维特征空间,从而找到一个超平面进行分类。其实在svm中,就用到了核函数的思想,为了更清晰的呈现,特意去找了个视频:核函数思想摘自好了,看完视频,我们也知道了其实对于不可分的平面,在支持向量过程中,采用的是通过映射到高维空间后,从而可以形成一个超平面,最终实现了超平面分类。即。
2022-10-25 23:13:55 2304
原创 windows中copy /B 实现文件里藏文件(文件隐写的实现)
最近研究图片的图片数字水印技术,发现很简单的两个文件合并成一个文件功能,然而还不影响原始文件的内容,我们将其称为图片文件的隐写。当然,小秘密或者私人文件需要隐藏但是又逃不过别人的多层“扫描”,那也可以通过简单的几行命令实现隐藏。一起来试试吧~~~# 0x02. 命令说明copy 是一个基础的DOS命令,也许在今天已经很少有人使用,但它仍然很实用。我们先看看文档说明
2022-10-23 10:21:33 2895 2
原创 图片隐写之LSB(Least Significant Bit)原理及其代码实现
图片隐写术这项技术可以将秘密信息嵌入到图片媒介中而不损坏它的载体的质量。第三方既觉察不到秘密信息的存在,也不知道存在秘密信息。因此密钥、数字签名和私密信息都可以在开放的环境(如Internet或者内联网)中安全的传送。简单概括就是信息明明就在眼前,但是你却视而不见。基本的LSB原理很简单,最容易实现,但是鲁棒性不佳,后续更好的隐藏信息,则会通过数字水印技术实现,后面文章再进行更新。
2022-09-29 09:35:29 8843 3
原创 深度学习Course5第四周Transformers习题整理
解析:This is a correct answer, but other options are also correct. To review the concept watch the lecture Transformer Network.解析This is a correct answer, but other options are also correct. To review the concept watch the lecture Transformer Network.
2022-09-18 16:46:44 3611
原创 深度学习Course5第三周Sequence Models & Attention Mechanism习题整理
解析:The encoder-decoder model for machine translation models the probability of the output sentence y conditioned on the input sentence x. The encoder portion is shown in green, while the decoder portion is shown in purple.
2022-09-16 16:47:43 4676 1
原创 深度学习Course5第二周Natural Language Processing & Word Embeddings习题整理
解析: word vectors empower your model with an incredible ability to generalize. The vector for “ecstatic” would contain a positive/happy connotation which will probably make your model classify the sentence as a “1”.(泛化能力增强)
2022-09-07 10:13:52 4030 2
原创 深度学习Course5第一周Recurrent Neural Networks习题整理
解析:Exploding gradients happen when large error gradients accumulate and result in very large updates to the NN model weights during training. These weights can become too large and cause an overflow, identified as NaN.解析:Instead of using Γu to compute 1 -
2022-09-02 16:06:04 2547
原创 深度学习Course4第四周Special Applications: Face Recognition & Neural Style Transfer习题整理
解释:Correct, in neural style transfer we are interested in the similarity between S and G, and the similarity between G and C.解释:in neural style transfer we are interested in the similarity between S and G, and the similarity between G and C.
2022-08-29 16:31:37 4489
原创 深度学习Course4第三周Detection Algorithms习题整理
解析:you need bounding boxes in the training set. Your loss function should try to match the predictions for the bounding boxes to the true bounding boxes from the training set.解析:(2 * 2)/ (4 * 4 + 4 * 4 - 2 * 2)= 4 / 28 = 1 / 7。
2022-08-14 17:52:28 4087
原创 xctf攻防世界 Web高手进阶区 mfw
题目给出的内容如图:一通点击后,发现链接中出现page=***的字样,说明page传参是重点,是问题的突破口。
2022-08-11 11:30:53 7507
原创 xctf攻防世界 Web高手进阶区 ics-05
这个题目后面不难,最难的是一开始使用php伪协议,其次是php代码审计。这儿是知识盲区,慢慢积累吧。
2022-08-09 10:06:28 7476
原创 xctf攻防世界 Web高手进阶区 shrine
一般python模板注入涉及到知识比较广,但是套路基本固定,参考大佬的总结文章即可,问题不大。SSTI模板注入总结CTF|有关SSTI的一切小秘密【Flask SSTI+姿势集+Tplmap大杀器】
2022-08-06 18:22:57 7610
迁移学习(office数据集,office10和office31)
2019-11-25
Mybatis-Generator自动生成Dao、Model、Mapping相关文件
2018-12-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人