アナリスト-CSDN博客

原创利用java实现插入排序、归并排序、快排和堆排序

package example;import java.util.Arrays;public class AllSort { //插入排序 public static void insert_sort(int []data) { int N=data.length; for(int j=1;j<N;j++) { int key=data[j]; int i=j-1;

2020-12-06 12:40:21 206

原创【LeetCode专题】树、二叉树、二叉搜索树

LeetCode94 二叉树的中序遍历class Solution(object): def inorderTraversal(self, root): """ :type root: TreeNode :rtype: List[int] """ reslist=[] def inord...

2019-12-01 00:29:35 209

原创利用python实现插入排序、归并排序、快排和堆排序

data=[12,3,5,6,8,9,13,20,10,100,11,1000,23,999]##############################直接插入排序#思路是两层循环，外层for处理每个元素（用j遍历，忽略第一个元素，用key指代），内层是while循环，负责为每个元素找到相应的位置，使得每加入一个新的元素后，前面的有序区间仍然有序。#做法是当该元素比前面的最后一个元素（...

2019-11-28 14:54:01 267 1

原创 PCA算法(Principal Component Analysis)揭秘

经典PCA将数据投影到更低维的线性子空间，事实上，PCA也可以用概率隐变量模型的极大似然估计方法来解释。这种PCA提法，也叫做概率化PCA(Probabilistic PCA，或简称PPCA)。它比传统PCA有如下优势：

2024-04-08 16:01:32 655

原创 Adaboost算法揭秘

本文介绍使用最广泛的AdaBoost模型，它的全名是“adaptive boosting”，即“自适应提升模型”。Boosting能得到很好的结果，即便基分类器只是比随机猜测好一点点，有时候也叫基分类器为“弱学习器”。Boosting最早被设计为分类问题，但也能扩展到回归问题。

2024-03-02 16:52:49 864

原创 CRF算法(Conditional Random Fields)揭秘

条件随机场(即CRF)可看成最大熵模型的序列版本(sequence version)，这意味着它们都是判别式模型。CRF与HMM对比，除了后者是生成式模型之外，二者另一个重要的不同点是，CRF不再局限于线性序列结构，而可以是任意结构，当然线性结构是最常见的。

2024-02-22 15:50:55 414

原创 HMM算法(Hidden Markov Models)揭秘

HMM的许多应用中，隐变量具有重要的含义，因此有必要找到已知观测序列对应的最有可能的隐状态序列。例如在语音识别中，需要找到给定声音对应的最有可能的文本序列。由于HMM是一个有向图，该问题可以用最大-求和算法(max-sum algorithm)精确处理。

2024-01-10 13:30:35 1056 1

原创 EM算法(expectation maximization algorithms)揭秘

比起k-means算法，EM一般需要迭代更多次数来到达收敛，每一轮的计算量也更大。因此有必要用k-means辅助初始化，帮助找到比较好的初始值。需要强调，EM并不保证找到全局最优解，初始值对此有影响。存在多种启发式或元启发式方法来避开局部最大值，例如随机重新启动爬山（从几个不同的随机初始估计开始），或应用模拟退火方法。

2023-12-20 10:16:34 863

原创马尔科夫决策过程（Markov Decision Process）揭秘

MDP是强化学习的基础。MDP能建模一系列真实世界的问题，它在形式上描述了强化学习的框架。RL的交互过程就是通过MDP表示的。RL中Agent对Environment做出一个动作（Action），Environment给Agent一个反馈（Reward），同时Agent从原状态变为新状态。这里的反馈可以是正、负反馈；Agent执行动作是根据某个策略（Policy）进行的。

2023-12-06 12:54:38 1037

原创蒙特卡洛树搜索（Monte Carlo Tree Search）揭秘

MCTS能够非常聪明的去探索胜率较高的路径，和dfs这类暴力穷举算法比起来，可以花费较少的运算资源，就能达到不错的效果，尤其对于围棋这类每步棋都有200种左右选择的游戏，使用MCTS的效果非常显著。但与此同时也要指出，MCTS并不能保证一定找到最佳路径和着法。AlphaGo和李世石比赛就输了一盘，说明不一定能百分百找到最优解。不过论整体胜率，AlphaGo和AlphaGoZero已远远超过了人类。既然围棋的变化(10的360次方)比宇宙中的原子还多，比起dfs或minimax等算法，使用MCTS还是非常有

2023-11-14 21:02:49 1357

原创贝叶斯网络：利用变量消除(Variable Elimination)进行推理

故事的背景如下：假如你正在参加一个聚会，突然John打电话给你，你离开聚会并接听，他说家里有警报（Alarm），但是他说的话不一定是事实（只是具有某个概率），因为他经常喝醉。然后没多久Mary也打电话给你，说回家吧，家里有警报（Alarm），同样她的话可信度也对应一个概率。现在你需要弄清楚这是由入室盗窃（Burglary）引起的警报，还是由地震（Earthquake）引起的警报，或者他俩都说的谎话（喝醉产生幻觉或故意开玩笑）。

2023-11-05 19:34:04 742 1

原创 spark源码的scala解析

五、柯里化和类型约束org/apache/spark/graphx/Graph.scala中有如下代码： def outerJoinVertices[U: ClassTag, VD2: ClassTag](other: RDD[(VertexId, U)]) (mapFunc: (VertexId, VD, Option[U]) => VD2)(implicit eq: VD =:= VD2 = null) : Graph[VD2, ED]这里涉及到两个知识点：柯里化和

2022-09-12 23:16:33 1895

原创 flink理论干货笔记（7）及spark论文相关思考

691.Dstreams也能像flink那样，处理无序/乱序的记录吗？可以，Dstreams提供了两种方法：1)Dstreams可以在每个批次之前等待一个空闲时间2)允许用户自行对迟到数据进行纠正。比如增量reduce操作，即在老计数基础上再加新纪录的计数，来避免重复计算。...

2022-08-30 11:07:59 540 1

原创 flink理论干货笔记（6）

565. 可以用. uid("")来手动为算子分配id，可以确定每个算子的状态。576. flink-conf.yaml完整配置包括hdfs相关、核心配置、JM相关、TM相关、akka相关、rest相关、blob相关、心跳相关、ssl相关、netty相关、web前端相关、fs相关、编译优化相关、runtime相关，以及资源管理相关（RM）、yarn相关、mesos相关、HA相关、zk相关、kerberos相关、env相关、state相关、可查询状态相关（query）、metrics相关、历史服务器相关。.

2022-08-28 15:26:31 1082

原创 flink理论干货笔记（5）

438.Evictor是逐出器。窗口可以指定evictor，用evictor()来完成。可以在窗口函数之前或之后执行，因此有两个方法evictBefore、evictAfter，它们都依赖EvictorContext；flink自带三个内置驱逐器，CountEvictor、DeltaEvictor、TimeEvictor；注意指定逐出器会阻止任何预聚合，因为在应用计算之前，必须将窗口的所有数据元传递给逐出器。...

2022-08-28 09:58:58 689

原创 flink理论干货笔记（4）

386. 流计算程序中自己维护状态(如ValueState)还是比较复杂的，需要用到update()、clear()、getRuntimeContext()、getState()、ValueStateDescriptor，然后外层定义RichFlatMapFunction的子类，并重写flatMap方法和open方法，最后在流计算中使用flatMap以及参数(即自定义的子类)TM之间进行数据流的交互和传输。根据用例，可能还需要retract()、merge()、resetAccumulator()方法。

2022-08-23 17:40:25 290

原创 flink理论干货笔记（3）

250.动态表是tableapi和sql支持流数据的核心概念。与表示批处理数据的静态表相比，动态表随时间变化。查询动态表会产生连续查询，连续查询永远不会终止，并生成动态表作为结果。查询不断更新（动态）结果表以反映其输入（动态）表的更改。对动态表的连续查询和物化视图的定义查询非常相似。

2022-08-20 10:19:49 479

原创 flink理论干货笔记（2）

199.flinkcep的核心api是CEP.pattern()，它接受一个DataStream和一个Pattern，后者允许你定义要从输入流提取的复杂模式序列，比如begin、where、next、subtype、where、followedBy等。其中where中可以定义SimpleCondition类并重写filter方法。而CEP.pattern得到的流可以继续用select，并结合PatternSelectFunction，然后重写select方法.........

2022-08-16 16:07:45 814

原创 flink理论干货笔记（1）

8. 通过批处理来模拟流处理，会导致开发和运维相互交错，而且这种技术的潜在问题是，时间由系统中生成小批量作业的那一部分全权控制，spark streaming也不能完全避免，而且有糟糕的用户体验，说到底还是无法做到真实时，代码之外还需要大量性能调优。94. 阿里对flink的贡献(一): 重构了flink的分布式架构，将job调度和资源管理做了清晰的分层和解耦，使的flink可以跑在不同的资源管理器上，如yarn和k8s，并将任务调度从集中式改为分布式，可以支持更大规模的集群，和更好的资源隔离。......

2022-08-13 22:46:16 500

原创 Scala入门小纸条(4)

317.类型约束提供另一个限定类型的方式，总共有三种包括T=:=U、T

2022-07-10 20:35:52 221

原创 Scala入门小纸条(3)

201. Iterable特质的方法有head last headOption lastOption tail init length isEmpty map foreach collect flatMap reduceLeft reduceRight foldLeft foldRight reduce fold aggregate sum max min product count forall exists filter filterNot partition takeWhile dro

2022-07-03 17:05:11 227

原创 Scala入门小纸条(2)

101. 只有主构造器可以调用超类的主构造器。主构造器调用超类构造器，辅助构造器调用主构造器，不能跨越。scala也用super来调用超类的方法102. scala重写非抽象方法必须用override；除了方法，scala也能重写字段103. 特质是将java接口变为更加通用的scala概念104. 判断是某个类的对象，而不是子类，可用如p.getClass==classOf[Employee]，其中classOf方法在scala.Predef被定义，会被自动引入 105. 与类型检查和转换相比，模式匹配是

2022-06-29 19:27:29 164

原创 Scala入门小纸条(1)

1. scala的数学操作符实际上是方法，如a+b等于a.+(b)2. /%是BigInt的一个方法，也就是说，scala的方法名可以用任意字符3. scala不用强制类型转换，而用方法，比如val r=99.4.toInt4. scala没有也不需要包装类型 / scala没有基本类型和包装类型之分，如你创建的Int数组在虚拟机中就是int[]数组，不像java那样还有Integer[]数组5. scala的RichInt、RichDouble、RichChar等提供了基本类型不具备的方法，如1.to(

2022-06-26 09:45:43 196

原创【自然语言处理】韩语基础与入门(语法篇)

1.예요/이에요用法예요/이에요表示判断，没有韵尾（开音节）接 예요，有韵尾（闭音节）接 이에요，例如：하나꼬예요(我是一个) 민호예요(是敏镐) 누구예요(你是谁)중국사람 이에요(我是中国人)이천 이에요(我叫李泉)2.는/은的用法는/은是添意助词，接续体词，如名词、代词、数词之后；指定主题作为主语，表示对比或强调。体词有韵尾（闭音节）接 은，例如：선생님+은 -...

2021-07-25 11:35:48 5898 1

原创【自然语言处理】韩语基础与入门(词汇篇)

1. 日常用语안녕 你好 안녕히 再见 마워요 谢谢 죄송합니다 对不起안녕하세요 你好다시봐요 再见 감사해요 谢谢 죄송해요 对不起안녕하심니까 你好안녕히가세요 再见 감사합니다 谢谢 미안해요 对不起미안합니다对不起다음...

2021-07-24 19:54:55 552 1

原创【自然语言处理】韩语基础与入门(1)

1. 韩语的字母表韩语字母40个，包括21个元音，19个辅音。元音包括10个基本元音和11个复合元音；辅音包括14个基本辅音和5个紧辅音。10个基本元音分别是"ㅏ ㅓ ㅗ ㅜ ㅡ ㅣ ㅐ ㅔ ㅚ ㅟ"，11个复合元音分别是“ㅑㅕ ㅛ ㅠ ㅒㅖㅘ ㅙ ㅝ ㅞ ㅢ ”。5个紧辅音分别是“ㄲ ㄸ ㅃ ㅆ ㅉ”，其余为基本辅音。基本辅音还可以继续分为5个松音（“ㄱ ㄷ ㅂ ㅅ ㅈ”），4个送气音（“ㅋ ㅌ ㅍ ㅊ”），3个鼻音（“ㄴ ㅁ ㅇ”），1个闪边音（“ㄹ”），1个摩擦音（“ㅎ”）。2. ...

2021-07-21 23:24:00 834 3

原创【自然语言处理】日语基础与入门(2)

1. 三种基本句式肯定句：わたしは王です（我是小王）否定句：先生は中国人ではありません（先生不是中国人）疑问句：铃木さんは学生ですか（铃木是学生吗）说明：ではありません是です的否定形式。2. ですか、ですね、ですよ的用法及区别ですか表示疑问，回答可以是：はいそうです。（是的。）いいえ、違います。　（不是的。）いいえ、そうでは　ありません。　（不是的。）い...

2021-07-20 20:58:08 3198 1

原创【自然语言处理】日语基础与入门(1)

怎么看待日语？日语是介乎于中文和西文之间的杂交语言。像中文一样采用单音节读法，一个字母(平假名)就是一个音，却象西文那样以若干个字母(平假名)组成一个单词来表达一个意思。而真正的西文只需要读出整个单词的读音，而不是一个字母一个字母的读。所以日语只能以最多的读音来表达最少的意思，是世界上效率最低的语言之一。（这意味着，同样的一段话，日语比中文、英语更长）日语有哪些教材？《新编日语》全套教材分为四册：新编日语1、2、3、4《新版标准日本语》全套教材分为六册：初级（上+下）、中级（上+下）、高级（上

2021-07-19 18:16:39 717 2

原创量化交易入门——多因子系列

一、量化交易基础与框架https://www.joinquant.com/view/community/detail/3ca1564dd4831740cc4d0b5a3c01a957 （初识量化交易）基本的检验策略方法有回测和模拟交易两种方法。回测是让计算机能根据一段时间的“历史数据”模拟执行该策略，根据结果评价并改进策略。模拟交易是让计算机能根据“实际行情”模拟执行该策略一段时间，根据结果评价并改进策略。实盘交易就是让计算机能自动根据实际行情，用真金白银自动执行策略，进行下单交易。https:

2020-11-13 17:03:42 4706

原创量化交易入门——平台框架、技术类策略、量化心得

量化平台分类：本地：MC、TB、WH、TS、MT4云端：聚宽、优矿、米筐、bigquantSDK/量化API：万得、东财choice、掘金量化开源框架：PyCTP、Vnpy、zipline、quicklib使用平台的优点：省时省力，无需收集清洗数据无需编写复杂的回测引擎有大量集成好的函数使用使用平台的缺点：无法导入数据；数据有问题就没辙无法自定义下单算法很多限制，如日线只能用收盘价买卖编程语法不统一收费（按年、按手续费比例）有bug只能忍策略安全性如何判断策略

2020-11-13 10:49:41 2256

原创 bigquant量化平台笔记

https://bigquant.com/tutorial/ （宽客学院）https://bigquant.com/community/t/topic/131694 （AI量化策略快速理解）AI量化策略的目标(Label)：默认使用股票收益率作为目标。第一步：确定数据(如股票池)，划分训练集、测试集第二步：定目标：数据标注第三步：找因子（好的因子组合是策略成功的关键。）第四步：数据连接+缺失数据处理第五步：模型训练+股票预测（机器学习模型采用StockRanker模型，是一个排序模型，预测

2020-11-12 15:17:49 1784

原创金融工程学课程笔记

金融工程学？目的是成为出色的金融工程师、个人的理财师、公司的理财师和政府的理财师；金融工程是1990年左右诞生；（金融从定性分析到定量分析，再到工程化和产品化）因此学习金融工程之前，要先学传统金融学，特别是投资学！！！具有跨学科特征，是一门交叉学科；油画是期权；约翰芬纳蒂定义了金融工程：运用工程的思维，设计、开发、应用新型的金融产品；（例如可调整利率的按揭贷款；）思想创新、已有观念理解和运用、已有产品重新组合；清算和支付、融通资金和股权细化、资源配置、风险管理、信息提供、解决激励问题；职位

2020-10-22 21:43:15 1567 1

原创会计学课程笔记

会计的定义：信息系统论、计量工具论、管理活动论；会计的职能：监督和制约职能（会计和出纳分离）、财产清查、内部审计、保险监管、证券监管；预测和决策职能；控制职能；四柱结算法：旧管+新收=开除+实在（期初结存+本期收入-本期支出=期末结存）1484年巴其阿勒开创了现代会计；英美派会计和大陆派会计；（会计学原理、财务会计学、管理会计学、成本会计学、审计学、财务管理学、电算化会计）（财务会计学分为中级和高级；成本会计学很枯燥；）（四大会计事务所是哪四个？普华永道(PwC)、德勤(DTT)、毕马

2020-10-22 21:32:56 419

原创行为金融学课程笔记

传统金融学的假设：市场是充分竞争的、市场主体具有完美理性、市场主体是自私的、市场主体具有完美的自我控制能力；（经济人假设）（经济人最早是《国富论》提出的）传统金融学经典理论：现代资产组合理论、资本资产定价模型、MM定理、有效市场假说、套利定价理论、BS模型；传统金融学目的是，借助精密的逻辑推演和数学模型，成为硬科学！！！（行为金融学加入心理学、社会学等）西蒙提出了‘有限理性’假定和‘次优决策’学说；亚当斯密的《道德情操论》指出人除了利己，也有利他的一面；行为博弈论也发现人们在博弈中存在利他

2020-10-22 21:24:45 2491

原创投资学课程笔记

《投资学》兹维.博迪《投资学》威廉.夏普《金融经济学》汪昌云《微观金融学及其数学基础》邵宇投资学的位置：金融-金融学-微观金融学-投资学（微观金融学还包括：证券投资学、公司财务、金融经济学、金融市场学、金融中介学、保险学等课程）（宏观金融学有货币银行学、国际金融学、中央银行学、财政学；）投资是投入现在确定的价值，去谋取未来不确定的价值 --夏普1952年之前的理论：1738年《关于风险衡量的新理论》–期望效用理论：确定是否投资的不是期望收益而是期望效用提出边际效用递减的概念；冯诺依曼摩

2020-10-22 21:04:21 2465

原创 KG摘要--大白话

什么是事件抽取？怎么做？EE主要有两种方法：joint approach和 pipelined approach；前者同时predicts event triggers and arguments；后者首先performs trigger prediction，然后identifies arguments in separate stages.联合抽取的好处是，可以阻止error propagation，以及从全局对 inter-dependencies 建模Event Detection（ED）.

2020-09-20 21:16:11 169

原创 QA摘要--大白话

闲聊怎么做？闲聊主流的是端到端的做法，即seq2seq，但效果不是很好，特别对于多轮对话，表现在轮数比较少，回答多样性比较差，万能回复等，因此也出现了模块化的做法，即任务型的那一套，包括DST+策略。任务型怎么做？任务型主流做法是模块化，基于槽填充，用的是RL或SL，但也有端到端的做法；没有固定的做法，只能说有主流的做法，如果有固定做法，那还发什么论文？什么是NBT和DST？怎么做？dialogue state tracking (DST) 用于理解用户输入以及更新belief sta.

2020-09-20 16:04:29 168

原创推荐系统笔记2019

FM与libfm：FM（Factorization Machines）结合了SVM与factorization models的优点；FM建模了所有特征的交互，因此适用于大型稀疏的场景，比如recommender systems；（SVMs fail）FM能在线性时间被计算出来，并且能直接优化；（SVM是非线性的，且其中的dual transformation 没有必要）指出SVD++、PI...

2020-01-05 14:39:56 574

原创《推荐系统实践》笔记

推荐类型：社会化推荐（根据好友推荐电影）、基于内容的推荐（根据演员找电影）、基于协同过滤的推荐（根据兴趣相似的人找电影）；推荐应用：电商（如亚马逊）、电影和视频（如Netflix、YouTube）、音乐（如Pandora、Last.fm）、社交网络（如Facebook、Twitter）、阅读（如Google Reader、Digg）、位置服务（如Foursquare）、邮件（如Tapestry...

2020-01-05 12:46:11 247

原创 LeetCode22 括号生成递归详解

给定n=3，如何生成[’((()))’, ‘(()())’, ‘(())()’, ‘()(())’, ‘()()()’]，直接附上代码（python版）class Solution(object): def generateParenthesis(self, n): """ :type n: int :rtype: List[str] ...

2019-06-24 19:28:22 446 2

web service课件

西北某高等院校研究生的web service课件，英文版的，总共7个ppt，比较简练，适合想快速了解学习web service的学生下载学习，分别是Web Services(ch3.1)、Web Services(ch3.2)、Web Services(ch3.3)、Web Services(ch3.4)、Web Services(ch3.5)、Web Services(ch3.6)、Web Services(ch3.7)，此外，另附一个大作业，学完后可以做下检验下所学成果。

2016-06-26

java高级特性整理资料(反射+并发+jvm)

包含java三大高级特性的文档，《Java Reflection in Action》、《JAVA并发编程实战》、《JVM调优总结》、《深入理解Java虚拟机JVM高级特性与最佳实践》、《concurrent programming in java》，适合想深入java技术的学生和程序员学习和参考。

2016-06-26

alphaGo论文

本文是从nature上下载的介绍alphaGo的原版论文，是英文版的，介绍了alphaGo的原理，需要有较好的数学基础、算法基础才能理解。适合有志攻读深度学习或者人工智能的本科生阅读。

2016-06-26

redis-latest

redis的最新版windows安装包，包含服务端工具redis-server.exe和客户端工具redis-cli.exe，安装时先解压，进入D:\redis\,然后执行redis-server.exe redis.windows.conf以启动服务器，然后重开一个cmd进入相同目录，执行redis-cli.exe -h localhost -p 6379，其中localhost可以用ip代替。然后就可以使用了。输入set hello world,再输入get hello，就能输出world，开始你的redis学习之旅吧！

2016-06-25

用rasa训练dialogue报错ruamel.yaml.constructor.ConstructorError

2019-08-22

TA创建的收藏夹 TA关注的收藏夹

TA关注的人