阿黄king-CSDN博客

原创 Hive上游为ORC格式的表，下游读取不完整

下游读取数据的时候，一直反复尝试，数据仍然不完整，理论上来说上游有四条数据，下游始终只能读到一条，反复排查后发现上游的任务都是spark类型，下游是用hive进行处理的时候会遇到这种问题，原因是下游的hive和上游的spark对于ORC格式的处理方式有所区别，spark底层对于读和写替换了原有的hive方案，所以导致两边不兼容，引发了数据不对齐的情况。遇到同类问题，采用spark.sql.hive.convertMetastoreParquet=false也可以解决问题。

2023-02-14 15:35:12 441

num.traineddata

自己训练了三张图片，里面有0123456789+-/*=的图像集，图片量不大，所以识别率会低一点，这两天在训练一个准确度高一点的继续上传

2019-10-22

img_knn_know.jar

这个也是摸索了才慢慢搞出来的，也借鉴了很多大牛的资料，自己做了一个比较简易的版本，其中设计了OPENCV和KNN，精准度92%，并不是太高，目前在考虑结合TESS4J能否优化这个项目，如果有问题的话可以私下交流一下，保存的训练集是存在本地F盘下面的trainimg文件夹的，这个是加载的时候自动生成的。（导入jar包实例化Main就可以运行了）

2019-10-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人