fly-iot-CSDN博客

原创 cctv 还是有很多资源可以看的，不用在优酷上面搜索

cctv的《海峡两岸》大陆和台湾两边一起讨论台湾的问题，希望祖国早日统一。中央电视台惟一的涉台时事新闻评论栏目，节目宗旨是“跟踪海峡热点，反映两岸民意”。节目分为两个版块：第一个是“热点扫描”，主要报道当日和近期台湾岛内的热点新闻；第二个是“热点透视”，当日或近期涉台热点深度报道及两岸专家对此事的评论，并对两岸各个层面的交流交往进行跟踪报道。http://tv.cctv.com/l...

2018-01-16 17:55:48 2291

原创本站各种文章汇总

今后的时间讲精力放到 golang ，docker ，kubernetes 上面。以后云计算是方向。博客等级等级所需积分 V1 0 V2 100 V3 500 V4 1000 V5 2000 V6 5000 V7 10000 V8 30000 V9 50000 V10 100000 V11 200000 V12 300000 V1...

2017-04-06 20:40:48 1762

原创【LocalAI】（10）：在autodl上编译embeddings.cpp项目，转换bge-base-zh-v1.5模型成ggml格式，本地运行main成功

LocalAI的项目里面的embedding 是 bert embedding.不支持BGE 模型，有大神给改造支持了BGE的模型了。

2024-05-01 13:27:47 105

原创【LocalAI】（9）：本地使用CPU运行LocalAI，一次运行4个大模型，embedding模型，qwen-1.5-05b模型，生成图模型，语音转文字模型

【LocalAI】（9）：本地使用CPU运行LocalAI，一次运行4个大模型，embedding模型，qwen-1.5-05b模型，生成图模型，语音转文字模型。它允许您在本地使用消费级硬件运行 LLM（不仅如此），支持与 ggml 格式兼容的多个模型系列。支持CPU硬件/GPU硬件。LocalAI 是一个用于本地推理的，与 OpenAI API 规范兼容的 REST API。替换了镜像里面的aio 文件夹。把模型都使用国内镜像进行下载地址替换了。使用了modescope 下载地址。

2024-05-01 12:44:21 359

原创【LocalAI】（6）：在autodl上使用4090部署LocalAIGPU版本，成功运行qwen-1.5-32b大模型，占用显存18G，速度 84 tokens / s

【LocalAI】（6）：在autodl上使用4090部署LocalAIGPU版本，成功运行qwen-1.5-32b大模型，占用显存18G，速度 84t/s。它允许您在本地使用消费级硬件运行 LLM（不仅如此），支持与 ggml 格式兼容的多个模型系列。支持CPU硬件/GPU硬件。LocalAI 是一个用于本地推理的，与 OpenAI API 规范兼容的 REST API。24G的显存占用了 18G,同时速度还可以。配置成功之后就可以启动了。

2024-04-20 23:55:23 470

原创【LocalAI】（5）：在autodl上使用4090Ti部署LocalAIGPU版本，成功运行qwen-1.5-14b大模型，占用显存8G，原来是cuda-11版本的原因

cuda的硬件版本是 12.4 比如 4090D 的，可以使用local-ai-cuda12-Linux-x86_64 版本。其他的情况，比如 cuda 是12.2 或这 11.8 的情况。就只能使用local-ai-cuda11-Linux-x86_64 的版本了。

2024-04-20 16:45:49 180

原创【LocalAI】（3）：LocalAI本地使用Model gallery，对qwen模型进行配置，使用modescope源下载，本地运行速度快。特别简单！

在linux上使用一个二进制文件，成功运行embeddings和qwen-1.5大模型，速度特别快，有gitee配置说明。它允许您在本地使用消费级硬件运行 LLM（不仅如此），支持与 ggml 格式兼容的多个模型系列。支持CPU硬件/GPU硬件。LocalAI 是一个用于本地推理的，与 OpenAI API 规范兼容的 REST API。本身localai的后端实现就是 llama.cpp ，所以也可以支持qwen大模型。modelscope.cn 进行下载，速度会更快。支持gguf的量化版本。

2024-04-09 09:07:38 358

原创【LocalAI】（3）：终于研究明白了！超级简单！在linux上使用一个二进制文件LocalAI，成功运行embeddings和qwen-1.5大模型，速度特别快，有gitee配置说明

【LocalAI】（3）：超级简单！在linux上使用一个二进制文件，成功运行embeddings和qwen-1.5大模型，速度特别快，有gitee配置说明。它允许您在本地使用消费级硬件运行 LLM（不仅如此），支持与 ggml 格式兼容的多个模型系列。支持CPU硬件/GPU硬件。LocalAI 是一个用于本地推理的，与 OpenAI API 规范兼容的 REST API。

2024-04-09 09:00:21 457

原创【xinference】（8）：在autodl上，使用xinference部署qwen1.5大模型，速度特别快，同时还支持函数调用，测试成功！

可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xorbits Inference 与最前沿的 AI 模型，发掘更多可能。借助 Xinference，您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理，并创建强大的 AI 应用。然后就可以查看全部支持的模型进行启动。启动Xinference服务。

2024-04-02 23:00:42 709

原创【xinference】（7）：在autodl上，使用xinference一次部署embedding，rerank，qwen多个大模型，兼容openai的接口协议，超级棒的方案

Xorbits Inference (Xinference) 是一个开源平台，用于简化各种 AI 模型的运行和集成。借助 Xinference，您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理，并创建强大的 AI 应用。【xinference】（7）：在autodl上，使用xinference一次部署embedding，rerank，qwen多个大模型，兼容openai的接口协。在autodl上下载项目主要是安装。启动访问之后可以进行安装各种软件了。启动Xinference服务。

2024-04-02 22:36:55 695

原创【wails】（10）：研究go-llama.cpp项目，但是发现不支持最新的qwen大模型，可以运行llama-2-7b-chat

编译成功，虽然有一点 warning 警告信息，问题不大。

2024-03-23 23:41:18 373

原创【ai技术】（4）：在树莓派上，使用qwen0.5b大模型+chatgptweb，搭建本地大模型聊天环境，速度飞快，非常不错！

特别注意是 docker-compose-linux-armv7 版本，linux版本。安装docker 和 docker-compose 命令。

2024-03-23 12:40:30 1280

原创【ai技术】（3）：使用脚本对树莓派4，上面的ollama qwen 大模型测速，0.5b速度 9.6 words/s，1.8b速度 2.8 words/s，也是非常不错了。

【代码】【ai技术】（3）：使用脚本对树莓派4，上面的ollama qwen 大模型测速，0.5b速度 9.6 words/s，1.8b速度 2.8 words/s，也是非常不错了。

2024-03-21 22:58:45 411

原创【ai技术】（3）：树莓派4，成功安装ollama软件，内存4G，推荐使用命令行界面安装，使用raspi-config配置wifi，运行速度飞快

【代码】【ai技术】（3）：树莓派4，成功安装ollama软件，内存4G，推荐使用命令行界面安装，使用raspi-config配置wifi，运行速度飞快。

2024-03-21 22:07:47 656

原创【ai技术】（2）：树莓派3，使用的是armv7的版本，不支持ollama安装，内存1G，推荐使用命令行界面安装，使用raspi-config配置wifi，老设备了运行不了图形界面

树莓派3，安装ollama本地运行ollama大模型，测试速度。

2024-03-18 09:04:09 337

原创【ai技术】（1）：发现一个大模型可视化项目，使用nodejs编写的，llm-viz，可以本地运行展示大模型结构。

https://github.com/bbycroft/llm-viz或者镜像：https://gitcode.com/bbycroft/llm-viz.git项目主要项目有：LLM 可视化：运行推理的 GPT 风格 LLM 网络的 3D 互动模型。 [WIP] CPU 模拟：一个带有完整执行模型的 2D 数字电路图编辑器，展示了一个简单的基于 RISC-V 的 CPU。LLM 可视化这个项目显示了一个 GPT 风格网络的工作实现的三维模型。也就是说，这是 OpenAI 的 GPT-2、GPT-

2024-03-18 08:28:49 713

原创【ollama】（8）：nvidia-docker在Nvidia Jetson Nano设备，对接chatgpt-web服务，配置成功，可以进行web聊天了，给ollama增加web界面

特别注意是 docker-compose-linux-armv7 版本，linux版本。然后安装docker 执行脚本即可。

2024-03-16 23:41:36 251

原创【ollama】（7）：使用Nvidia Jetson Nano设备，成功运行ollama，运行qwen:0.5b-chat，速度还可以，可以做创新项目了

【代码】【无标题】在jetson上安装 ollama。

2024-03-16 22:31:43 635 2

原创【ollama】（6）：在本地使用docker-compose启动ollama镜像，对接chatgpt-web服务，配置成功，可以进行web聊天了，给ollama增加web界面

Ollama 是一个强大的框架，设计用于在 Docker 容器中部署 LLM。Ollama 的主要功能是在 Docker 容器内部署和管理 LLM 的促进者，它使该过程变得非常简单。它帮助用户快速在本地运行大模型，通过简单的安装指令，可以让用户执行一条命令就在本地运行开源大型语言模型，例如 Llama 2。使用ollama + chatgpt-web 实现本地大模型执行。然后访问：http://localhost:3002/ 即可。CPU 推荐使用 7b及以下版本。

2024-03-14 23:28:11 1157

原创【ollama】（5）：在本地使用docker-compose启动ollama镜像，修改模型存储位置，并下载qwen-0.5b模型，速度飞快

Ollama 是一个强大的框架，设计用于在 Docker 容器中部署 LLM。Ollama 的主要功能是在 Docker 容器内部署和管理 LLM 的促进者，它使该过程变得非常简单。它帮助用户快速在本地运行大模型，通过简单的安装指令，可以让用户执行一条命令就在本地运行开源大型语言模型，例如 Llama 2。【ollama】（5）：在本地使用docker-compose启动ollama镜像，并下载qwen-0.5b模型，速度飞快。

2024-03-14 09:04:54 2101

原创【ollama】（4）：在autodl中安装ollama工具，配置环境变量，修改端口，使用RTX 3080 Ti显卡，测试coder代码生成大模型

Ollama 是一个强大的框架，设计用于在 Docker 容器中部署 LLM。Ollama 的主要功能是在 Docker 容器内部署和管理 LLM 的促进者，它使该过程变得非常简单。它帮助用户快速在本地运行大模型，通过简单的安装指令，可以让用户执行一条命令就在本地运行开源大型语言模型，例如 Llama 2。速度哦还是挺快的，经过一段时间的等待就可以服务启动成功了。

2024-03-12 22:45:35 1913

原创【ollama】（3）：在linux搭建环境中，安装golang开发的ollama工具，并且完成启动下载gemma:7b和qwen:1.8b运行速度飞快，支持http接口和命令行模式

然后因为是docker 虚拟环境，需要手动启动服务： ollama serve。项目使用golang+llama.cpp 项目进行开发的。有切换的时间，模型会重新载入到显存。简化了模型的安装，非常的方便。可以发现支持中文效果也不错。然后启动 gemma:7b。

2024-03-12 08:53:01 1236

原创【ollama】（2）：在linux搭建环境，编译ollama代码，测试qwen大模型，本地运行速度飞快，本质上是对llama.cpp 项目封装

然后经过漫长的编译，就而可以生成了在 build 文件夹。里面有相关的liib库了。框架本质上还是使用了 llama.cpp 项目的。需要编译 llama.cpp 的代码，

2024-03-09 23:05:45 1002 1

原创【fastllm】学习框架，本地运行，速度还可以，可以成功运行chatglm2模型

🚀 纯c++实现，便于跨平台移植，可以在安卓上直接编译🚀 ARM平台支持NEON指令集加速，X86平台支持AVX指令集加速，NVIDIA平台支持CUDA加速，各个平台速度都很快就是了🚀 支持浮点模型（FP32), 半精度模型(FP16), 量化模型(INT8, INT4) 加速🚀 支持多卡部署，支持GPU + CPU混合部署🚀 支持Batch速度优化🚀 支持并发计算时动态拼Batch🚀 支持流式输出，很方便实现打字机效果🚀 支持python调用。

2024-03-09 12:22:24 1055

原创【Tauri】（5）：本地运行candle和 qwen 大模型，并测试速度

使用 candle还是非常方便的，使用另外一种方案运行大模型。使用 cpu 速度就慢多了。

2024-03-07 08:44:54 626

原创【Tauri】（4）：整合Tauri和actix-web做本地大模型应用开发，可以实现session 登陆接口，完成页面展示，进入聊天界面

步骤三：设置 crates.io 镜像，修改配置 ~/.cargo/config，已支持git协议和sparse协议，>=1.68 版本建议使用 sparse-index，速度更快。需要返回标准的 openai api 接口了。整合 tauri 代码和 actix。实现了 server::init。配置rust环境方法。

2024-03-07 08:02:15 869

原创【Tauri】（4）：使用Tauri1.5版本+candle框架运行大模型，前后的搭建运行成功，整合前端项目，在应用中显示。

开源的Chatgpt-web应用。关于tauri 框架。

2024-03-05 23:12:52 376

原创【wails】（9）：经测试可以使用wails进行跨平台编译，目前支持linux，windows平台，不支持mac，且目前的cgo不支持跨平台编译。其他有纯go版本的llama.cpp项目

报错，没有找到库，但实际上有代码。估计下一个版本会支持。

2024-03-05 09:00:37 467

原创【wails】（8）：发现一个用golang重写llama.cpp的llama.go项目，经测试支持f32模型，半年未更新，找到llama.cpp对应的版本，可以转换f32模型

golang 的代码可以执行 f32 的模型，但是不能执行 f16 和 int4 的模型。这部分工作并没有开发完成。因为模型有 26G 所以使用 CPU 执行速度并不快，有 0.37 tokens/s。项目目前看已经 10 个月没有更新了。从代码量看，确实都不算太多。可以研究研究里面的算法。

2024-03-01 08:21:45 785

原创【wails】（7）：研究发现一个新的项目llama.go，使用纯golang写的代码，下载模型文件，然后可以本地执行了，可以执行，就是模型文件26G，运行速度慢 0.37 token/s

然后在autodl上申请服务器，选择 30G内存的服务器：# 克隆项目： git clone https://github.com/gotzmann/llama.go.git # 然后进入 cd llama.go/ # 执行 make # 然后在 builds 目录里面就有了三个文件： ls builds确实是能运行，目前看不支持最新的 GGUF 文件格式。同时是非量化版本 f32 的，造成模型比较慢。而且这个是 llama的第一代的产品。要是有二代的模型且 int4 版本的就好了。

2024-02-27 23:29:56 224

原创【wails】（6）：研究发现一个新的项目llama.go，使用纯golang写的代码，可以支持win,linux,mac平台运行，理论可以运行llama2大模型

关于项目：https://github.com/gotzmann/llama.go确实是因为研究使用 c++ 在win 上面安装环境，折腾的时候特别的麻烦所以找到了这个使用纯golang 编写的llama 模型执行项目 MIT 协议。golang 环境安装：其实就是执行了三次 go build 命令：3，下载模型，然后运行测试目前可能之支持使用 llama 模型：https://modelscope.cn/models/Xorbits/Llama-2-7B-Chat-GGML/files下载模型

2024-02-27 08:38:20 558

原创【wails】（6）：使用wails做桌面应用开发，使用gin+go-chatglm.cpp进行本地模型运行，在windows上运行成功

windows 安装 git 工具。

2024-02-25 23:58:58 712

原创【wails】（5）：使用wails做桌面应用开发，开发接口api函数，启动新本地服务端口9999，使用gin+go-chatglm.cpp进行本地模型运行，返回api接口，在linux上运行成功

参考的代码是提到的 issues。/session 接口。

2024-02-25 20:14:45 540

原创【wails】（4）：使用wails做桌面应用开发，整合chatgpt-web项目做前端，进行本地开发，web端也可以连调，使用websocket实现

使用 wails 和 chatgpt-web项目整合还是非常容易的。可以封装成接口路径地址。然后返回信息。

2024-02-23 21:41:42 582

原创粉丝2000 啦，选对赛道，做正确的事情，粉丝涨到2000说明大家对我做的事情还是非常的认可的，继续坚持中，将相关资料做了视频整理

【chatglm3】（1）：docker本地部署，支持工具调用（Function Call）、代码执行（Code Interpreter）和 Agent 任务。【xinference】（1）：在autodl上，使用xinference部署chatglm3大模型，支持函数调用，使用openai接口调用成功！

2024-02-21 23:02:32 414

原创【wails】（3）：解决 go-chatglm.cpp 项目部署编译的问题，在Linux本地环境成功运行，可以使用CPU进行模型训练，速度还可以，后续可以将模型继承到wails项目中

【代码】【wails】（3）：解决 go-chatglm.cpp 项目部署编译的问题，在Linux本地环境成功运行，可以使用CPU进行模型训练，速度还可以，后续可以将模型继承到wails项目中。

2024-02-21 22:02:34 484

原创使用go-llama.cpp 运行 yi-01-6b大模型，使用本地CPU运行，速度挺快的

LaMA.cpp 项目是开发者 Georgi Gerganov 基于 Meta 释出的 LLaMA 模型（简易 Python 代码示例）手撸的纯 C/C++ 版本，用于模型推理。所谓推理，即是给输入-跑模型-得输出的模型运行过程。无需任何额外依赖，相比 Python 代码对 PyTorch 等库的要求，C/C++ 直接编译出可执行文件，跳过不同硬件的繁杂准备；虽然模型回答的不太对，但是可以运行了，速度确实还可以。那么，纯 C/C++ 版本有何优势呢？具有 F16 和 F32 的混合精度；

2024-02-19 23:55:22 663