DeepSeek+LoRA+FastAPI-微调大模型并暴露接口给后端调用
一、简介本期视频主要分为以下五部分: 1. 需求和技术 企业对于大模型的不同类型个性化需求 SFT(有监督微调)、RLHF(强化学习)、RAG(检索增强生成)-关注:基本概念;分别解决什么问题;如何根据需求选择; 微调部分详细介绍: 微调算法的分类 **LoRA 微调算法 微调常见实现框架 2. 整体步骤说明 在 Linux 系统上微调一个大模型、部署模型、暴露 API 给 web 后端调用,本机前端展示全过程 3. 模型微调 框架: LLama-Factory (国产最热门的微调框架) 算法: **LoRA (最著名的部分参数微调算法) 基座模型:DeepSeek-R1-Distill-Qwen-1.5B-蒸馏技术通常用于通过将大模型(教师模型)的知识转移到小模型(学生模型)中,使得小模型能够在尽量保持性能的同时,显著减少模型的参数量和计算需求。 4. 模型部署和暴露接口 框架:FastAPI(一个基于 python 的 web 框架) 5. web后端调用 通过 HTTP 请求交互即可( Demo 前后端代码都在视频简介) 二、需求和技术1....
李沐交大讲座——大语言模型及个人成长分享
李沐交大讲座——大语言模型及个人成长分享 李沐在交大分享了关于大模型的实践经验和未来的预测,以及个人工作和成长的一些经验,感觉很有收货,摘录了一些重点,感兴趣可以看原视频。 李沐:BosonAI联合创始人,前亚马逊首席科学家,曾任AI创业公司Marianas Labs CTO、百度深度学习研究院主任研发架构师。 大语言模型的现在和的未来语言模型的最核心的三个要素是算力、数据和算法:语言模型像炼丹,数据就像炼丹材料,算力就像炼丹炉等设备,算法就像丹方。以前的深度学习就像一个丹就治一个病,现在希望为丹注入灵魂,解决很多问题。 带宽:带宽是最难也是最重要的,大模型分布式训练需要通过光纤连接,光纤目前带宽在400G左右,会成为瓶颈,光纤传输延迟也需要考虑。现在的趋势是把GPU放到一起,距离足够近,英伟达的GB200就是这个思路。密集的GPU会带来电力和散热问题,散热需要使用水冷,水冷对基建有更高的要求。 内存:内存比算力更关键,大模型需要大量内存处理数据。当前单芯片内存约 192...
Dify创建Flux_AI免费绘图应用
Dify 创建 Flux AI 免费绘图应用 本文介绍了如何利用 Dify 创建 Flux AI 免费绘图应用。只需要在 Dify 中输入提示词和图片分辨率,Dify 会直接返回图片。文中还介绍了如何获取硅基流动的免费 API,以及如何自定义 Dify 的绘图插件。 一、Flux AI 简介AI 绘画,开源中知名度最高的肯定是 Stable Diffusion。在 2024年8月1日,来自 Stable Diffusion 团队的成员成立了黑森林实验室公司(Black Forest Labs),致力于开发最先进的开源生成模型,用于图像和视频。目前公司有 4 款 AI 绘图模型:[1] FLUX1.1 [pro] :2024年10月1日发布的最先进且高效的版本,代号“蓝莓”,是目前市面最强的 AI 画图模型(是的,强于Midjourney)。比FLUX.1 [pro]快六倍,同时提升图像质量、提示遵循能力和多样性。 FLUX.1 [pro] :顶级性能图像生成模型,闭源模型,具有最先进的提示遵循能力、视觉质量、细节表现和输出多样性。适用于商业和企业级应用。 FLUX.1...
HuggingFace模型下载及使用
Hugging Face 模型下载及使用 这篇文章介绍了Hugging Face平台和它的核心产品。演示了如何在AWS EC2实例上,从Hugging Face Hub下载并运行Qwen2-0.5B-Instruct模型。最后,还展示了如何用Gradio图形化界面与Qwen LLM进行聊天对话。 一、Hugging Face 简介Hugging Face是一家美国公司,成立于2016年,起初是为青少年开发聊天机器人应用程序。后来,Hugging Face转型为专注于机器学习的平台公司,推出了多款促进NLP(自然语言处理)技术发展的产品。主要产品有: 预训练模型:Hugging Face提供了一系列优秀的预训练NLP模型,如BERT、GPT、RoBERTa等,这些模型在多项任务中表现出色。 Transformers库:Hugging...
Ollama结合Open-WebUI本地运行大模型
Ollama 结合 Open-WebUI 本地运行大模型 本文介绍了如何使用 Ollama 在本地运行大型语言模型,以及利用 Open-WebUI 提供的图形化界面与大语言模型进行交互。 一、Ollama 简介Ollama 是一个开源框架,专门设计用于在本地运行大型语言模型(LLM)。它的主要特点和功能如下: 简化部署:Ollama 旨在简化在 Docker 容器中部署 LLM 的过程,使得管理和运行这些模型变得更加容易。安装完成后,用户可以通过简单的命令行操作启动和运行大型语言模型。例如,要运行 Gemma 2B 模型,只需执行命令 ollama run gemma:2b。 捆绑模型组件:它将模型权重、配置和数据捆绑到一个包中,称为 Modelfile,这有助于优化设置和配置细节,包括 GPU 使用情况。 支持多种模型:Ollama 支持多种大型语言模型,如 Llama 2、Code Llama、Mistral、Gemma 等,并允许用户根据特定需求定制和创建自己的模型。 跨平台支持:支持 Windows、macOS 和 Linux 平台。安装过程简单,用户只需访问...
Xinference本地运行大模型
Xinference 本地运行大模型 本文介绍了如何使用 Docker 部署 Xinference 推理框架,并演示了如何启动和运行多种大模型,包括大语言模型、图像生成模型和多模态模型。还讲解了嵌入和重排模型的启动方法,为后续 Dify 调用嵌入和重排模型做为铺垫。 一、Xinference 简介Xorbits Inference (Xinference) 是一个开源的分布式推理框架,专为大规模模型推理任务设计。它支持大语言模型(LLM)、多模态模型、语音识别模型等多种模型的推理。以下是 Xinference 的主要特点 [1]: 模型一键部署:极大简化了大语言模型、多模态模型和语音识别模型的部署过程。 内置前沿模型:支持一键下载并部署大量前沿开源模型,如 Qwen2、chatglm2、等。 异构硬件支持:可以利用 CPU 和 GPU 进行推理,提升集群吞吐量和降低延迟。 灵活的 API:提供包括 RPC 和 RESTful API 在内的多种接口,兼容 OpenAI...
安装Dify并集成Ollama和Xinference
安装 Dify 并集成 Ollama 和 Xinference 本文介绍了通过 Docker 安装 Dify,然后集成 Ollama 和 XInference,并利用 Dify 快速搭建一个基于知识库问答的应用。 一、Dify 简介Dify 是一款开源的大语言模型(LLM)应用开发平台,旨在帮助开发者快速构建和部署生成式 AI 应用。以下是 Dify 的主要功能和特点 [1]: 融合 Backend as Service 和 LLMOps 理念:Dify 将后端即服务(Backend as Service)和 LLMOps 的理念结合,使开发者能够快速搭建生产级的生成式 AI 应用。 支持多种模型:Dify 支持数百种专有和开源的 LLM 模型,包括 GPT、Mistral、Llama3 等,能够无缝集成来自多家推理提供商和自托管解决方案的模型。 直观的 Prompt 编排界面:Dify 提供了一个直观的 Prompt IDE,用于编写提示、比较模型性能,并向基于聊天的应用程序添加语音转换等附加功能。 高质量的 RAG 引擎:Dify 拥有广泛的 RAG...
互联网公司技术岗实习/求职经验(实习内推+简历+面试+offer篇)
互联网公司技术岗实习/求职经验(实习内推+简历+面试+offer篇)找工作的事基本尘埃落定了,打算把这大半年来积累的经验写下来,基本都是我希望当年找实习的时候自己能够知道的东西,帮师弟师妹们消除一点信息不平等,攒攒RP~...
注重实效的哲学程序员修炼之道第一章阅读心得
注重实效的哲学——程序员修炼之道第一章阅读心得 强烈推荐这本书《程序员修炼之道——从小工到专家》 https://book.douban.com/subject/5387402/ 注重实效的程序员的特征他们处理问题、寻求解决方案时的态度、风格、哲学。 能越出直接问题去思考更深层次的东西。总是设法把问题放到更大的语境中,设法注意更大的图景,以最小代价达到最佳效果。 项目代码的维护,对自己的代码负责,将项目代码保持整洁优雅。 善于发现变化、接受变化、自我改变。能克服惰性,在改变中,提高效率,自我提升。 注重积累自己的知识资产。定期读好书、学新知识、温故总结。 更好的和他人交流。工作生活中我们会有快一半的时间用于交流,我们应该在交流中学习,提高交流的效率,在交流中收获良师益友。 以上我从书中总结的五点非常重要,下面会结合实际情况详细分析、并找到如何做的方案。 以及个人认为时间的规划也很重要,长期安排和短期安排都很重要,附 Geek...