✅ 一、前提条件 使用 Qwen3-32B 的开源版本 从 ModelScope 或 Hugging Face 下载模型。 推理框架支持 RoPE 扩展 推荐:vLLM ≥ 0.6.0、SGLang ≥ 0.4.0、llama.cpp(需编译支持 YaRN)。 GPU 显存充足 128K 上下文会显著增加 KV Cache 显存占用(INT4 量化下约需 25–35GB)。 ✅ 二、启用 128K 的核心方法:YaRN(Yet another RoPE extensioN...
2025-12-19 10:53 43 0
在大模型(Large Language Models, LLMs)的训练与推理过程中,数值精度格式(Numerical Precision Format)是影响性能、显存、速度和模型质量的核心因素之一。随着模型规模从数十亿到数千亿参数,高效利用硬件资源变得至关重要。 以下是目前在大模型领域最常见、最实用的数值精度格式详解,涵盖其原理、优缺点及典型应用场景。 📊 一、主流数...
2025-12-16 22:21 142 0
微调大语言模型(Large Language Model, LLM)是将通用大模型适配到特定任务或领域(如医疗、法律、客服)的关键技术。随着模型规模增大(7B → 70B+),全量微调(Full Fine-tuning)成本过高,因此涌现出多种高效微调(Parameter-Efficient Fine-Tuning, PEFT) 方法。 以下是截至 2025 年 主流的微调技术分类与详解: 🧩 一、全量微调(Ful...
2025-12-16 22:11 139 0
一、NVIDIA 的 CUDA 核心是什么? ✅ 定义 CUDA 核心(CUDA Core) 是 NVIDIA GPU 中的基础可编程计算单元,专为大规模并行浮点/整数运算设计。 每个 CUDA 核心可执行简单的算术逻辑操作(如加法、乘法)。 现代 NVIDIA GPU 包含数千至上万个 CUDA 核心(如 RTX 4090 有 16,384 个)。 它们被组织在 流式多处理器(SM, Streaming Multiprocessor...
2025-12-16 17:51 132 0
截至 2025 年 12 月,NVIDIA GeForce RTX 系列显卡已发展至 第五代(RTX 50 系列),涵盖从入门级到旗舰级的完整产品线。以下是 RTX 20 / 30 / 40 / 50 四大主流消费级系列 的完整型号列表及核心规格概要说明(基于官方与权威社区数据整理)。 📌 总览:RTX 各代发布时间与架构 系列 发布时间 GPU 架构 制程工艺 核心技术 RTX 20 系列 2018–2...
2025-12-16 17:23 379 0
截至 2025 年 12 月,全球已发布 超过 300 个医学大模型(Medical Large Language Models, Med-LLMs),涵盖通用医疗问答、专科诊疗、多模态分析、药物研发等方向。以下按 开源状态 + 应用类型 分类,系统梳理 代表性医学大模型,并标注是否开源、开发者、特点及适用场景。 ✅ 一、完全开源的医学大模型(含权重 & 代码) 模型名称 开发单位 参...
2025-12-16 17:06 179 0
截至 2025 年 12 月,Radiology-SAM 和 MedSAM 都是基于 Meta 的 Segment Anything Model (SAM) 架构、专为医学影像分割任务优化的开源模型。尽管目标相似(实现通用医学图像分割),但二者在训练数据、设计目标、性能特点和适用场景上存在显著差异。 以下是两者的系统性对比: 📊 一、基本信息对比 项目 MedSAM Radiology-SAM 发布时间 2023 ...
2025-12-16 14:44 146 0
什么是推理引擎? 推理引擎(Inference Engine)是专门用于高效执行已训练好的 AI 模型(尤其是大语言模型、视觉模型等)的软件系统。它的核心任务不是训练模型,而是将模型“部署上线”,在实际应用中快速、稳定、低成本地完成预测(即“推理”)。 推理引擎的核心作用: 模型加载与解析:读取模型权重(如 PyTorch .bin、ONNX、TensorRT 等格...
2025-12-11 15:15 227 0
在 4 张 NVIDIA L20 显卡 的服务器上部署 Qwen3-32B 大模型 + emb/rerank/OCR 小模型,需从 硬件、操作系统、驱动、AI 软件栈、服务部署与算力分配 全链路规划。以下是面向生产环境的完整建议(截至 2025 年 12 月)。 一、服务器硬件建议 组件 推荐配置 说明 GPU 4 × NVIDIA L20(48GB GDDR6 ECC) 支持 FP8/INT8,适合推理;总显存 192GB CPU ...
2025-12-11 15:13 351 0
大模型(如 Llama、Qwen、DeepSeek 等)的部署普遍采用 Ubuntu 而非 CentOS,背后有技术生态、社区支持、硬件兼容性和开发效率等多方面原因。以下是详细分析: 一、核心原因总结 维度 Ubuntu 优势 CentOS 劣势 NVIDIA 驱动 & CUDA 支持 官方优先支持,更新快 支持滞后,常需手动编译 Python / AI 框架生态 PyTorch/TensorFlow 官方推荐 依赖库版...
2025-12-11 14:53 241 0
以下是截至 2025 年 12 月 NVIDIA 主流 GPU 显卡的分类及核心性能参数对比表,涵盖 数据中心(AI/计算)、工作站(专业图形)和消费级(游戏/创作) 三大系列,便于根据应用场景选型。 📊 NVIDIA 主流显卡类型与性能参数总览 系列 型号 架构 CUDA 核心 显存 显存带宽 FP8 算力 INT8 TOPS FP16 TFLOPS TDP 典型用途 数据中心(AI 加速) H100 H...
2025-12-11 10:22 805 0
在医疗领域知识库系统(如基于 RAG 的智能问诊、电子病历辅助、临床决策支持等)中,所用的小模型(Embedding、Reranker、OCR)需兼顾专业术语理解、结构化信息提取和高精度检索。以下是针对医疗场景优化或常用的开源小模型及其参数量与显存需求(截至 2025 年): 一、Embedding 模型(医疗文本向量化) 用于将医学文献、病历、指南等编码为向...
2025-12-11 10:14 245 0
一、微调 Qwen-32B 医疗垂直模型的步骤 假设目标:获得一个在电子病历生成、医学问答、诊断辅助等任务上表现优异的 医疗专用 LLM 步骤 1:准备环境与工具链 硬件平台:华为 Atlas 800/900 训练服务器(搭载 Ascend 910B) 软件栈: CANN(Compute Architecture for Neural Networks)≥ 7.0 MindSpore ≥ 2.3(支持大模型分布式训练) MindForme...
2025-12-10 16:10 255 0
阿西莫夫三定律(Asimov’s Three Laws of Robotics)是由著名科幻作家艾萨克·阿西莫夫(Isaac Asimov)在20世纪40年代提出的一套关于机器人行为伦理的基本准则。这些定律首次出现在他1942年的短篇小说《转圈圈》(Runaround)中,后来成为其“机器人系列”作品的核心思想,并深刻影响了后世对人工智能与机器人伦理的讨论。 阿西莫夫三定律原文...
2025-12-10 15:19 317 0
在大模型(Large Language Models, LLMs)领域,COE 架构通常指的是 Conditional Computation(条件计算) 的一种实现形式,其中最典型、最广泛应用的就是 Mixture of Experts(MoE,混合专家) 架构。虽然“COE”并非一个严格统一的标准术语,但在工业界和学术论文中,COE 常被用作 “Mixture of Experts” 或 “Conditional Routing to Expert...
2025-12-06 22:26 226 0
人的一生应该是这样度过的:当他回首往事的时候,他不会因为虚度年华而悔恨,也不会因为碌碌无为而羞耻;这样,在临死的时候,他就能够说:“我的整个生命和全部精力,都已经献给世界上最壮丽的事业....."
CNDBA_2: 142216823(2k群)
CNDBA_3: 283816689(2k群)
CNDBA_4: 391125754
CNDBA_5: 104207940
CNDBA_6: 62697977