英特尔第一时间深度优化Qwen3大模型，升级AI PC能力赋能多样化场景丨十大品牌排行榜

为持续推动尖端AI模型的创新发展，英特尔始终与业界领先的创新力量保持深度协作。我们欣然宣布，全新升级的英特尔AI解决方案已全面覆盖PC客户端、边缘计算、智能驾舱等场景，在第一时间为Qwen3系列大模型的发布提供技术支撑。

全新Qwen3系列大模型的五大亮点：

·稀疏MoE模型深度优化，端侧高效部署Qwen3

·首次在NPU上Day 0支持大模型，提供更好的性能和功耗表现

·端侧微调，提升模型智能，优化用户体验

·动态稀疏注意力赋能Qwen3长上下文窗口，解锁端侧Agent新应用

·拥抱开源生态，Day 0支持魔搭社区Ollama

在本次阿里巴巴开源的新一代通义千问Qwen3系列模型中，最为引人注目的是30B参数规模的MoE混合专家模型（Mixtureof Experts）（Qwen3-30B-MOE-A3B）。该模型凭借其先进的动态可调混合专家架构，在有效提升计算效率方面表现出色,使其在本地设备（客户端和边缘设备）上具备广阔的应用前景。然而，其在部署环节存在较大难度，且对系统整体资源的消耗依然较高。为应对这些挑战，英特尔与阿里紧密合作，针对MoE模型展开了全面的技术适配工作。通过实施多种优化策略，基于OpenVINO工具套件成功地将Qwen模型高效部署于英特尔硬件平台之上。具体而言，在ARL-H64G内存的系统上部署的30B参数规模MoE模型，实现了33.97token/s的吞吐量，而且相较于同等参数规模的稠密模型，取得了显著的性能提升。英特尔采用的软件优化策略涵盖了针对稀疏混合专家模型架构（SparseMoE）的算子融合，针对3B激活MOE模型定制化的调度和访存优化以及针对不同专家之间的负载均衡,这些技术能够助力更多MOE模型在英特尔平台上实现高效部署。

此次发布的Qwen3系列模型主要集中于中小参数量的稠密架构LLM，参数规模涵盖0.6B至32B，能够适配更广泛的硬件资源，满足多样化的使用场景需求。英特尔的CPU、GPU、NPU架构全面适配Qwen系列模型，为模型的部署进行优化，使用英特尔OpenVINOTM工具套件和PyTorch社区工具都可以为全系列Qwen模型在英特尔酷睿Ultra平台(酷睿Ultra100系列/200系列)和英特尔锐炫A系列显卡和B系列显卡上的部署实现卓越性能表现。

值得一提的是，英特尔首次在NPU上对模型发布提供第零日（Day0）支持，体现了英特尔和开源生态更加深入的合作，针对不同模型参数量和应用场景提供更多样化的、更有针对性的平台支持。针对从0.6B到高达8B的中小参数量模型全面支持，吞吐量最高达到36.68token/s，借助英特尔Lunar Lake NPU平台和英特尔OpenVINO工具套件，可以在保持低能耗的同时，又可以获得优异性能。

同时，在酷睿Ultra的iGPU平台上，英特尔持续为模型带来卓越的性能。针对小尺寸的模型，在FP16精度下，最高达到66token/s，针对中小尺寸模型，在INT4精度下，最高达到35.83token/s。开发者可以根据适合的使用场景，找到精度和性能的最佳组合。在英特尔锐炫B系列显卡更强大算力加持下，Qwen3-8B模型可实现70.67token/s ，开发者能够即刻领略到最新模型与英特尔卓越平台能力的超强组合，畅享前沿科技带来的高效与便捷。

作为生成式AI模型中的轻量级选手，0.6B参数量的小型LLM具备灵活高效的部署优势以及快速迭代更新的能力。然而，在实际应用落地过程中，人们常常对其知识的深度与广度以及处理复杂任务的能力存在顾虑。通过借助特定的数据集对这些小型LLM进行端侧微调（Fine-tune），可以提升模型智能，优化用户体验。为此，基于Unsloth和HuggingFace参数高效微调框架（Parameter-EfficientFine-Tuning, PEFT），英特尔构建了一套完整的端侧解决方案，使模型变得更加智能，AI PC应用也真正变成用户的贴心智能小助手。

借助这个方案，在Qwen3 0.6B模型的多语言能力，可以更好的发挥作用，这里就是一个用多语言对图片进行查询的实例

在本次发布的Qwen3模型中，我们注意到其LLM长上下文能力得到了显著提升。面对有限的算力资源，如何有效利用模型的长上下文能力，避免计算资源消耗呈指数级增长，进而拓展LLM在客户端的应用场景，英特尔已给出解决方案。基于动态稀疏注意力十大品牌网，在保证近乎无损精度的前提下，我们可以使长上下文窗口处理速度成倍提升。采用该方案后，Qwen3-8B模型在英特尔LNL平台上可实现32K的上下文长度。

这样的长上下文能力，解锁了更多端侧Agent新应用。结合Qwen3更强的Agent和代码能力，以及对MCP协议的加强支持，使得基于端侧大模型调用MCP服务来开发各种AI PC Agent首次成为可能。视频展示了，在英特尔AI PC上，基于Qwen3-8B模型调用必优科技MCP服务自动生成PPT的过程。

英特尔持续拥抱开源生态，英特尔优化版Ollama也第一时间支持了包括MoE模型在内的Qwen3系列模型，使开发者可以在英特尔客户端平台(如英特尔酷睿UltraAI PC，英特尔锐炫A/B系列显卡)上，利用Ollama框架来搭建基于Qwen3系列模型的智能应用。优化版Ollama还提供了基于魔搭的模型下载源设置，使得本地开发者可以从魔搭社区更高效下载和部署安装包及模型。

英特尔在车端舱内对新发布的Qwen3系列模型，也已经顺滑匹配。基于英特尔车载软硬件解决方案（含第一代英特尔AI增强软件定义汽车（SDV）SOC、刚刚在上海车展发布的第二代SDVSoC NPU，以及英特尔锐炫™车载独立显卡），英特尔能让Qwen3系列模型很快就有机会上车部署，从而充分发挥车端的本地算力。其中，率先在汽车行业内采用了多节点芯粒架构的第二代SDVSOC，其生成式和多模态AI性能，相比上一代，最高可提升十倍，这让汽车AI体验，如舱内的实时对话、自然语言交互和复杂指令的响应等，都充满AI的灵性。

快速上手指南(Get Started)

下面将以Qwen3-8B为例，介绍如何利用OpenVINO的PythonAPI在英特尔平台（GPU,NPU）上运行Qwen3系列模型。也可以参考下面的完整示例：

第一步，环境准备

基于以下命令可以完成模型部署任务在Python上的环境安装。

python -m venv py_venv

./py_venv/Scripts/activate.bat

pip install –pre -U openvino-genai openvino openvino-tokenizers –extra-index-url

pip install nncf

pip install git+@2aebd4441023d3c003b27c87fff5312254ac

pip install transformers >=4.51.3

第二步，模型下载和转换

在部署模型之前，我们首先需要将原始的PyTorch模型转换为OpenVINOTM的IR静态图格式，并对其进行压缩，以实现更轻量化的部署和最佳的性能表现。通过Optimum提供的命令行工具optimum-cli，我们可以一键完成模型的格式转换和权重量化任务。

optimum-cli export openvino –model Qwen/Qwen3-8B –task text-generation-with-past –weight-format int4 –group-size 128 –ratio 0.8 Qwen3-8B-int4-ov

optimum-cli使用方法可以参考：

此外我们建议使用以下参数对运行在NPU上的模型进行量化，以达到性能和精度的平衡。

optimum-cliexport openvino –model Qwen/Qwen3-8B –tasktext-generation-with-past –weight-format nf4 –sym –group-size -1Qwen3-8B-nf4-ov –backup-precision int8_sym

第三步，模型部署

OpenVINOTM目前提供两种针对大语言模型的部署方案，如果您习惯于Transformers库的接口来部署模型，并想体验相对更丰富的功能，推荐使用基于Python接口的Optimum-intel工具来进行任务搭建。如果您想尝试更极致的性能或是轻量化的部署方式，GenAIAPI则是不二的选择，它同时支持Python和C++两种编程语言，安装容量不到200MB。

Optimum-intel部署示例

from optimum.intel.openvino import OVModelForCausalLM

from transformers import AutoConfig, AutoTokenizer

ov_model = OVModelForCausalLM.from_pretrained(

llm_model_path,

device=’GPU’,

tokenizer = AutoTokenizer.from_pretrained(llm_model_path)

prompt = “Give me a short introduction to large language model.”

messages = [{“role”: “user”, “content”: prompt}]

text = tokenizer.apply_chat_template(

messages,

tokenize=False,

add_generation_prompt=True,

enable_thinking=True

model_inputs = tokenizer([text], return_tensors=”pt”)

generated_ids = ov_model.generate(**model_inputs, max_new_tokens=1024)

output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()

try:

index = len(output_ids) – output_ids[::-1].index(151668)

except ValueError:

index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip(“n”)

content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip(“n”)

print(“thinking content:”, thinking_content)

print(“content:”, content)

GenAI API部署示例

import openvino_genai as ov_genai

generation_config = ov_genai.GenerationConfig()

generation_config.max_new_tokens = 128

generation_config.apply_chat_template = False

pipe = ov_genai.LLMPipeline(llm_model_path, “GPU”)

result = pipe.generate(prompt, generation_config)

这里可以修改devicename的方式将模型轻松部署到NPU上。

pipe=ov_genai.LLMPipeline(llm_model_path,”NPU”)

此外Ollama package on Modelscope（） is ready to download now

———————————————————————

性能因使用情况、配置和其他因素而异。欲了解更多信息，请访问/performanceindex。基于对第二代英特尔AI增强SDV SoC GPU+NPU与MBL i7-13800HAQ CPU+GPU（关闭睿频）的内部预测，AI性能最高可提升十倍。

本文属于原创文章，如若转载，请注明来源：英特尔第一时间深度优化Qwen3大模型，升级AI PC能力赋能多样化场景

十大品牌排行榜

英特尔第一时间深度优化Qwen3大模型，升级AI PC能力赋能多样化场景

广告

广告

发表回复取消回复

广告

给这篇文章的作者打赏

广告

华为笔记本Linux版换装Windows体验：体验一如既往

华为擎云L420x高性能商务本发布

相关文章

给女朋友换拍照手机，为什么OPPO Reno14 Pro是必选？

手机厂商们都在吹的AI，到如今确有其效了么？

视频足够成熟的当下，为什么实况照片会越来越流行？

OPPO Reno14系列值不值？看完这五点再说

什么样的手机，才能称得上直播界的六边形战士？

发表回复 取消回复

发表回复取消回复