3080 20G和3090在大模型推理场景的性能比较
<p>这里使用Ollama部署Qwen3模型进行推理场景的性能实测,比较3080 20G和3090 24G的差异到底多大?</p><p><code>RTX 3080 20G</code>显卡是基于3080 10G魔改的卡,目前市面比较多得被用于小规模参数的大语言模型推理场景,被认为是性价比比3090还高的推理显卡。</p>
<p>因为其在二手交易市场的价格差不多是3090的一半左右,算力租赁市场的几个也只有3090的70%,而其算力和显存都是3090的80%多。</p>
<p>之前测试过3090 24G和4090 24G两张显卡在大模型推理场景的性能差异,参考:<br>
Ollama大模型推理场景下3090和4090性能实测</p>
<p>3080 20G和3090 24G的显卡参数对比</p>
<table>
<thead>
<tr>
<th></th>
<th>RTX 3080 20G</th>
<th>RTX 3090 24G</th>
</tr>
</thead>
<tbody>
<tr>
<td><strong>架构</strong></td>
<td>Ampere</td>
<td>Ampere</td>
</tr>
<tr>
<td><strong>CUDA核心数</strong></td>
<td>8704</td>
<td>10496</td>
</tr>
<tr>
<td><strong>显存容量</strong></td>
<td>20 GB GDDR6X</td>
<td>24 GB GDDR6X</td>
</tr>
<tr>
<td><strong>显存带宽</strong></td>
<td>760 GB/s</td>
<td>936 GB/s</td>
</tr>
<tr>
<td><strong>TDP功耗</strong></td>
<td>320W</td>
<td>350W</td>
</tr>
<tr>
<td><strong>FP32 算力</strong></td>
<td>29.8 TFLOPS</td>
<td>35.6 TFLOPS</td>
</tr>
<tr>
<td><strong>Tensor FP16 算力</strong></td>
<td>119 TFLOPS</td>
<td>142 TFLOPS</td>
</tr>
</tbody>
</table>
<p>对比显卡参数,很有意思的是,3080 20G在核心数量、显存、带宽、算力方面基本都是3090 24G的83%左右。</p>
<h2 id="ollama大模型推理测试">Ollama大模型推理测试</h2>
<h3 id="大模型选择">大模型选择</h3>
<p>这里选择 <code>Qwen3</code>的模型进行测试,考虑到3080显存只有20GB,分别选择一个<code>FP16</code>精度和一个<code>Q4_K_M</code>量化后的大模型进行测试:</p>
<table>
<thead>
<tr>
<th>模型</th>
<th>精度</th>
<th>大小</th>
</tr>
</thead>
<tbody>
<tr>
<td>qwen3:8b</td>
<td>fp16</td>
<td>16 GB</td>
</tr>
<tr>
<td>qwen3:14b</td>
<td>q4_K_M</td>
<td>9.3 GB</td>
</tr>
</tbody>
</table>
<p>借助<code>DeepSeek</code> 生成测试脚本,使用复杂度近似的8个prompts;<code>MAX_TOKENS</code>配置256,让每次请求需要一定的生成时长便于采样显卡的使用指标,减少波动;同时需要模型预热,消除第一次推理响应延时过大的问题。</p>
<p>AI算力租赁平台有 3080 20G 的不多,这里只找到了 AutoDL 和 晨涧云 两家,创建3080 20G和3090 24G两种显卡的Ollama容器实例,启动后访问<code>Open WebUI</code> 选择模型:</p>
<p></p>
<p>然后就可以执行推理性能测试脚本,查看输出结果。</p>
<h3 id="3080-20g推理性能">3080 20G推理性能</h3>
<p></p>
<h3 id="3090-24g推理性能">3090 24G推理性能</h3>
<p></p>
<h3 id="测试结果解释">测试结果解释</h3>
<ul>
<li>
<p><strong>Latency (s)</strong>:多次推理平均响应时长</p>
</li>
<li>
<p><strong>Throughput (tokens/s)</strong>:多次推理平均Token生成速度</p>
</li>
<li>
<p><strong>VRAM (MB)</strong>:多次推理平均显存使用量</p>
</li>
<li>
<p><strong>GPU Util (%)</strong>:多次推理平均GPU使用率</p>
</li>
</ul>
<p>3080 20G显卡和3090 24G显卡在两个模型推理过程中的显存使用和GPU使用率都比较接近,主要比较<code>平均响应时长</code>及<code>平均Token生成速度</code>两个指标:</p>
<table>
<thead>
<tr>
<th></th>
<th></th>
<th>qwen3:8b fp16</th>
<th>qwen3:14b q4_K_M</th>
</tr>
</thead>
<tbody>
<tr>
<td><strong>响应时长(s)</strong></td>
<td><strong>3080</strong></td>
<td>6.53</td>
<td>4.52</td>
</tr>
<tr>
<td><strong>响应时长(s)</strong></td>
<td><strong>3090</strong></td>
<td>5.39</td>
<td>3.79</td>
</tr>
<tr>
<td><strong>响应时长(s)</strong></td>
<td><strong>差异</strong></td>
<td><strong>121.2%</strong></td>
<td><strong>119.3%</strong></td>
</tr>
<tr>
<td><strong>Token生成速度(tokens/s)</strong></td>
<td><strong>3080</strong></td>
<td>39.22</td>
<td>56.64</td>
</tr>
<tr>
<td><strong>Token生成速度(tokens/s)</strong></td>
<td><strong>3090</strong></td>
<td>47.46</td>
<td>67.62</td>
</tr>
<tr>
<td><strong>Token生成速度(tokens/s)</strong></td>
<td><strong>差异</strong></td>
<td><strong>82.6%</strong></td>
<td><strong>83.8%</strong></td>
</tr>
</tbody>
</table>
<p><strong>FP16精度和Q4_K_M量化模型的推理性能 3080 20G 都是 3090 24G 的83%左右,和显卡参数算力的差异基本一致。</strong></p>
<p>相比二手市场3080 20G价格只有3090的一般多点,GPU算力租赁市场3080 20G的价格也只有3090的70%,所以在性价比上3080 20G还是有其优势的,前提是3080 20G的显存能装得下推理的模型。</p><br>来源:程序园用户自行投稿发布,如果侵权,请联系站长删除<br>免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
页:
[1]