首页 / 原创 / 电脑数码/ 电脑整机/ 台式机/ 家用电脑/ 正文

AMD YES！用蓝宝石7800XT显卡本地AI绘图+语音生成，附教程

家用电脑 09-05 09:54:42 99 0

过去两年涌现了非常多的AI绘图工具，不过就功能的完整性和出图质感来看，全球范围内除了midjourney外应该就是Stable Diffusion（下文简称SD）最强大了，并且SD还是开源免费的，可部署到本地使用。

AI绘图相当考验显卡的性能，估计也有不少人都听过“A卡玩游戏，N卡生产力”的说法，那么，到底能不能用A卡来玩AI绘图呢？

答案是肯定的，这篇文章就分享一下借助A卡在本地部署SD绘图的过程，另外也一并分享一下如何在本地使用AI文字转音频工具ChatTTS生成极度接近真人的语音。

蓝宝石7800XT极地版显卡简介

我使用的这款AMD显卡是蓝宝石的RX 7800XT 16G 极地版，采用AMD新一代架构RDNA3，显卡流处理器为3840个，核心频率在2169到2475MHz之间，显存采用256bit GDDR6，容量也有16GB，整体来看能耗更低性能更强。

此外，蓝宝石作为A卡一线品牌，在制造工艺和架构设计上比普通品牌也更有实力，像这款7800XT就搭载了高性能飞翼轴流扇、五热管散热系统及全尺寸金属背板，除了提供出色的散热性能保障高负载运行下的稳定性，也可以更好地防护物理碰撞带来的损害。

在实际游戏场景中，这款显卡的温度一直控制在70℃以内，并且没有明显的噪声和啸叫干扰，作为入门级4K显卡，在4K分辨率下玩《黑神话·悟空》，开启FSR和帧生成后平均FPS也能达到80左右。

从游戏体验来看，蓝宝石7800XT极地版的性能是毋庸置疑的，而通过专业的生产力性能软件PCMARK10测试，最终整机综合得分为10118，照片编辑分数为25086，渲染与视觉变化分数为27148，视频编辑分数为9516，可见这款显卡在剪辑、修图、渲染等专业场景中也同样有用武之地。

这里顺便提一句，蓝宝石7800XT本身配置就比较高，没有什么需要挑剔的地方，本地部署AI大模型不管是绘图还是生成视频、音频，都非常吃显存，所以还是建议选择显存16GB的显卡。

A卡部署Stable Diffusion本地绘图

DirectML是一个用于机器学习的DirectX12库，它能够支持AMD显卡加速。在A卡平台上部署，需要用到DirectML版本的SD，主要步骤如下：

①在电脑上准备DirectML SD环境。这个过程稍微有些复杂，不过DirectML是微软联合AMD专门推出的A卡本地部署AI大模型解决方案，所以在微软官网可以查找相关教程，至于SD的安装包，则需要在软件项目托管平台下载，不方便放链接，可以自己搜。

②安装必备工具Python和Git，需要注意的是Python得是支持torch的Python 3.10.6版本，这两个工具都有对应的官方网站可以下载。

③安装AMD HIP SDK程序，可以在AMD官网下载，没有安装的话在运行的时候也会提示，可直接跳转下载。

④做好前面的准备工作，就可以进入正式部署环节了，建议单独建一个文件夹比如“AMD Stable Diffusion”用来存放SD本地文件，注意不要用英文。

⑤在新建的文件夹中运行Windows命令提示符，方法有几种

⑥输入Direct ML Stable Diffusion webUI的安装命令，点击回车键安装，安装完成后在“AMD Stable Diffusion”文件夹找到webuser.dat双击，进入主程序和模型文件安装，这里是自动运行。

⑦完成之后在浏览器输入local URL即可进入界面，local URL可直接复制。

前面这些步骤是完全自己部署，其实还挺复杂的，即便是对照操作也不一定能理解，门槛比较高，所以个人还是推荐一步到位的方法，直接使用秋葉大佬的安装包。

网上有很多资源分享，各种工具组件都集成了，解压之后找到“A绘世启动器”双击就能进入控制界面，继续点击右下角的一键启动就能打开WebUI绘图界面。

SD WebUI界面就是下面这个样子，控制参数还蛮多，新手需要耗费一些精力尝试熟悉，不过相对comfyUI来说已经简单许多了。

借助SD本地模型，可以绘制自己喜欢的壁纸、首饰服装穿戴效果图、装修风格参考图、建筑效果图等，对于降低成本、提高效率来说帮助还挺大，不过需要搭配合适的模型才行，个人觉得难度比部署时大得多，这就得自己不断琢磨研究了。

附文字转语音模型推荐

其实A卡不仅支持SD本地模型，很多其他实用大模型也是可以本地部署的，部署成功之后可以持续免费使用，只要电脑不出问题那就是一劳永逸了，这里再推荐一个可本地使用的文字转语音大模型。

ChatTTS文字转语音

这是一个专门为对话场景设计的文本转语音模型，支持英文和中文两种语言，具备中英混读和多人说话的能力，能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词等，生成自然流畅的语音，被很多人认为是目前最强的语音模型。

本地部署需要显存大于4GB的显卡，同时要用到ffmpeg（一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序），过程还是有些复杂，不过网上有098版本的懒人整合包，提供了ffmpeg程序包和安装教程，难度降低很多。

一键文字转语音的工具早就有了，而且输出速度很快，只不过很多都是费用高，语气呆板。ChatTTS语音模型的优势不仅在于它开源、免费，相对于一般的文字转语音工具，它的音色、语气更加真实，调节的参数空间更大，可用于各种短视频、宣传片、纪录片的配音，甚至可以为虚拟人物定制音色，缺点就是生成速度慢，调节参数费时间，需要较多的精力不断尝试。

翻译

搜索

复制