【AI基础学习系列】二、AIGC基础知识

【AI基础学习系列】二、AIGC基础知识（2026实用入门版）

欢迎来到系列第二讲！
上一讲我们建立了AI全景，这次聚焦当下最火、最能直接“产出内容”的部分——AIGC（AI Generated Content，人工智能生成内容）。

2026年的现实是：

我们用最结构化的方式，把AIGC拆成“是什么 → 怎么生成 → 核心技术 → 主流玩法 → 常见坑”五大部分。

AIGC = 用AI模型从零或从少量输入自动创造出全新内容。

时代	代表技术	输入是什么	输出是什么	典型产品（2026仍在主流）
Web1.0–2.0	人工创作	人类脑力	文字/图/视频	传统媒体、PS、Premiere
PGC时代	专业生产内容	专业工具+人工	高质量内容	知乎、B站UP主、公众号
UGC时代	用户生产内容	手机+模板	海量短内容	TikTok、小红书、抖音
AIGC时代	AI生成内容	Prompt / 参考图/文	文本・图像・视频・音频・3D・代码	Midjourney v6、Flux.1、Runway Gen-3、Sora类、Luma、Pika、 Kling、Seedance 2.0、Stable Audio、Udio、Suno v4、DeepSeek、Qwen、Grok、Claude 4

一句话总结2026认知：
AIGC不是取代人类创作，而是把“从0到1的创意门槛”大幅拉低，把“从1到N的规模化生产”交给AI。

生成范式	核心机制简述	代表模型家族（2026主流）	优点	缺点/瓶颈	典型应用场景（2026）
自回归（Autoregressive）	逐token/逐帧预测下一个，最稳	GPT系列、Llama、Qwen、Grok、Claude、Gemini、DeepSeek	文本最强、逻辑最连贯、可控性好	速度慢、长序列成本高	写文章、写代码、写长剧本、对话
扩散模型（Diffusion）	从纯噪声逐步去噪还原	Stable Diffusion、Flux.1、SD3、Midjourney、DALL·E 3/4、Imagen 3、Playground v3	图像/视频质量最高、风格控制强	生成速度慢、需要多步推理	高质量图像、艺术图、视频生成
混合/多模态Transformer	统一架构处理文本+图+视频+音频	Chameleon类、Gemini 2、GPT-4o/o1、Qwen2.5-VL、InternVL、CogVLM2、Yi-VL	多模态最自然、理解+生成一体	训练/推理成本极高	图文视频混生、理解图片后继续生成
流匹配/Rectified Flow（新兴）	更直的路径去噪，速度更快	Flux.1系列、SD3.5部分变体	生成速度大幅提升、质量接近扩散	社区生态还在追赶	追求速度的商用图像/短视频生成

2026最实用判断：

概念	通俗解释（2026版）	为什么重要	典型场景举例
Prompt	给AI的指令（现在叫“提示工程2.0”）	决定80%的输出质量	“电影海报风格，赛博朋克，霓虹灯，中文标题”
Negative Prompt	明确不要出现的内容	避免畸形、多指、低质量	“模糊、畸形手、畸形脸、水印、文字错误”
Seed	随机种子（固定后结果可复现）	调试风格、批量微调用	固定seed做系列海报
CFG Scale	提示词遵守程度（越高越听话，但太高容易崩）	平衡创造力与可控性	图像生成常用7–12
Steps / Denoising Steps	去噪步数（越多细节越丰富，但越慢）	质量 vs 速度权衡	图像20–50步，视频8–25步
LoRA / ControlNet	微调插件，能快速学会特定风格/姿势/人物	低成本个性化	固定脸、固定画风、OpenPose骨骼控制
IP-Adapter / Reference	用参考图控制生成内容（人脸、服装、构图）	一致性最强工具	生成系列同人图、换装
Inpainting / Outpainting	局部重绘 / 无限扩展画布	修图神器	去掉多余物体、把图无限往右扩展
RAG（在AIGC中）	检索增强 → 先查资料再生成	减少幻觉、让回答更专业	企业知识库问答、写专业报告

文本生成 → Claude 4 / Grok-3 / DeepSeek Chat / Qwen-Max / o1-mini（免费额度够用）
图像生成 → Flux.1 [dev]（开源最强） + Midjourney v6.1（风格最多） + Playground v3.5（网页最友好）
视频生成 → Runway Gen-3 Alpha / Kling 1.5 / Luma Dream Machine / Seedance 2.0（春节爆款） / Pika 2.1
音乐/音效 → Suno v4 / Udio v2 / Stable Audio 2.0
多模态/一站式 → Gemini 2.5 Flash / GPT-4o / Qwen2.5-VL（理解图片后继续生成）

最快上手组合（建议新手第一周就玩通）：
Claude / Grok（写文案） → Flux.1（出图） → Kling / Runway（出短视频）

下一讲预告：
【AI基础学习系列】三、提示工程（Prompt Engineering）从0到能赚钱
（很多人卡在这里：模型明明很强，为什么我调不出想要的效果？）

现在你最想先深入哪一块？

告诉我，我下一讲就针对性放大～ 😄

相关文章