AI能力全景图：模型选型与应用指南

In-depth discussion

Technical, Easy to understand

本文档旨在为用户提供一个全面的 AI 能力图谱，帮助理解和选择适合特定需求的 AI 能力。它从模态（文本、图像、音频、视频、3D、多模态）到架构层（模型、检索、Agent、平台工程）系统梳理了主流 AI 能力，并结合常见产品形态与应用场景，给出面向实践的能力选型参考。手册还区分了大模型和小模型的概念，并列举了各类 AI 能力的代表性模型和产品。

main points
unique insights
practical applications
key topics
key insights
learning outcomes

• main points
- 1
  提供了一个系统性的 AI 能力全景图，覆盖了从基础模态到高级架构的广泛内容。
- 2
  清晰区分了大模型和小模型的概念，并给出了实用的判断依据。
- 3
  结合了大量实际应用场景和代表性模型/产品，具有很强的实践指导意义。
• unique insights
- 1
  强调了从“能力清单”到产品内容、搜索问答、智能客服等具体应用的映射方法。
- 2
  提出了“AI 能力全景图”的核心整理思路，旨在解决能力认知碎片化和方案设计随意的问题。
• practical applications
- 帮助用户快速理解 AI 能力的分类和应用，为 AI 体系建设提供低试错成本、高决策效率的选型参考。
• key topics
- 1
  AI Capabilities Overview
- 2
  Large Language Models (LLMs) vs. Small Models
- 3
  Multimodal AI (Text, Image, Audio, Video, 3D)
- 4
  AI Architecture (Retrieval, Agents, Platform Engineering)
• key insights
- 1
  Provides a structured framework for understanding and selecting AI capabilities.
- 2
  Offers practical guidance on mapping AI capabilities to real-world applications.
- 3
  Helps demystify the landscape of AI models and services for informed decision-making.
• learning outcomes
- 1
  Gain a systematic understanding of the AI capability landscape.
- 2
  Learn to differentiate between large and small AI models and their applications.
- 3
  Develop the ability to map AI capabilities to specific business needs and product requirements.

examples	tutorials	code samples	visuals
fundamentals	advanced content	practical tips	best practices

• 引言：AI能力全景图的必要性
• 文本模态：理解与生成
• 音频模态：理解与生成
• 3D/空间模态：感知与生成
• Agent与工具调用层
• AI安全、对齐与评估
• 平台与工程能力（MLOps）

“ 引言：AI能力全景图的必要性

在深入探讨AI能力之前，区分大模型与小模型至关重要。从学术角度看，大模型通常指参数量达数十亿至万亿级别的通用模型，而小模型则是针对特定任务或场景、参数量较小的专用模型（几千万到几亿级）。从价格和应用方式上区分更为务实：API调用成本极低的模型（如每调用几厘钱、几分钱，或每千 tokens 几厘到几分）通常是为特定任务优化的“小模型”（如OCR、ASR、内容审核模型），或是经过压缩和蒸馏的轻量版大模型。反之，单次调用价格显著偏高（几角甚至1元起步）的模型，大概率是通用大模型。如果产品宣传明确强调使用LLM、通用大模型、多模态大模型，或能端到端完成复杂任务（如端到端对话、视频生成），则可视为大模型。而侧重于特定垂直能力（如银行卡识别、语音转写、内容安全审核）的产品，底层更可能是由一组小模型构成。本文约定：大模型主要指通用、可对话、可编程、价格略高的模型（包括多模态版本），能覆盖大部分通用文本、代码及多模态任务。小模型则指为特定任务精调或定制的模型，价格更便宜、性能稳定可控，但适用范围窄，需要主动组合编排。值得注意的是，许多过去由“小模型”承接的任务，如今已能直接由大模型解决。然而，从精度与成本的极致追求来看，小模型的训练与应用仍有其不可替代的价值。对于入门者，可以从调用大模型API开始，再根据成本、精度和延迟权衡，决定何时使用通用大模型，何时引入专用小模型。常见通用大模型包括： - OpenAI系列：GPT-4、GPT-4.1、GPT-4o、GPT-5.1等。 - Google系列：Gemini 1.5 Pro、Gemini 1.5 Flash等。 - Anthropic系列：Claude 3.5 Sonnet、Claude 3.5 Haiku等。 - 国内模型：通义千问Qwen系列、文心一言ERNIE Bot系列、GLM/智谱清言、腾讯混元、讯飞星火、月之暗面的Kimi、MiniMax MiniMax-M2.7系列等。偏视觉和视频方向的大模型和服务包括： - 图像生成：DALL·E、Midjourney、Stable Diffusion、SDXL、Flux等。 - 多模态视觉理解：GPT-4o、GPT-4.1 with Vision、Gemini 1.5（图文多模态）、Claude 3.5 Sonnet Vision、LLaVA等。 - 视频生成：Sora、Kling、Runway Gen-2、Pika、Luma、Veo等。语音和音频方向的大模型包括： - 语音识别ASR：Whisper系列（Whisper、Whisper-large-v3等）、Deepgram、各家云厂商的端到端ASR大模型。 - 语音多模态与语音对话：GPT-4o（端到端语音对话）、OpenAI Realtime、Gemini 1.5的音频理解能力等。 - TTS/音频与音乐生成：OpenAI TTS、ElevenLabs、Suno、Udio、MusicGen等。 3D/空间方向的生成与理解模型包括： - 文生3D和图生3D：DreamFusion、Shap-E、GET3D、Zero-1-to-3、TripoSR等。 - NeRF/神经渲染家族：Instant-NGP、NeRF系列、Gaussian Splatting相关模型等。

“ 文本模态：理解与生成

图像模态是AI能力中负责“用视觉理解世界”的关键部分，它涵盖了从像素级处理到高层语义理解及可控生成的能力。无论是安防监控、自动驾驶、短视频特效，还是多模态问答、AI绘画，都离不开图像模态的支持。 **2.1 底层视觉（Low-Level Vision）：** 在进入高层语义任务之前，底层视觉处理至关重要。它专注于提升图像本身的质量和稳定性，为上层任务提供更健康的输入。主要包括图像复原与增强（如去噪、去模糊、低光照增强、超分辨率重建），以及结构特征抽取（如边缘、角点、局部纹理）。通过传统图像处理方法和深度学习模型（如基于CNN或Transformer的模型），底层视觉旨在将原始像素转化为更清晰、更稳定的图像表示，直接影响用户肉眼看到的画质体验和上层任务的鲁棒性。 **2.2 图像分类与识别：** 这是图像理解的基础任务，回答“这是一张什么图？”（图像分类）或“这是谁/什么实例？”（图像识别与属性识别）。通过将图像映射到语义空间，模型能够区分不同类别的图像，并识别其中的具体对象。 **2.3 目标检测：** 目标检测在图像中定位特定对象的位置（边界框）并识别其类别。它区分单阶段与双阶段检测，以及Anchor-based与Anchor-free方法，旨在提高精度与速度的平衡，并解决小目标和视频检测的鲁棒性问题。 **2.4 图像分割：** 图像分割比目标检测更精细，它将图像划分为不同的区域，并为每个像素分配类别（语义分割）或实例ID（实例分割）。通用分割和无监督分割（如Segment Anything）是该领域的发展方向。 **2.5 关键点检测与动作识别：** 关键点检测（如姿态估计）用于识别图像中人和物的关键点，而动作识别则基于这些关键点序列来理解行为。 **2.6 开放词汇/世界/域检测：** 这些技术旨在突破固定类别限制，使模型能够识别未见过的类别（开放词汇检测），学习未知（开放世界检测），或在不同风格、设备、场景下保持鲁棒性（开放域/开放分布检测）。 **2.7 视觉-语言任务（Vision-Language Tasks）：** 将视觉与语言能力结合，实现图像描述（看图说话）、视觉问答（看图推理）、图文检索（以文搜图/以图搜文）等跨模态任务。 **2.8 光学字符识别（OCR）：** OCR技术包括文本检测与识别（从像素到文本）、文档版式与表格结构分析，以及文档问答（DocVQA），旨在从图像中提取和理解文本信息。 **2.9 图像生成与编辑：** 这是AI在图像领域的创造性应用，包括文本生成图像（Text-to-Image）、图像到图像转换（如翻译、风格迁移）、以及文本驱动的图像编辑，让自然语言成为强大的“画笔”。 **2.10 图像质量评估（IQA）：** 评估图像质量，包括有参考、无参考和伪参考评估，以及相关的指标和学习范式。

“ 音频模态：理解与生成

视频模态是AI能力中处理动态视觉信息的部分，它结合了图像理解和时序分析，能够理解视频内容、进行内容生成，并实现多模态交互。 **5.1 传统视频处理：** 这一层关注视频的基本质量和流畅度，包括视频增强与修复（提升画质）、超分辨率与插帧（提高清晰度和流畅度）。 **5.2 视频理解与结构分析（Video Understanding）：** 这是视频模态的核心，包括动作识别与行为分析（识别“谁在做什么”）、目标检测与追踪（识别“整段轨迹”）、事件与异常检测（从“常态模式”中找出“不对劲”）。 **5.3 视频 + 语言多模态任务（Video-Language）：** 结合视频与语言能力，实现视频字幕生成、摘要、时间轴标注，以及视频问答与语义检索（用自然语言“操纵”视频），还有多模态编辑辅助。 **5.4 视频生成与编辑（Video Generation & Editing）：** 这是视频模态的创造性应用，包括文本生成视频（从脚本到镜头序列）、图像/视频到视频（在已有内容上“生长”与“变形”），以及结构化视频编辑（对象级的精细控制）。 **5.5 数字人 / 虚拟人（Digital Human / Avatar）：** 数字人技术涉及驱动与表达（从脚本/语音到“会说话、会表情”）、形象与视频生成（从“一个模型”到“一个可塑的角色”），以及实时数字人与系统集成，实现“屏幕里的同事”。

“ 3D/空间模态：感知与生成

多模态融合是AI能力发展的必然趋势，它旨在整合不同模态（如文本、图像、音频、视频）的信息，实现更全面、更深入的理解与生成。本手册中，视觉-语言任务（2.7节）和视频+语言多模态任务（5.3节）是多模态融合的典型体现，它们实现了跨模态的理解与交互，如图像描述、视觉问答、图文检索、视频问答等。此外，随着AI技术的发展，多模态模型（如GPT-4o、Gemini 1.5）能够同时处理多种模态的输入，并生成多模态的输出，极大地扩展了AI的应用范围。例如，端到端的语音对话能力、结合图像和文本的推理能力等，都属于多模态融合的范畴。在实际应用中，多模态融合能够带来更丰富、更智能的用户体验，例如： - **智能助手：** 理解用户通过语音、文字、甚至图像提出的复杂指令。 - **内容创作：** 根据文本描述生成图像、视频，或根据视频内容生成文字摘要和脚本。 - **教育与培训：** 结合图像、视频和文本，提供更生动的学习材料和交互式体验。 - **医疗诊断：** 融合医学影像（图像）、病历文本、甚至患者语音，辅助医生进行诊断。未来，多模态AI将继续深化，实现更精细的跨模态理解和更具创造性的跨模态生成，成为AI技术发展的重要驱动力。

“ Agent与工具调用层

检索增强生成（RAG）和知识图谱等技术，为AI模型提供了强大的外部知识支持，使其能够生成更准确、更具信息量的回答，并解决“幻觉”问题。 **8.1 检索增强生成（RAG）：** RAG的核心思想是将外部知识库与大型语言模型（LLM）结合。首先，通过索引构建和知识资产整理，将海量信息转化为可检索的格式。然后，在用户提问时，通过检索模块“召回”最相关的知识片段作为“证据”。最后，LLM在“证据约束下”生成答案，并可以进行引用，确保回答的准确性和可追溯性。 - **索引构建与知识资产整理：** 将企业内部文档、数据库、网页等信息转化为向量或其他可检索格式。 - **检索与重排序：** 从海量知识中高效地找到与用户查询最相关的部分。 - **生成与引用：** LLM利用检索到的信息生成回答，并可提供信息来源。 **8.2 结构化数据与知识图谱（Structured Data & KG）：** 除了非结构化文本，AI还能与结构化数据进行交互。数据库问答（Text-to-SQL / DSL）技术允许用户用自然语言查询数据库。知识图谱则以图的形式组织实体及其关系，AI可以通过查询知识图谱来获取结构化的知识。 RAG和知识层技术的应用，极大地提升了AI在问答、信息检索、内容创作等领域的表现，使得AI能够更好地利用和整合外部知识，提供更可靠、更深入的服务。

“ AI安全、对齐与评估

AI for Science（AI4Science）是AI技术在科学研究领域的应用，旨在加速科学发现、优化实验流程、解决复杂的科学问题。 **10.1 分子与药物设计：** 利用AI进行分子表征、性质预测（如ADMET），以及结构生成与分子优化，加速新药研发。 **10.2 蛋白质与生物结构建模：** AI在蛋白质结构预测、复合物装配、蛋白设计和突变效应预测等方面发挥重要作用，助力理解生命科学的基础。 **10.3 物理仿真与加速计算：** 通过替代模型和物理知晓神经网络（PINN），AI能够加速复杂的物理仿真过程，如材料科学、流体力学等。 **10.4 材料发现与晶体设计：** AI用于材料性质预测、高通量虚拟筛选，以及晶体生成与逆设计，推动新材料的发现。 **10.5 数学与符号推理：** AI在自动定理证明、形式化推理、符号计算和数学问题求解方面展现出潜力，与经典数学工具结合，解决更复杂的数学难题。 **10.6 科学工作流与自动化实验：** AI能够挖掘科学文献、构建领域知识库，甚至驱动“Self-Driving Lab”和科学工作流Agent，实现从“读论文”到“做实验”的自动化。 AI4Science的应用，正在深刻地改变科学研究的范式，为解决人类面临的重大挑战（如疾病、能源、环境）提供强大的新工具。

“ 平台与工程能力（MLOps）

本文通过构建“AI能力全景图”，系统梳理了从文本、图像、音频、视频、3D到多模态、Agent、RAG、安全与平台工程等一系列主流AI能力。我们区分了大模型与小模型的概念，并列举了各类代表性模型和产品，旨在为开发者和产品经理提供一个清晰、实用的能力选型参考。理解AI能力的模态、架构和相互关系，是构建高效、可复用AI体系的基础。通过掌握如何将“能力清单”转化为产品内容、搜索问答、智能客服、自动化运营等具体应用，团队能够以更低的试错成本、更高的决策效率来建设AI能力体系。本手册的目标是帮助用户建立起入门级的系统化认知，不仅知道“市面上有哪些能力、常配哪些产品”，更能理解它们在整体架构中的位置和相互关系。从而在面对具体业务需求时，能够快速定位所需能力，做出有依据的选型，为AI能力的持续迭代和创新奠定坚实基础。

Original link: https://datawhalechina.github.io/easy-vibe/zh-cn/appendix/8-artificial-intelligence/ai-capability-dictionary

Comment(0)

Desc

AI能力全景图：模型选型与应用指南

• main points

• unique insights

• practical applications

• key topics

• key insights

• learning outcomes

Table of contents

“ 引言：AI能力全景图的必要性

“ 文本模态：理解与生成

“ 音频模态：理解与生成

“ 3D/空间模态：感知与生成

“ Agent与工具调用层

“ AI安全、对齐与评估

“ 平台与工程能力（MLOps）

Comment(0)

Similar Learning

Mastering the OpenAI API: A Comprehensive Guide to Using GPT-3.5 and GPT-4 in Python

Luma AI: Transforming 3D Modeling with Visual AI Innovations

Maximizing the Feedly PIR Blueprint for Effective Threat Intelligence

Mastering AI Actions: A Guide to Optimizing Prompts for Effective Insights

Practical Steps for Effective Threat Modeling in Cybersecurity

Mastering Seaborn Heatmaps for Effective Data Visualization

Related Tools

Gemini

ChatGPT

Grok

DeepSeek

Adobe

Perplexity AI