Logo for AiToolGo

AI能力全景图:模型选型与应用指南

In-depth discussion
Technical, Easy to understand
 0
 0
 1
本文档旨在为用户提供一个全面的 AI 能力图谱,帮助理解和选择适合特定需求的 AI 能力。它从模态(文本、图像、音频、视频、3D、多模态)到架构层(模型、检索、Agent、平台工程)系统梳理了主流 AI 能力,并结合常见产品形态与应用场景,给出面向实践的能力选型参考。手册还区分了大模型和小模型的概念,并列举了各类 AI 能力的代表性模型和产品。
  • main points
  • unique insights
  • practical applications
  • key topics
  • key insights
  • learning outcomes
  • main points

    • 1
      提供了一个系统性的 AI 能力全景图,覆盖了从基础模态到高级架构的广泛内容。
    • 2
      清晰区分了大模型和小模型的概念,并给出了实用的判断依据。
    • 3
      结合了大量实际应用场景和代表性模型/产品,具有很强的实践指导意义。
  • unique insights

    • 1
      强调了从“能力清单”到产品内容、搜索问答、智能客服等具体应用的映射方法。
    • 2
      提出了“AI 能力全景图”的核心整理思路,旨在解决能力认知碎片化和方案设计随意的问题。
  • practical applications

    • 帮助用户快速理解 AI 能力的分类和应用,为 AI 体系建设提供低试错成本、高决策效率的选型参考。
  • key topics

    • 1
      AI Capabilities Overview
    • 2
      Large Language Models (LLMs) vs. Small Models
    • 3
      Multimodal AI (Text, Image, Audio, Video, 3D)
    • 4
      AI Architecture (Retrieval, Agents, Platform Engineering)
  • key insights

    • 1
      Provides a structured framework for understanding and selecting AI capabilities.
    • 2
      Offers practical guidance on mapping AI capabilities to real-world applications.
    • 3
      Helps demystify the landscape of AI models and services for informed decision-making.
  • learning outcomes

    • 1
      Gain a systematic understanding of the AI capability landscape.
    • 2
      Learn to differentiate between large and small AI models and their applications.
    • 3
      Develop the ability to map AI capabilities to specific business needs and product requirements.
examples
tutorials
code samples
visuals
fundamentals
advanced content
practical tips
best practices

引言:AI能力全景图的必要性

在深入探讨AI能力之前,区分大模型与小模型至关重要。从学术角度看,大模型通常指参数量达数十亿至万亿级别的通用模型,而小模型则是针对特定任务或场景、参数量较小的专用模型(几千万到几亿级)。 从价格和应用方式上区分更为务实:API调用成本极低的模型(如每调用几厘钱、几分钱,或每千 tokens 几厘到几分)通常是为特定任务优化的“小模型”(如OCR、ASR、内容审核模型),或是经过压缩和蒸馏的轻量版大模型。反之,单次调用价格显著偏高(几角甚至1元起步)的模型,大概率是通用大模型。如果产品宣传明确强调使用LLM、通用大模型、多模态大模型,或能端到端完成复杂任务(如端到端对话、视频生成),则可视为大模型。而侧重于特定垂直能力(如银行卡识别、语音转写、内容安全审核)的产品,底层更可能是由一组小模型构成。 本文约定:大模型主要指通用、可对话、可编程、价格略高的模型(包括多模态版本),能覆盖大部分通用文本、代码及多模态任务。小模型则指为特定任务精调或定制的模型,价格更便宜、性能稳定可控,但适用范围窄,需要主动组合编排。 值得注意的是,许多过去由“小模型”承接的任务,如今已能直接由大模型解决。然而,从精度与成本的极致追求来看,小模型的训练与应用仍有其不可替代的价值。对于入门者,可以从调用大模型API开始,再根据成本、精度和延迟权衡,决定何时使用通用大模型,何时引入专用小模型。 常见通用大模型包括: - OpenAI系列:GPT-4、GPT-4.1、GPT-4o、GPT-5.1等。 - Google系列:Gemini 1.5 Pro、Gemini 1.5 Flash等。 - Anthropic系列:Claude 3.5 Sonnet、Claude 3.5 Haiku等。 - 国内模型:通义千问Qwen系列、文心一言ERNIE Bot系列、GLM/智谱清言、腾讯混元、讯飞星火、月之暗面的Kimi、MiniMax MiniMax-M2.7系列等。 偏视觉和视频方向的大模型和服务包括: - 图像生成:DALL·E、Midjourney、Stable Diffusion、SDXL、Flux等。 - 多模态视觉理解:GPT-4o、GPT-4.1 with Vision、Gemini 1.5(图文多模态)、Claude 3.5 Sonnet Vision、LLaVA等。 - 视频生成:Sora、Kling、Runway Gen-2、Pika、Luma、Veo等。 语音和音频方向的大模型包括: - 语音识别ASR:Whisper系列(Whisper、Whisper-large-v3等)、Deepgram、各家云厂商的端到端ASR大模型。 - 语音多模态与语音对话:GPT-4o(端到端语音对话)、OpenAI Realtime、Gemini 1.5的音频理解能力等。 - TTS/音频与音乐生成:OpenAI TTS、ElevenLabs、Suno、Udio、MusicGen等。 3D/空间方向的生成与理解模型包括: - 文生3D和图生3D:DreamFusion、Shap-E、GET3D、Zero-1-to-3、TripoSR等。 - NeRF/神经渲染家族:Instant-NGP、NeRF系列、Gaussian Splatting相关模型等。

文本模态:理解与生成

图像模态是AI能力中负责“用视觉理解世界”的关键部分,它涵盖了从像素级处理到高层语义理解及可控生成的能力。无论是安防监控、自动驾驶、短视频特效,还是多模态问答、AI绘画,都离不开图像模态的支持。 **2.1 底层视觉(Low-Level Vision):** 在进入高层语义任务之前,底层视觉处理至关重要。它专注于提升图像本身的质量和稳定性,为上层任务提供更健康的输入。主要包括图像复原与增强(如去噪、去模糊、低光照增强、超分辨率重建),以及结构特征抽取(如边缘、角点、局部纹理)。通过传统图像处理方法和深度学习模型(如基于CNN或Transformer的模型),底层视觉旨在将原始像素转化为更清晰、更稳定的图像表示,直接影响用户肉眼看到的画质体验和上层任务的鲁棒性。 **2.2 图像分类与识别:** 这是图像理解的基础任务,回答“这是一张什么图?”(图像分类)或“这是谁/什么实例?”(图像识别与属性识别)。通过将图像映射到语义空间,模型能够区分不同类别的图像,并识别其中的具体对象。 **2.3 目标检测:** 目标检测在图像中定位特定对象的位置(边界框)并识别其类别。它区分单阶段与双阶段检测,以及Anchor-based与Anchor-free方法,旨在提高精度与速度的平衡,并解决小目标和视频检测的鲁棒性问题。 **2.4 图像分割:** 图像分割比目标检测更精细,它将图像划分为不同的区域,并为每个像素分配类别(语义分割)或实例ID(实例分割)。通用分割和无监督分割(如Segment Anything)是该领域的发展方向。 **2.5 关键点检测与动作识别:** 关键点检测(如姿态估计)用于识别图像中人和物的关键点,而动作识别则基于这些关键点序列来理解行为。 **2.6 开放词汇/世界/域检测:** 这些技术旨在突破固定类别限制,使模型能够识别未见过的类别(开放词汇检测),学习未知(开放世界检测),或在不同风格、设备、场景下保持鲁棒性(开放域/开放分布检测)。 **2.7 视觉-语言任务(Vision-Language Tasks):** 将视觉与语言能力结合,实现图像描述(看图说话)、视觉问答(看图推理)、图文检索(以文搜图/以图搜文)等跨模态任务。 **2.8 光学字符识别(OCR):** OCR技术包括文本检测与识别(从像素到文本)、文档版式与表格结构分析,以及文档问答(DocVQA),旨在从图像中提取和理解文本信息。 **2.9 图像生成与编辑:** 这是AI在图像领域的创造性应用,包括文本生成图像(Text-to-Image)、图像到图像转换(如翻译、风格迁移)、以及文本驱动的图像编辑,让自然语言成为强大的“画笔”。 **2.10 图像质量评估(IQA):** 评估图像质量,包括有参考、无参考和伪参考评估,以及相关的指标和学习范式。

音频模态:理解与生成

视频模态是AI能力中处理动态视觉信息的部分,它结合了图像理解和时序分析,能够理解视频内容、进行内容生成,并实现多模态交互。 **5.1 传统视频处理:** 这一层关注视频的基本质量和流畅度,包括视频增强与修复(提升画质)、超分辨率与插帧(提高清晰度和流畅度)。 **5.2 视频理解与结构分析(Video Understanding):** 这是视频模态的核心,包括动作识别与行为分析(识别“谁在做什么”)、目标检测与追踪(识别“整段轨迹”)、事件与异常检测(从“常态模式”中找出“不对劲”)。 **5.3 视频 + 语言多模态任务(Video-Language):** 结合视频与语言能力,实现视频字幕生成、摘要、时间轴标注,以及视频问答与语义检索(用自然语言“操纵”视频),还有多模态编辑辅助。 **5.4 视频生成与编辑(Video Generation & Editing):** 这是视频模态的创造性应用,包括文本生成视频(从脚本到镜头序列)、图像/视频到视频(在已有内容上“生长”与“变形”),以及结构化视频编辑(对象级的精细控制)。 **5.5 数字人 / 虚拟人(Digital Human / Avatar):** 数字人技术涉及驱动与表达(从脚本/语音到“会说话、会表情”)、形象与视频生成(从“一个模型”到“一个可塑的角色”),以及实时数字人与系统集成,实现“屏幕里的同事”。

3D/空间模态:感知与生成

多模态融合是AI能力发展的必然趋势,它旨在整合不同模态(如文本、图像、音频、视频)的信息,实现更全面、更深入的理解与生成。本手册中,视觉-语言任务(2.7节)和视频+语言多模态任务(5.3节)是多模态融合的典型体现,它们实现了跨模态的理解与交互,如图像描述、视觉问答、图文检索、视频问答等。 此外,随着AI技术的发展,多模态模型(如GPT-4o、Gemini 1.5)能够同时处理多种模态的输入,并生成多模态的输出,极大地扩展了AI的应用范围。例如,端到端的语音对话能力、结合图像和文本的推理能力等,都属于多模态融合的范畴。 在实际应用中,多模态融合能够带来更丰富、更智能的用户体验,例如: - **智能助手:** 理解用户通过语音、文字、甚至图像提出的复杂指令。 - **内容创作:** 根据文本描述生成图像、视频,或根据视频内容生成文字摘要和脚本。 - **教育与培训:** 结合图像、视频和文本,提供更生动的学习材料和交互式体验。 - **医疗诊断:** 融合医学影像(图像)、病历文本、甚至患者语音,辅助医生进行诊断。 未来,多模态AI将继续深化,实现更精细的跨模态理解和更具创造性的跨模态生成,成为AI技术发展的重要驱动力。

Agent与工具调用层

检索增强生成(RAG)和知识图谱等技术,为AI模型提供了强大的外部知识支持,使其能够生成更准确、更具信息量的回答,并解决“幻觉”问题。 **8.1 检索增强生成(RAG):** RAG的核心思想是将外部知识库与大型语言模型(LLM)结合。首先,通过索引构建和知识资产整理,将海量信息转化为可检索的格式。然后,在用户提问时,通过检索模块“召回”最相关的知识片段作为“证据”。最后,LLM在“证据约束下”生成答案,并可以进行引用,确保回答的准确性和可追溯性。 - **索引构建与知识资产整理:** 将企业内部文档、数据库、网页等信息转化为向量或其他可检索格式。 - **检索与重排序:** 从海量知识中高效地找到与用户查询最相关的部分。 - **生成与引用:** LLM利用检索到的信息生成回答,并可提供信息来源。 **8.2 结构化数据与知识图谱(Structured Data & KG):** 除了非结构化文本,AI还能与结构化数据进行交互。数据库问答(Text-to-SQL / DSL)技术允许用户用自然语言查询数据库。知识图谱则以图的形式组织实体及其关系,AI可以通过查询知识图谱来获取结构化的知识。 RAG和知识层技术的应用,极大地提升了AI在问答、信息检索、内容创作等领域的表现,使得AI能够更好地利用和整合外部知识,提供更可靠、更深入的服务。

AI安全、对齐与评估

AI for Science(AI4Science)是AI技术在科学研究领域的应用,旨在加速科学发现、优化实验流程、解决复杂的科学问题。 **10.1 分子与药物设计:** 利用AI进行分子表征、性质预测(如ADMET),以及结构生成与分子优化,加速新药研发。 **10.2 蛋白质与生物结构建模:** AI在蛋白质结构预测、复合物装配、蛋白设计和突变效应预测等方面发挥重要作用,助力理解生命科学的基础。 **10.3 物理仿真与加速计算:** 通过替代模型和物理知晓神经网络(PINN),AI能够加速复杂的物理仿真过程,如材料科学、流体力学等。 **10.4 材料发现与晶体设计:** AI用于材料性质预测、高通量虚拟筛选,以及晶体生成与逆设计,推动新材料的发现。 **10.5 数学与符号推理:** AI在自动定理证明、形式化推理、符号计算和数学问题求解方面展现出潜力,与经典数学工具结合,解决更复杂的数学难题。 **10.6 科学工作流与自动化实验:** AI能够挖掘科学文献、构建领域知识库,甚至驱动“Self-Driving Lab”和科学工作流Agent,实现从“读论文”到“做实验”的自动化。 AI4Science的应用,正在深刻地改变科学研究的范式,为解决人类面临的重大挑战(如疾病、能源、环境)提供强大的新工具。

平台与工程能力(MLOps)

本文通过构建“AI能力全景图”,系统梳理了从文本、图像、音频、视频、3D到多模态、Agent、RAG、安全与平台工程等一系列主流AI能力。我们区分了大模型与小模型的概念,并列举了各类代表性模型和产品,旨在为开发者和产品经理提供一个清晰、实用的能力选型参考。 理解AI能力的模态、架构和相互关系,是构建高效、可复用AI体系的基础。通过掌握如何将“能力清单”转化为产品内容、搜索问答、智能客服、自动化运营等具体应用,团队能够以更低的试错成本、更高的决策效率来建设AI能力体系。 本手册的目标是帮助用户建立起入门级的系统化认知,不仅知道“市面上有哪些能力、常配哪些产品”,更能理解它们在整体架构中的位置和相互关系。从而在面对具体业务需求时,能够快速定位所需能力,做出有依据的选型,为AI能力的持续迭代和创新奠定坚实基础。

 Original link: https://datawhalechina.github.io/easy-vibe/zh-cn/appendix/8-artificial-intelligence/ai-capability-dictionary

Comment(0)

user's avatar

      Related Tools