“AI什么都懂,但好像又什么都不精通?”
这可能是很多人体验过通用大模型后的共同感受。从写代码到聊人生,它们似乎无所不能,但一旦问到你所在行业的深度问题,比如“帮我分析一下这块芯片的良率问题”或者“解读这张复杂的地质图”,它们往往就“开始说胡话”了。
通用AI就像一个博学的通才,而各行各业需要的,则是一个个精通业务的“专家”。如何将这个“通才”培养成我们需要的“专家”?这就是“领域大模型”要解决的问题。
今天,我们就带大家一探究竟,看看他们是如何基于通义千问(Qwen)这个强大的基座,一步步“炼制”出能解决实际问题的领域大模型的。这篇文章干货满满,建议收藏后仔细阅读!一、 从“万金油”到“行业专属利器”
我们正处在一个激动人心的时代。AI的发展已经从各个模态(语言、视觉、语音)独立发展的早期阶段,进入到了多模态融合的“现在进行时”。
然而,正如这份材料指出的,不同类型大模型的成熟度差异巨大。语言大模型(LLM)已经非常成熟,而视觉语言模型(VLM)次之,更复杂的具身智能(能与物理世界交互的AI)还处于起步阶段。
这就带来一个核心思路:我们能否站在语言大模型这个“巨人”的肩膀上,通过专门的“训练”,让它快速掌握特定领域的知识和技能?
答案是肯定的。这就是构建领域大模型的价值所在——它不是要从零开始造一个新模型,而是对一个强大的基础模型进行“精装修”,让它从“什么都懂一点”的通才,蜕变成“精通某一领域”的专家。二、 构建领域大模型的“独家配方”
想炼制一颗强大的“领域丹药”,需要什么?阿里云总结了四大核心要素,缺一不可。这套方法论,可以说是本文最核心的干货。
1
基础模型(地基):一个足够强大的通用大模型是成功的基石。地基不牢,上层建筑再怎么装修也是空中楼阁。
2
领域数据(食材):这是最关键的“养料”。模型的领域能力从何而来?全靠高质量、大规模、多样化的领域数据来“喂养”。
3
平台工具(丹炉):没有一个好用的“炼丹炉”,再好的食材也做不成丹药。一个集数据、训练、评测、算力于一体的平台是效率和效果的保障。
4
领域实践(经验):光有理论不行,必须有在真实场景中反复打磨的经验。踩过哪些坑,解决了什么问题,这些实践经验是无法替代的财富。
接下来,我们就按照这“四部曲”,一步步拆解阿里云的最佳实践。三、选好“地基”——为什么是通义千问?
选择一个好的基础模型至关重要。阿里云的底气,来自于其庞大且持续高速迭代的通义(Qwen)大模型家族。
从2023年4月首次亮相,到如今形成包含语言、视觉、代码、数学、推理等在内的庞大家族,Qwen模型已经开源超过260个版本,全球下载量突破2亿。它不仅模型尺寸覆盖从端侧的0.5B到企业级的110B,更是在语言、多模态等多个领域全面开花。
选择Qwen作为“地基”,意味着你拥有了一个性能顶尖、家族庞大、工具链完善且经过市场大规模验证的坚实起点。四、喂好“食材”——数据才是真正的护城河
如果说基础模型决定了下限,那么领域数据就决定了上限。如何准备高质量的“食材”?阿里云分享了三条核心技术路径,分别对应不同的“烹饪”目标:
•
增量预训练 (CPT):好比让模型去读一个专业领域的“图书馆”。通过喂给它海量的领域专业文章、书籍、论文(无标注数据),让它系统性地学习该领域的“黑话”和基础知识。目标:注入领域知识。
•
有监督微调 (SFT):好比让模型做这个领域的“练习册”。用大量的“问题-标准答案”对(问答对)来训练它,教会它如何按照特定格式和要求回答问题。目标:激发领域问答能力。
•
强化微调 (RFT):好比请了一位“私教”来指导模型的思考过程。我们不仅给答案,还给它详细的解题步骤(思维链),并通过奖励机制,引导模型学习更复杂、更具逻辑性的推理能力。目标:激发领域推理能力。
但数据从哪来? 这往往是最大的难题。公开数据不够专业,内部数据量少且杂乱。对此,阿里云的策略是“挖掘+合成”双管齐下:
1
语料挖掘:从海量公开数据中,利用技术手段“淘”出与领域相关的金矿。
2
语料合成:利用更强的模型,基于已有的少量高质量数据,生成海量的、多样化的、高质量的问答对和思维链数据。比如,让大模型扮演“出题老师”和“解题专家”,自问自答,生成海量练习题。
通过这套组合拳,即使在数据稀疏的领域,也能为模型准备充足、优质的“精神食粮”。五、用好“丹炉”——天擎平台,一站式搞定所有
有了地基和食材,还需要一个强大的“炼丹炉”。阿里云的天擎平台,就是这样一个一站式领域大模型构建平台。
你可以把它想象成一个超级智能的“中央厨房”,它帮你把所有脏活累活都干了:
•
数据研发:内置了海量通用数据帮你防止“专业偏科”,同时提供语料挖掘、合成、处理的全套工具。
•
模型研发:预置了CPT、SFT、DPO等主流训练算法,你只需要选择模型、调整参数,就能一键启动训练。还提供了完善的评测体系,让模型好坏一目了然。
•
基础设施:底层的GPU算力、存储、网络,平台都已为你搞定,你只需专注于模型本身。
这个平台的存在,极大地降低了构建领域大模型的门槛,让企业可以将精力聚焦在业务逻辑本身,而不是复杂的技术细节上。六、实践出真知——看看“炼”出的神丹妙药
理论说再多,不如看疗效。这份材料最精彩的部分,就是展示了大量基于上述方法论打造的成功案例。
案例1:地学大模型GeoGPT——让AI读懂地球的语言
地球科学研究数据复杂、文献浩如烟海。之江实验室联合阿里云打造的GeoGPT,通过喂养40B的专业语料和近40万条专家标注/合成的问答数据,让Qwen模型成为了地学专家。它能智能解析地质图、高效提取文献知识,将传统需要数月甚至一年的研究准备工作,缩短到惊人的程度。
案例2:VL-OCR——从看懂花体字快递单开始
通用OCR模型在识别手写体、艺术字或复杂背景的文字时常常“翻车”。VL-OCR模型则是在Qwen-VL的基础上,针对OCR场景进行专项强化训练。最典型的应用,就是识别海外快递包裹上的花体字门牌号,准确率高达90%+,解决了跨境物流的一大痛点。
案例3:多模态内容安全——火眼金睛识破隐晦违规
传统的图片审核规则简单,容易被各种“梗图”、“暗喻”绕过。基于Qwen-VL训练的内容安全大模型(VL-CIP),则具备了强大的“看图说话”和推理能力,能识别出那些隐晦的、强对抗性的风险内容,把安全防护提升到了一个新的维度。
此外,还有半导体显示大模型、影视理解VL-Narrator、IPC视频巡检等众多案例,无一不展示了领域大模型在深入产业、创造真实价值方面的巨大潜力。你的行业,也可以拥有专属AI大脑
通览整份材料,我们能清晰地看到,构建一个成功的领域大模型,早已不是什么遥不可及的“黑科技”,而是一套有章可循、有据可依的系统工程。
基础模型 + 领域数据 + 平台工具 + 领域实践,这四大要素构成了从通用AI迈向专用AI的坚实桥梁。
阿里云通过其强大的通义千问模型家族和成熟的天擎平台,已经将这套“炼丹术”打磨得炉火纯青,并成功赋能千行百业。对于每一个希望拥抱AI、提升生产力的企业和个人而言,这无疑指明了一条清晰的道路:
不必再等待一个无所不能的终极AGI,现在,你就可以为你所在的领域,打造一个专属的AI超级专家。
这篇文章是否为你揭开了领域大模型的神秘面纱?你觉得哪个案例最让你印象深刻?欢迎在评论区留言讨论!如果觉得有帮助,别忘了点赞、分享,让更多人看到!
end
长按二维码
获取更多信息
点个在看你最好看
VL-OCR:最佳实践-门牌卡证识别 阿里云智能集团 应用场量 欧美市场投递时,需要上传妥投照片, 快递门牌号识别 模型: qwen-Wl-ocr 准瑜率:90%+ 别表,模式将为每个元素提 请注意, 有多 个号 表元素时,将使用此版 夏板,最后,只需要输出合法的ISON 卡证票据信息提取 #所见即所得,并且输出语言需要与图像保持 #请按要求输出结果。输入的ISON模式内客如下:Ctype: :9M
打造为地学科学家量身定制的领域基础模型: “GeoGPT 阿里云智能集团 GGOGPT ■GeoGPT是一个开源、非营利的全球地球科学研究项目,与多家高校院所合作, 旨在推广合作、共商、共建、共享的开放科学理念。 12025年4月27日,GeoGPT正式面向全球开放,并开源模型权重参数及训练 M 数据源列表。已服务全球135个国家、超过40000名用户,国际影响力显著提升。 专家共建 模型研发 国际交流 Science报道 25+ 400+ 国际地学顶会和联合国舞 领域语料:40B 台上中得到广泛认可赞誉 机构 地学专家 挖掘语料:5B AGUIIGCIGSAIAI4G 专家标注:8.9W条 GOLDSCHMIDTCAG. 'GeoGPT可以对促进 合成问答:30w条 国际合作和数据驱动的 地质研究做出重要贡献 合成思维链:5.8w条 合成偏好对:2.2W对 NATARAJAN ISHWARAN ,研发时长:18个月 2025年4月EGU 深时数字地球秘书长 2023年集中攻关
领域大模型技术路径 阿里云智能集团 增量预训练(CPT) 有监督微调(SFT) 强化微调(RFT) 人类偏好对齐(RLHF) CONTINUOUS PRETRAINING SURPERVISED FINETUNING REINFREMENT FINE-TUNING REINFORCEMENT LEAING 领域知识学习 预城指令学习 领域推理学习 专家偏好学习 领域知识与专业力注入 监发领域问答能力 数发领域推理能力 调节模型问答偏好 为后续训练环节激发领域能力提 直接拟合问答数据,确定性高, 通过尝试采样与奖励反馈,有效 通过尝试采样与奖励反馈,有效 核心机制 供基础 训练稳定,泛化上限较低 提升模型的推理泛化能力 提升模型问答专业性和稳定性 领域非公开专业数据较多 低复杂度,低延退应用场景 需要复推理,规划的场景,如 模型训练的最后环节,提升模型 适用场景 通用大模型领域推理修力不足 如意图识别,结构化提取等 分析研判,Agent智能规划等 稳定性和专业性 大规模无标注领域专业语料 领域专业问答对:几十万 领域专业问答思维链:几十万 领域专业问答偏好对:几十万 数据要求 透域奖励模型 或奖励模型 算力要求 高,千卡 低,百卡 #公众号.知白1024
领域语言模型:数据准备的主要难点与应对方案 阿里云智能集团 数据生成 领域语料 领域QA 领域模型 1.规模不足 3.标注难 2.多样性不足 数据挖掘 快思考:SFT/RL 数据回流 2公开语料库 RAG 领域应用 慢思考:RFT/RL 语料规模不足 料多样性不足 标注难 语料挖掘:从公开语料中挖掘领域语料,增强 语料生成:基于语料构造领域问题,围绕领域 数据回流与生成:回流线上数据,筛选总结。 领域能力:结合语料生成,扩充领域语料 问题检索、生成语料、实现跨语料融合生成 结合语料生成大规模高质量问答数据
AGI是人工智能方向追求的终极目标 阿里云智能集团 逻辑符号与规则 神经网络 深度学习&AI应用 通用人工智能(AGI) 1980S 1990S 2012 2022 PROLOG & LISP1 机器学习算法 人脸识别 智能驾驶 DALL-E2 PALM-E Deepseek&Qwen系列 专家系统 首款商业化文生损 模态具身模型,结合 CV检测 国产模型大爆发,开源 NLP算子 型,支持图像编辑与 视觉与语言指导机器 思维链,快慢患考 扩展 人任务 AlexNet使用CNN网络夺得imageNet冠军 月之暗面发布 ChatGPT发布 正确率超第二名10% 万亿尺寸大模型 解答特定领城的问盟 AI可以理解人类语言 StableDifusion GPT4系列 并生成类似人类书写 使用消费级显卡 推理速度提升,多模 的文本内客 获取文本驱动的图像 态输人支持 CHATGPT 通用人工智能(AGI):通过1个足够强大的多模态基模型 可以热行人类熊够热行的任何智能任务。它能够学习,推理并适应新的情况
AGI是人工智能方向追求的终极目标 阿里云智能集团 逻辑符号与规则 神经网络 深度学习&AI应用 通用人工智能(AGI) 1980S 1990S 2012 2022 PROLOG & LISP1 机器学习算法 人脸识别 智能驾驶 DALL-E2 PALM-E Deepseek&Qwen系列 专家系统 首款商业化文生图模 模态具身模型,结合 CV检测 国产模型大爆发,开源 NLP算子 型,支持图像编辑与 视觉与语言指导机器 思维链、快慢思考 扩震 人任务 AlexNet使用CNN网络夺得ImageNet冠军 月之暗面发布 ChatGPT发布 正确率超第二名10% 万亿尺寸大模型 解答特定领域的问题 AI可以理解人类语言 StableDifusion GPT4系列 并生成类似人类书写 使用消费级显卡 推理速度提升,多模 的文本内客 获取文本驱动的图像 态输入支持 CHATGPT 通用人工智能(AGI):通过1个足够强大的多模态基模型 可以执行人类能够执行的任何智能任务。
GeoGPT整体架构 阿里云智能集团 科研场景 生物演化 地理演化 物质演化 数字盆地 科学家 成秋明 樊隽轩冯志强 葛味 JamesOgg 宋洋 MikeStephensor 王涛 张国捷 中科院院士 南京大学教授 江西师范大学 替渡大学 中国地调局 DDE前主席 中国地质科学院 浙江大学 GeoGPT 科研工具 假设生成 检索增强 文献阅读 数据提取 知识图谱 地质图生成 地学 G G G 基座模型 8X7B 66B 70B 72B 110B 跨时空地学知识数据训练 跨学科地学知识体系增强 多场景地学指令学习 通用 021科学基座模型 立 Qwen H AISTRAL C 基础模型 KINF 净公众号·知白守黑1024
通义基础模型: 阿里云是国内唯一同时提供5种模态厂商,且全尺寸、全开源 阿里云智能集团 立 立 立 立 型 应用场票 语言模型 多膜态模型 推理模型 文生图 文生视频 0.58 (如蓝牙耳机、邮除】,张人式高统,轻 QWEN-VU WANGX-T2I WangX-T2V 1.58 手机等国到设备,轻量很烤话系统,基础文本生成 膜先的基础模型 智薰家居,轻量绿代码生成 卡小量文本生成、阿首系统,代码辅助,教育工月 148 328 110B 660B 36万亿Tokens 15.2万词表 X百万高质量SFT数据
领域大模型技术路径 阿里云智能集团 增量预训练(CPT) 有监督微调(SFT) 强化微调(RFT) 人类偏好对齐(RLHF) CONTIN JOUS PRETRAINING SURPERVISED FINETUNING REINFORCEMENT FINE-TUNING EINTOREMENTEARING 领域知识学习 领域指令学习 领域推理学习 专家偏好学习 领域知识与专业力注入 效发领域问能力 数发领试推理能力 调节模型答偏好 为后续训练环节激发领域能力提 直接拟合问答数据,确定性高, 通过尝试采样与奖励反馈,有效 通过尝试采样与奖励反馈,有效 核心机制 供基础 训练稳定,泛化上限较低 提升模型的推理泛化能力 提升模型问答专业性和稳定性 领域非公开专业数据较多 低复杂度,低延退应用场景 需要复杂推理,规划的场景,如 莫型训的最后环节,提升模量 适用场景 通用大模型领域推理力不足 如意图识别,结构化提取等 分析研判,Agent智能规划等 稳定性和专业性 大规模无标注领域专业语料 领域专业问答对:几十万 领域专业问答思维链:几十万 领域专业问答偏好对:几十万 数据要求 透域奖励模型 或奖励模型 算力要求 高,千卡 低,百卡 高,千卡 低,百卡
领域语言模型:SFT问答数据生成 阿里云智能集团 生成专业数据 在校学生 专业 多指令/多角色/ 领或专家 稠密知识/引用问答/ 科研人员 领城语料 多种题型 原始语料 问答数据 上下文构建知识QA 扩充问题多样性 提高答案准确性 增强指令约束 基于专业语料生成相关知识问题 应用大模型聚合常用专业指令类型 国湖问题与答案相关性,精细能选 基于问答样本增加通用指令约束 蒙考语料上下文内容生成问题答案 知识QA基础上扩充专业指令sk司ls 应用更强模型改写和摔选更优回答 进一步提升模型的指令最循腕力
模型能力还处于前往AGI道路上的中期阶段 阿里云智能集团 scalinglaw、统一多模态、统一理解生成 超级对齐 语言模型 快思考 QWEN2.5 复杂任务规划 MOEDense QWEN3 抽象概念归纳 QWO 视觉模型 AGI GPT-G QWEN 视带 QWEN-VL-2.0 QWEN-VL-2.5 环境交互 语音模型 OMNI 具身智能 生成 通义万相1.0 通义万相2.1 Whispe 早期阶段: 当前阶段: 未来段 各个模态独立发展 多模态融合:模态融合&任务融合 学习、推理,完成与物理世界交互
预域大模型所需要考虑的核心四要素 阿里云智能集团 基础模型 领域数据 平台工具 领域实践 更强大的基础模型 全球顶尖模型的高 领先的一站式领城 基于顶尖大模型训 会让领域模型训练 质量原始语料数据 大模型构建平台 领域大模型 练孵化端到端领域 更加简单 丰富的领域数据处 覆盖数据、训练。 大模型的实践经验 全球顶尖开源模型 理能力 推理、评测、算力 拥有丰富的领域模 的全栈技术保障 型训练案例
模型能力还处于前往AGI道路上的中期阶段 阿里云智能集团 scalinglaw、统一多模态、统一理解生成 超级对齐 语言模型 快思考 QWEN2.5 复杂任务规划 MOEDense QWEN3 抽象概念归纳 QWO 视觉模型 AGI GPT-G QWEN 视带 QWEN-VL-2.0 QWEN-VL-2.5 环境交互 语音模型 OMNI 具身智能 生成 通义万相1.0 通义万相2.1 Whispe 早期阶段: 当前阶段: 未来段 各个模态独立发展 多模态融合:模态融合&任务融合 学习、推理,完成与物理世界交互
GeoGPT地质图多模态模型 阿里云智能集团 输出 GeoGPT MAPTOO 地质过程 更文联合的池 GeoVlM 数据量 论文136.000篇 地质图147.000张 地质图98.000张 问答对331.000对 通盖MDPL.Elsevier.Nature.Frontiers等4个出版商 用于训练的多模态图文问答的语料 72B模型在多模态地图问答上较基模提升9.6%,1 地质图问答专业度显若提升
领域模型构建平台:天擎平台 阿里云智能集团 应用研发 知识库 应用编排 项目管理与计量 数据配比 训练超参 推理加速 模型评测 模型研发 训练算法 增量预训练 有监督微调 直接偏好对齐 强化学习 领域问答数据处理 数据回流 文本快思考问答生成 文本问答思维链生成 图文问答生成 数据研发 领域语料处理 语料预处理 质量评估 语料挖掘 语料生成 通用数据(加密) 预训练语料 指令问答对 推理思维链 问答偏好对 资源管理 存储适配与统一管理 训推一体算力调度 项目管理与计量 基础设施(GPU,存储,网络,容器)
阿里云智能集团 VL-CIP:知识蒸馏-轻量化内容安全大模型 11样本集构建 立2获取外源知识→=13模型训练测评 ?4部署及应用 全面提集,构建跨行业综合数据 酷于开源Qw 优化模型性能,增短模型线上请 收集必要育量知识及推理 家时长。满足各行业客户的内容 安全响器封间要家 精风险类目 及事力恐怖等多个关 量。实族全面性赖评估 样本集风险类目占比 通义千何获取外源知识 模型训练测评 8%10% 一传统模型 24% 9% 21% 8% 13% 违法犯罪 ■偏见歧视 ■涅秒色情 ■广告诱导 ■分裂主义 ■梅导性吉辞 分装 力 口暴力恐饰 ■意识形态 违法·
内容安全:最佳实践-社交APP 阿里云智能集团 场景分析 检测方案 线上应用 图片特征 12+风险类别90+检测细项 直客户 尺寸压缩、分辨率低 违规特征难度高 违规特征 涉政 曙光率高 对抗场屏 60% 40% 40% 30% 厂低俗 20% 15% 10% 10% 0% 引流违禁低俗色情桑恐 引流商标 价值观 未成年 定制场風(表情对抗等)
阿里云智能集团 VL-CIP:基于SFT的内容安全大模型 模型部署与服务化 SFT安全大模型VS专家模型 暗喻分析推理 44% 模型测评 暴力恐怖 32% SFT 广告对抗 14% 意识形态 17% 负向调性 1696 阿里云百炼(modelstudio) 浮色情 ·复杂风险识别能力:支持复杂图片理解,针对视觉攻击、隐酶暗喻、等复杂、强对抗风险场景,具备远超传统模型的识别能力。 ·高效低成本的模型开发:支持样本稀缺情况的模型训练,通过SFT进行快速迭代,迅速响应新型风险的防控
领域大模型技术路径 阿里云智能集团 增量预训练(CPT) 有监督微调(SFT) 强化微调(RFT) 人类偏好对齐(RLHF) CONTIN JOUS PRETRAINING SURPERVISED FINETUNING REINFORCEMENT FINE-TUNING EINTOREMENTEARING 领域知识学习 领域指令学习 领域推理学习 专家偏好学习 领域知识与专业力注入 效发领域问能力 数发领试推理能力 调节模型答偏好 为后续训练环节激发领域能力提 直接拟合问答数据,确定性高, 通过尝试采样与奖励反馈,有效 通过尝试采样与奖励反馈,有效 核心机制 供基础 训练稳定,泛化上限较低 提升模型的推理泛化能力 提升模型问答专业性和稳定性 领域非公开专业数据较多 低复杂度,低延退应用场景 需要复杂推理,规划的场景,如 莫型训的最后环节,提升模量 适用场景 通用大模型领域推理力不足 如意图识别,结构化提取等 分析研判,Agent智能规划等 稳定性和专业性 大规模无标注领域专业语料 领域专业问答对:几十万 领域专业问答思维链:几十万 领域专业问答偏好对:几十万 数据要求 透域奖励模型 或奖励模型 算力要求 高,千卡 低,百卡 高,千卡 低,百卡
领域大模型技术路径 阿里云智能集团 增量预训练(CPT) 有监督微调(SFT) 强化微调(RFT) 人类偏好对齐(RLHF) CONTINUOUS PRETRAINING SURPERVISEDFINETUNING 预域知识学习 预域指令学习 预域推理学习 专家值好学习 旋解模型幻觉 发领试专业能力 检索增强生成(RAG) 提示工程 预域模型核心技术及构建平台 增量预训练(CPT) 有监督微调(SFT) 强化微调(RFT) 云计算基础设施+算力调度平台: 保图大家店高性能计算的定性, ,计算效率,夏力的高效利用
领域语言模型:CPT语料挖掘 阿里云智能集团 领城专家:构建专业领城数据集 高质量内容结构化解折 公开语料挖摄 领域专业语料库 领域语料解析 领域语料挖据 板面识别 元素关联 自种子文档 问答对生成 书籍/出版物 ·学位论文 C 企业内部款 表格识别 公式识别 主内客&质量过滤 网培搜索 数清洗 质量评估 数据筛选&配比 数环线评测 乱码修复 知识密度 数据源多样性 统一符号 教育意义 知识密度分布 矩阵化 语料去重 格式规范 内容新颖程度 小规模实验验证 相关性过滤 难易程度 知识专业程座公众号·知白守黑1024
VL-OCR:最佳实践-门牌卡证识别 阿里云智能集团 应用场量 快递门牌号识别 预型: qwen-Wl-ocr 准确率:90%+ 别表,模式格为每个元素提 中有多个列 表元素时,将使用此模板,最后,只需要输出合法的JSON 卡证票据信息提取 #所见即所得,并且输出语言需要与图像保持 “公众号·知白守黑1024
领域语言模型:数据准备的主要难点与应对方案 阿里云智能集团 数据生成 领域语料 领域QA 领域模型 1.规模不足 3.标注难 2.多样性不足 数据挖掘 快思考:SFT/RL 数据回流 2公开语料库 RAG 领域应用 慢思考:RFT/RL 语料规模不足 料多样性不足 标注难 语料挖掘:从公开语料中挖掘领域语料,增强 语料生成:基于语料构造领域问题,围绕领域 数据回流与生成:回流线上数据,筛选总结。 领域能力:结合语料生成,扩充领域语料 问题检索、生成语料、实现跨语料融合生成 结合语料生成大规模高质量问答数据
领域语言模型:SFT问答数据生成 阿里云智能集团 生成专业数据 在校学生 专业 多指令/多角色/ 领域专家 鹅密知识/引用问答/ 科研人员 领域语料 多种题型 原始语料 问答数据 上下文构建知识QA 扩充问题多样性 提高答案准确性 增强指令约束 基于专业语料生成相关知识问题 应用大模型聚合常用专业指令类型 国溯问题与答案相关性,精细筛选 基于问答样本增加通用指令约束 参考语料上下文内容生成问题答案 知识QA基础上扩充专业指令skils 应用更强模型改写和蹄选更优回答 进一步提升模型的指令通循能力 #公众号·知白守黑1024
AGI是人工智能方向追求的终极目标 阿里云智能集团 逻辑符号与规则 神经网络 深度学习&AI应用 通用人工智能(AGI) 1980S 1990S 2012 2022 PROLOG & LISP1 机器学习算法 人脸识别 智能驾驶 DALL-E2 PALM-E Deepseek&Qwen系列 专家系统 首款商业化文生损 模态具身模型,结合 CV检测 国产模型大爆发,开源 NLP算子 型,支持图像编辑与 视觉与语言指导机器 思维链,快慢患考 扩展 人任务 AlexNet使用CNN网络夺得imageNet冠军 月之暗面发布 ChatGPT发布 正确率超第二名10% 万亿尺寸大模型 解答特定领城的问盟 AI可以理解人类语言 StableDifusion GPT4系列 并生成类似人类书写 使用消费级显卡 推理速度提升,多模 的文本内客 获取文本驱动的图像 态输人支持 CHATGPT 通用人工智能(AGI):通过1个足够强大的多模态基模型 可以热行人类熊够热行的任何智能任务。它能够学习,推理并适应新的情况
领域模型构建平台:天擎平台 阿里云智能集团 应用研发 知识库 应用编排 项目管理与计量 数据配比 训练超参 推理加速 模型评测 模型研发 训练算法 增量预训练 有监督微调 直接偏好对齐 强化学习 领域问答数据处理 数据回流 文本快思考问答生成 文本问答思维链生成 图文问答生成 数据研发 领域语料处理 语料预处理 质量评估 语料挖掘 语料生成 通用数据(加密) 预训练语料 指令问答对 推理思维链 问答偏好对 资源管理 存储适配与统一管理 训推一体算力调度 项目管理与计量 基础设施(GPU,存储,网络,容器)
阿里云智能集团 VL-CIP:知识蒸馏-轻量化内容安全大模型 一1样本集构建 立2获取外源知识→1013模型训练测评 ?4部署及应用 全面搜集,构建跨行业综合数据 基于开源Qw 编见战视 工程: ,收集必要背最知识及推理 依据 蒸留,打选高效的内害安全大模 家时长,满足各行业客户的内客 安全萌点尚委家 精风给类目, 量。实能全面性能评估 样本集风险类目占比 通义千问获取外源知识 模型训练测评 8 南欢吃惠 一传统模型 9% 21% 8% 13% 违法犯罪 ■偏见歧视 ■浮色情 ■广告诱导 ■分裂主义 ■梅性言辞 提力 ■婴力恐饰 ■意识形态 #公众号知白守黑1024
GeoGPT地质图多模态模型 阿里云智能集团 输出 GEoGPT MAPTOOL 阅题: 青强透 地质过程 图文联合的池 GeoVLM 数据量 论文136.000篇 地质图147.000张 数据量 地质图98.000张 问答对331.000对 通盖MDPL.Elsevier.Nature.Frontiers等4个出版商 用于训练的多模态图文问答的语料 72B模型在多模态地图问答上较基模提升9.6%, 地质图问答专业度显若提升
不同模态的大模型的成熟度具备较大差异 阿里云智能集团 不同模型的成熟度差异较大 语言大模型多模态大模型》具身智能类大模型 泛化性 (大语言模型LLM(O.90.85. 泛化性 多模态模型VLM(0.9,0.6,0.8) 时序模型0.6,0.6.0.5) Generalizabilit 流式交互多模态模型(0.7,0.8,0.6) 文生图模型(0.7,0.6,0.55) 通用性 涌现性 文生视频模型(0.75,0.65,0.7) 语音大模型(0.6.0.85,0.4) 通用性 Versatility Emergence VLA模型(0.3.0.4.0.2) DEREH009. 0.3) 净公众号·知白守黑1024
领域数据需求 阿里云智能集团 领域数据:提升领域能力的关键 数量 质量 多样性 大规模无监督语料/图文对 领域问答对 领域问客思维链 非公开语料、逻辑性专业性 多样性、专业性高,思维链清 领域偏好对 应用场量多样性、专业性高 应用场景多样性专业性高 强 A 有监督微润(SFT) 强化微调(RFT) 人类偏好对弃(RLHF) SurP REINFORCE REINFO LEAMING 预域知识学习 项域指令学习 预域推理学习 寿家偏好学习 通用预训练语料 通用问答对 通用问答思维链 通用偏好对数据 贴近通用大模型语料分布 覆盖多种指令场 智盖多学科,推理路径清晰 覆盖多种问答场量 通用数据:保障领域模型通用性、泛化性的关键
阿里云智能集团 VL-CIP:知识蒸馏-轻量化内容安全大模型 11样本集构建 立2获取外源知识→=13模型训练测评 ?4部署及应用 全面提集,构建跨行业综合数据 酷于开源Qw 优化模型性能,增短模型线上请 收集必要育量知识及推理 家时长。满足各行业客户的内容 安全响器封间要家 精风险类目 及事力恐怖等多个关 量。实族全面性赖评估 样本集风险类目占比 通义千何获取外源知识 模型训练测评 8%10% 一传统模型 24% 9% 21% 8% 13% 违法犯罪 ■偏见歧视 ■涅秒色情 ■广告诱导 ■分裂主义 ■梅导性吉辞 分装 力 口暴力恐饰 ■意识形态 违法·
VL-OCR:专注文字识别领域 阿里云智能集团 文字识别 文档解析 通用文字识别任务,提取图中所 专用文档解析任务,返国Latex格式解析内容 有的文字内容 信息抽取 功能说明 多语言识别 从图中抽取结构化的KV信息,以 支持中英文,阿拉伯语、韩语、日语, json格式返回 越南语等多种语言的文字识别 表格解析 公式识别 专用表格解析任务,返回HTML文本 识别数学等理科公式内容,输出Latex格式文本
通义基础模型:开源大模型家族 阿里云智能集团 2亿+ 10万+ 最大 模型下载数量 模型衍生数量 全球开源模型家族 大语言模型 多模态大模型 大模型工程 (LLM) (LMM) (framework) CODEWENT Qwen25-V Qwen2-Math QWQ:328 Wan21T2V Qwen25-Mat QQ728 Nan2112V “公众号·知白守黑1024
领域大模型技术路径 阿里云智能集团 增量预训练(CPT) 有监督微调(SFT) 强化微调(RFT) 人类偏好对齐(RLHF) CONTINUOUS PRETRAINING SURPERVISEDFINETUNING 预域知识学习 预域指令学习 预域推理学习 专家值好学习 旋解模型幻觉 发领试专业能力 检索增强生成(RAG) 提示工程 预域模型核心技术及构建平台 增量预训练(CPT) 有监督微调(SFT) 强化微调(RFT) 云计算基础设施+算力调度平台: 保图大家店高性能计算的定性, ,计算效率,夏力的高效利用
GeoGPT整体架构 阿里云智能集团 科研场景 生物演化 地理演化 物质演化 数字盆地 科学家 成秋明 樊隽轩冯志强 葛味 JamesOgg 宋洋 MikeStephensor 王涛 张国捷 中科院院士南京大学 教授 江西师范大学 普渡大学 中国地调局 DDE前主席 中国地质科学院 浙江大学 GeoGPT 科研工具 假设生成 检索增强 文献阅读 数据提取 知识图谱 地质图生成 地学 G G G G 基座模型 8X7B 66B 70B 72B 110B 跨时空地学知识数据训练 跨学科地学知识体系增强 多场景地学指令学习 通用 021科学基座模型 立 Qwen AISTRAL C 基础模型 QINF
模型能力还处于前往AGI道路上的中期阶段 阿里云智能集团 scalinglaw、统一多模态、统一理解生成 超级对齐 语言模型 快思考 QWEN2.5 复杂任务规划 QWenDOPSEE! MOE.Dense QWEN3 抽象概念旧纳 视觉模型 QWQ AGI 视带 QWEN-VL-2.0 QWEN-VL-2.5 环境交互 Qwen2.5 语音模型 具身智能 生成 通义万相1.0 通义万相2.1 Whispe 早期阶段: 当前阶段: 未来段 各个模态独立发展 多模态融合:模态融合&任务融合 学习、推理,亮成与物理世界交互 净公众号·知白守黑1024
VL-OCR:专注文字识别领域 阿里云智能集团 文字识别 文档解析 通用文字识别任务,提取图中所 专用文档解析任务,返国Latex格式解析内容 有的文字内容 信息抽取 功能说明 多语言识别 从图中抽取结构化的KV信息,以 支持中英文,阿拉伯语、韩语、日语, json格式返回 越南语等多种语言的文字识别 表格解析 公式识别 专用表格解析任务,返回HTML文本 识别数学等理科公式内容,输出Latex格式文本
方案概述:大小模型融合审核服务(postlmageCheckByVL) 阿里云智能集团 处置与反馈 调用审核接口 大小模型融合审核服务 风险等级 模型送代 、图片数据 1、风险标签 (RiSKLEVEL) 大模型送代 2、控制台配置 2、风险等级 2、小模型选代 高风险(high) 结果处置 低风险(low) 违规的处理 人工审核 传统图片市核服务 风险等级 无风险(none) 正常的通过 1,风险标记 返回标签 (RiSkLEVEl) 审核大模型服务 中风险(medium) 风险等级 2、风险标签 中
领域模型构建平台:天擎平台 阿里云智能集团 应用研发 知识库 应用编排 项目管理与计量 数据配比 训练超参 推理加速 模型评测 模型研发 训练算法 增量预训练 有监督微调 直接偏好对齐 强化学习 颈域问答数据处理 数据回流 文本快思考问答生成 文本问答思维链生成 图文问蓄生成 数据研发 领域语料处理 语料预处理 质量评估 语料挖摄 语料生成 通用数据(加密) 预训练语料 指令问答对 推理思维链 问答偏好对 资源管理 存储适配与统一管理 训推一体算力调度 项目管理与计量 基础设施(GPU,存储,网络,容器) 净公众号·知白守黑1024
GeoGPT地质图多模态模型 阿里云智能集团 输出 GeoGPT MAPTOO 地质过程 更文联合的池 GeoVlM 数据量 论文136.000篇 地质图147.000张 地质图98.000张 问答对331.000对 通盖MDPL.Elsevier.Nature.Frontiers等4个出版商 用于训练的多模态图文问答的语料 72B模型在多模态地图问答上较基模提升9.6%,1 地质图问答专业度显若提升
通义基础模型: 阿里云是国内唯一同时提供5种模态厂商,且全尺寸、全开源 阿里云智能集团 立 立 立 立 立 精型 梦数规机 应用场票 语言模型 多膜模型 推理模型 文生图 文生视频 0.58 (如高牙耳机、鼠贩】,谈入式科统、轻 QWEN-VL QWQ/QQ WANGX-T2I WANGX-T2V 1.58 手机等到设备,轻量像烤话系院,都击文本生成 硕先的基础模型 机就学安备,智能家属,轻量像代码生成 中小量文本生成,传普系统,代购精助,教育工具 148 1100 6608 1.3B 15.2万词表 日守黑1022 36万亿Tokens X百万高质量SFT数据
领域数据需求 阿里云智能集团 领域数据:提升领域能力的关键 数量 质量 多样性 大规模无监督语料/图文对 领域问答对 领域问客思维链 非公开语料、逻辑性专业性 多样性、专业性高,思维链清 领域偏好对 应用场量多样性、专业性高 应用场景多样性专业性高 强 A 有监督微润(SFT) 强化微调(RFT) 人类偏好对弃(RLHF) SurP REINFORCE REINFO LEAMING 预域知识学习 项域指令学习 预域推理学习 寿家偏好学习 通用预训练语料 通用问答对 通用问答思维链 通用偏好对数据 贴近通用大模型语料分布 覆盖多种指令场 智盖多学科,推理路径清晰 覆盖多种问答场量 通用数据:保障领域模型通用性、泛化性的关键
预域大模型所需要考虑的核心四要素 阿里云智能集团 基础模型 领域数据 平台工具 领域实践 更强大的基础模型 全球顶尖模型的高 领先的一钻式领域 基于预尖大模型训 会让领城模型训练 质量原始语料数据 大模型构建平台 练孵化端到端领城 领域大模型 更加简单 丰富的领城数据处 覆盖数据、训练、 大模型的实践经验 全球顶尖开源模型 理能力 推理、评测、算力 拥有丰富的领域模 的全栈技术保障 型训练案例 “公众号·知白守黑1024
领域大模型技术路径 阿里云智能集团 增量预训练(CPT) 有监督微调(SFT) 强化微调(RFT) 人类偏好对齐(RLHF) CONTINUOUS PRETRAINING SurPeRViSed FiNETUNING 预域知识学习 预域指苓学习 预域推理学习 专家值好学习 颂解模型幻觉 发领试专业能力 检素增强生成(RAG) 提示工程 颈域模型核心技术及构建平台 城通料由 增量预训练(CPT) 有监督微调(SFT) 强化微调(RFT) 知白守黑1024 云计算基础设施+算力调度平台:保 保障大规摄高性能计算的稳定性, ,计算效
阿里云智能集团 VL-CIP:基于SFT的内容安全大模型 模型部署与服务化 SFT安全大模型VS专家模型 暗喻分析推理 44% 模型测评 暴力恐怖 32% SFT 广告对抗 14% 意识形态 17% 负向调性 1696 阿里云百炼(modelstudio) 浮色情 ·复杂风险识别能力:支持复杂图片理解,针对视觉攻击、隐酶暗喻、等复杂、强对抗风险场景,具备远超传统模型的识别能力。 ·高效低成本的模型开发:支持样本稀缺情况的模型训练,通过SFT进行快速迭代,迅速响应新型风险的防控
打造为地学科学家量身定制的领域基础模型: GeoGPT 阿里云智能集团 GeoGPT ■GeoGPT是一个开源、非营利的全球地球科学研究项目,与多家高校院所合作, 旨在推广合作、共商、共建、共享的开放科学理念。 好 12025年4月27日,GeoGPT正式面向全球开放,并开源模型权重参数及训练 M C 数据源列表。已服务全球135个国家、超过40000名用户,国际影响力显著提升。 专家共建 模型研发 国际交流 Science报道 25+ 400+ 国际地学顶会和联合国舞 领域语料:40B 台上中得到广泛认可赞誉 机构 地学专家 ,挖掘语料:5B AGULIGC IGSAIAI4G 专家标注:8.9w条 GODSCHMIDTCAG- 'GeoGPT可以对促进 ,合成问答:30w条 国际合作和数据驱动的 地质研究做出重要贡献 合成思维链:5.8w条 合成偏好对:2.2w对 NATARAJAN ISHWARAN. 研发时长:18个月 深时数字地球移书长 2023年集中攻关
通义基础模型:开源大模型家族 阿里云智能集团 2亿+ 10万+ 最大 模型下载数量 模型衍生数量 全球开源模型家族 大语言模型 多模态大模型 大模型工程 (LLM) (LMM) (framework) CODOWEN1. Wen Qwen2.5-W Qwen2-Math QwQ-32B Wan21T2V Qwen2.5-0m Qwen2.5-Mat QVQ-72B Wan212V
VL-OCR:优势 信息抽取 阿里云智能集团 针对信息抽取的头部场景,如身份证识别、面单识别。 qwen-v-ocr能够达到与专用小模型持平的效果,并且对生僻字的识别效果更好 针对泛化卡证场景,qwen-vl-ocr相比qwen-vl-max, 能够提供更加准确、精细化的抽取结果,能够识别更小的支学
通义基础模型:更快、更强、更聪明、更开放 阿里云智能集团 2023年 2024年 2025年 SAAE A2 Qwen开源模型checkpoint已超过260个, 其中25年已开源60个
VL-OCR:优势 信息抽取 阿里云智能集团 针对信息抽取的头部场景,如身份证识别、面单识别。 qwen-v-ocr能够达到与专用小模型持平的效果,并且对生僻字的识别效果更好 针对泛化卡证场景,qwen-vl-ocr相比qwen-vl-max, 能够提供更加准确、精细化的抽取结果,能够识别更小的支学
GeoGPT整体架构 阿里云智能集团 科研场景 生物演化 地理演化 物质演化 数字盆地 科学家 成秋明 樊隽轩冯志强 葛味 JamesOgg 宋洋 MikeStephensor 王涛 张国捷 中科院院士南京大学 教授 江西师范大学 普渡大学 中国地调局 DDE前主席 中国地质科学院 浙江大学 GeoGPT 科研工具 假设生成 检索增强 文献阅读 数据提取 知识图谱 地质图生成 地学 G G G G 基座模型 8X7B 66B 70B 72B 110B 跨时空地学知识数据训练 跨学科地学知识体系增强 多场景地学指令学习 通用 021科学基座模型 立 Qwen AISTRAL C 基础模型 QINF
通义基础模型: 阿里云是国内唯一同时提供5种模态厂商,且全尺寸、全开源 阿里云智能集团 立 立 立 立 型 应用场票 语言模型 多膜态模型 推理模型 文生图 文生视频 0.58 (如蓝牙耳机、邮除】,张人式高统,轻 QWEN-VU WANGX-T2I WangX-T2V 1.58 手机等国到设备,轻量很烤话系统,基础文本生成 膜先的基础模型 智薰家居,轻量绿代码生成 卡小量文本生成、阿首系统,代码辅助,教育工月 148 328 110B 660B 36万亿Tokens 15.2万词表 X百万高质量SFT数据
不同模态的大模型的成熟度具备较大差异 阿里云智能集团 不同模型的成熟度差异较大 语言大模型多横态大模型》具身智能类大模型 泛化性 大语言模型LLM(0.9.0.85.0.8 泛化性 多损态模型VLM(0.9,0.6,0.8) 时序模型0.6,0.6.0.5) Generalizabilit 流式交互多模态模型(0.7,0.8,0.6) 文生图模型(0.7,0.6,0.55) 通用性 涌现性 文生视频模型(0.75,0.65,0.7) 语音大模型(0.6.0.85,0.4) 通用性 Versatility Emergence VLA模型(0.3.0.4.0.2) 09. 0.3)
领域语言模型:CPT语料生成 阿里云智能集团 网页内容改写 蟑选:种子语料 切片:长文本处理 高质量领语料据作为种子文档 保持片段内容完整性 辉析质量高 B 打标类别均香 短文本/修正格式/内容简单 难度等级高 内客信息量大 数学代码合成 校验:合成内容筛选 改写:提升多样性 专用任务模型/无法复制多领域 检查合成内容质量 与原文一致性 多风格多视角改写、保持上下文连贯性 预域语料合成 处理专业性。长文本语料 提升合成语料的多样性 合成内容的事实性、连贯性 改写片限对 黄型评药一数性 片段上下交
打造为地学科学家量身定制的领域基础模型: “GeoGPT 阿里云智能集团 GGOGPT ■GeoGPT是一个开源、非营利的全球地球科学研究项目,与多家高校院所合作, 旨在推广合作、共商、共建、共享的开放科学理念。 12025年4月27日,GeoGPT正式面向全球开放,并开源模型权重参数及训练 M 数据源列表。已服务全球135个国家、超过40000名用户,国际影响力显著提升。 专家共建 模型研发 国际交流 Science报道 25+ 400+ 国际地学顶会和联合国舞 领域语料:40B 台上中得到广泛认可赞誉 机构 地学专家 挖掘语料:5B AGUIIGCIGSAIAI4G 专家标注:8.9W条 GOLDSCHMIDTCAG. 'GeoGPT可以对促进 合成问答:30w条 国际合作和数据驱动的 地质研究做出重要贡献 合成思维链:5.8w条 合成偏好对:2.2W对 NATARAJAN ISHWARAN ,研发时长:18个月 2025年4月EGU 深时数字地球秘书长 2023年集中攻关
通义基础模型:开源大模型家族 阿里云智能集团 2亿+ 10万+ 最大 模型下载数量 模型衍生数量 全球开源模型家族 大语言模型 多模态大模型 大模型工程 (LLM) (LMM) (framework) CODOWEN1. Wen Qwen2.5-W Qwen2-Math QwQ-32B Wan21T2V Qwen2.5-0m Qwen2.5-Mat QVQ-72B Wan212V
方案概述:大小模型融合审核服务(postlmageCheckByVL) 阿里云智能集团 处置与反馈 调用审核接口 大小模型融合审核服务 风险等级 模型送代 、图片数据 1、风险标签 (RiSKLEVEL) 大模型送代 2、控制台配置 2、风险等级 2、小模型选代 高风险(high) 结果处置 低风险(low) 违规的处理 人工审核 传统图片市核服务 风险等级 无风险(none) 正常的通过 1,风险标记 返回标签 (RiSkLEVEl) 审核大模型服务 中风险(medium) 风险等级 2、风险标签 中
内容安全:最佳实践-社交APP 阿里云智能集团 场景分析 检测方案 线上应用 图片特征 12+风险类别90+检测细项 直客户 尺寸压缩、分辨率低 违规特征难度高 违规特征 涉政 曙光率高 对抗场屏 60% 40% 40% 30% 厂低俗 20% 15% 10% 10% 0% 引流违禁低俗色情桑恐 引流商标 价值观 未成年 定制场風(表情对抗等)
VL-OCR:优势 信息抽取 阿里云智能集团 针对信息抽取的头部场景,如身份证识别、面单识别。 qwen-v-ocr能够达到与专用小模型持平的效果,并且对生字的识别效果更好 针对泛化卡证场景,qwen-vl-ocr相比qwen-vl-max, 能够提供更加准确、精细化的抽取结果,能够识别更小的支学 “公众号:知白守黑1024
预域大模型所需要考虑的核心四要素 阿里云智能集团 基础模型 领域数据 平台工具 领域实践 更强大的基础模型 全球顶尖模型的高 领先的一站式领城 基于顶尖大模型训 会让领域模型训练 质量原始语料数据 大模型构建平台 领域大模型 练孵化端到端领域 更加简单 丰富的领域数据处 覆盖数据、训练。 大模型的实践经验 全球顶尖开源模型 理能力 推理、评测、算力 拥有丰富的领域模 的全栈技术保障 型训练案例
领域语言模型:RFT问答思维链生成 阿里云智能集团 问题专业推理性强 问题难度提升 思维路径优化 2 答案准确可验证 尚联选代进化 多问监合共 同题复杂化 O 提升效器 思考过程简洁凝练 过多轮数与 种子文档筛选 推理问题合成 思维链蒸馆 自种子文档 ()大学难度等级 理问路 ①)推理性内容 C间答对生成 C向答对提取 难易度判定 @长文本切片 草面向善对内客改写 通过率 打分模型 D类别质量常选 电链+活
领域语言模型:SFT问答数据生成 阿里云智能集团 生成专业数据 在校学生 专业 多指令/多角色/ 领或专家 稠密知识/引用问答/ 科研人员 领城语料 多种题型 原始语料 问答数据 上下文构建知识QA 扩充问题多样性 提高答案准确性 增强指令约束 基于专业语料生成相关知识问题 应用大模型聚合常用专业指令类型 国湖问题与答案相关性,精细能选 基于问答样本增加通用指令约束 蒙考语料上下文内容生成问题答案 知识QA基础上扩充专业指令sk司ls 应用更强模型改写和摔选更优回答 进一步提升模型的指令最循腕力
领域数据需求 阿里云智能集团 领域数据:提升领域能力的关键 数量 质量 多样性 大规模无监督语料/图文对 领域问答对 领城问窖思维链 非公开语料、逻辑性、专业性 多样性、专业性高,思维链清 领域偏好对 应用场多样性、专业性高 浙 应用场景多样性。专业性高 强 一 常量预训练(CPT) 有监督微润(SFT) 强化微调(RFT) 人类偏好对弃(RLHF) Surp D FINETUNING REINFORCE itFine-Tunin :LEAMING 预域知识学习 项域指令学习 频域推理学习 专家偏好学习 通用预训练语料 通用问答对 通用问答思维链 通用偏好对数据 贴近通用大模型语料分布 覆盖多种指令场景 覆盖多学科,推理路径清晰 覆盖多种问答场量 通用数据:保障领域模型通用性、泛化性的关键 “公众号:知白守黑1024
阿里云智能集团 VL-CIP:基于SFT的内容安全大模型 模型部署与服务化 SFT安全大模型Vs专家模型 暗喻分析推理 44% 模型测评 暴力恐怖 32% 5F7 广告对抗 114% 意识形态 17%6 负向调性 1696 阿里云百炼(Modelstudio 浮色情 110% ·复杂风险识别能力:支持复杂图片理解,针对视觉攻击、隐酶暗喻、等复杂、强对抗风险场景,具备远超传统模型的识别能力。 ·高效低成本的模型开发:支持样本稀缺情况的模型训练、通过SFT进行快速迭代,迅速响应新型风险的防控 “公众号·知白守黑1024
不同模态的大模型的成熟度具备较大差异 阿里云智能集团 不同模型的成熟度差异较大 语言大模型多横态大模型》具身智能类大模型 泛化性 大语言模型LLM(0.9.0.85.0.8 泛化性 多损态模型VLM(0.9,0.6,0.8) 时序模型0.6,0.6.0.5) Generalizabilit 流式交互多模态模型(0.7,0.8,0.6) 文生图模型(0.7,0.6,0.55) 通用性 涌现性 文生视频模型(0.75,0.65,0.7) 语音大模型(0.6.0.85,0.4) 通用性 Versatility Emergence VLA模型(0.3.0.4.0.2) 09. 0.3)
领域语言模型:CPT语料生成 阿里云智能集团 网页内容改写 缔选:种子语料 切片:长文本处理 高质量领语料据作为种子文档 保持片段内容完整性 辉析质量高 B 打标类别均衡 短文本/修正格式/内容简单 难度等级高 内容信息量大 数学代码合成 校验:合成内容筛选 改写:提升多样性 专用任务模型/无法复制多领姆 检查合成内容质量 与原文一致性 多风格多视角改写、保持上下文连贯性 领域语料合成 处理专业性。长文本语料 提升合成语料的多样性 海公众号 合成内容的事实性、连贯性 改写片悦对 黄型评料一数性
领域语言模型:RFT问答思维链生成 阿里云智能集团 问题专业推理性强 问题难度提升 思维路径优化 2 答案准确可验证 多问监合共 简化路径 提升效 3 思考过程简洁凝练 过多轮教马。 智位集维病中的关健动 种子文档筛选 推理问题合成 思维链蒸饰 图种子文档 ()大学难度等级 单尚 理问题 参考答案 ①)推理性内容 C间答对生成 e间答对提取 难易度判定 @长文本切片 草阿答对内客改写 通过率 打分模型 ①类别质量锦选 公众号思维体白守黑]
领域语言模型:CPT语料挖掘 阿里云智能集团 领域专家:构建专业领域数据集 高质量内容结构化解析 公开语料挖掘 领域专业语料库 领域语料解析 领域语料挖握 饭面识别 元素关联 种子文档 问答对生成 掌位统文 企业内邮 C 表格识别 公式识别 主内客&质量过滤 网培搜索 数清洗 质量评估 数据筛选&配比 数据环线评测 乱码修复 知识密度 数据源多样性 统一符号 教育意义 知识密度分布 矩阵化 语料去重 格式规范 内容新颖程度 小规模实验验证 相关性过滤 难易程度 知识专业程度
方案概述:大小模型融合审核服务(postlmageCheckByVL) 阿里云智能集团 ■对传统审核小模型做增补,提供更好的识别效果,进一步防范违规风险,也可以应用在人审环境,减少人审人力 处置与反馈 调用审核接口 大小模型魅合审核服务 风险等级 模型选代 1、图片数据 1、风险标签 (RISKLEVE) 1.大模型选代 2、控制台配置 2、风险等级 2、小模型送代 高风险(high) 结果处置 低风险(low) 违规的处理 人工审核 传统图片审核服务 无风险(none) 正常的通过 1.风险标记 风险等级 、返回标签 (RiskLevel 审核大模型服务 中风险(medium) 风险等级 中 2风险标签 知二1024
通义基础模型:更快、更强、更聪明、更开放 阿里云智能集团 2023年 2024年 2025年 SAAE A2 Qwen开源模型checkpoint已超过260个, 其中25年已开源60个
VL-OCR:最佳实践-门牌卡证识别 阿里云智能集团 应用场量 欧美市场投递时,需要上传妥投照片, 快递门牌号识别 模型: qwen-Wl-ocr 准瑜率:90%+ 别表,模式将为每个元素提 请注意, 有多 个号 表元素时,将使用此版 夏板,最后,只需要输出合法的ISON 卡证票据信息提取 #所见即所得,并且输出语言需要与图像保持 #请按要求输出结果。输入的ISON模式内客如下:Ctype: :9M
领域语言模型:数据准备的主要难点与应对方案 阿里云智能集团 数据生成 领域语料 领域QA 领域模型 1.规模不足 3.标注难 2.多样性不足 数据挖掘 数据回流 快思考:SFT/RL “公开语料库 RAG 领域应用 慢思考:RFT/RL 语料规模不足 料多样性不足 标注难 语料挖掘:从公开语料中挖掘领域语料,增强 语料生成:基于语料构造领城问题,国绕领域 数据回流与生成:回流线上数据,筛选总结, 领域能力;结合语料生成,扩充领域语料 问题检索、生成语料、实现跨语料融合生成 结合语料生成大规模高质量问答数据 #公众号·知白守黑1024
VL-OCR:专注文字识别领域 阿里云智能集团 文字识别 文档解析 通用文字识别任务,提取图中所 专用文档解析任务,返回Latex格式解析内容 有的文字内容 信息抽取 功能说明 多语言识别 从图中抽取结构化的KV信息,以 支持中英文、阿拉伯语、韩语、日语、 json格式返回 越南语等多种语言的文字识别 表格解析 公式识别 专用表格解析任务,返回HTML文本 识别数学等理科公式内容,输出Latex格式文本 “公众号·知白守黑1024
内容安全:最佳实践-社交APF 阿里云智能集团 场景分析 检测方案 线上应用 图片特征 12+风险类别90+检测细项 配置(客户 尺寸压缩、分辨率低 违规特征难度高 90+检测缩功 自标/免画库配 违规特征 涉政 曙光率高 对抗场震 60% 40% 40% 30% 一低俗 20% 15% 10% 10% 0% 引流违禁低俗色情暴恐 引流商标 价值观 未成年 定制场景(表情对抗等)
领域语言模型:RFT问答思维链生成 阿里云智能集团 问题专业推理性强 问题难度提升 思维路径优化 2 答案准确可验证 尚联选代进化 多问监合共 同题复杂化 O 提升效器 思考过程简洁凝练 过多轮数与 种子文档筛选 推理问题合成 思维链蒸馆 自种子文档 ()大学难度等级 理问路 ①)推理性内容 C间答对生成 C向答对提取 难易度判定 @长文本切片 草面向善对内客改写 通过率 打分模型 D类别质量常选 电链+活
领域语言模型:CPT语料生成 阿里云智能集团 网页内容改写 蟑选:种子语料 切片:长文本处理 高质量领语料据作为种子文档 保持片段内容完整性 辉析质量高 B 打标类别均香 短文本/修正格式/内容简单 难度等级高 内客信息量大 数学代码合成 校验:合成内容筛选 改写:提升多样性 专用任务模型/无法复制多领域 检查合成内容质量 与原文一致性 多风格多视角改写、保持上下文连贯性 预域语料合成 处理专业性。长文本语料 提升合成语料的多样性 合成内容的事实性、连贯性 改写片限对 黄型评药一数性 片段上下交
通义基础模型:更快、更强、更聪明、更开放 阿里云智能集团 2023年 2024年 2025年 Qwen开源模型checkpoint已超过260个, 其中25年已开源60个 #公众号·知白守黑1024
领域语言模型:CPT语料挖掘 阿里云智能集团 领域专家:构建专业领域数据集 高质量内容结构化解析 公开语料挖掘 领域专业语料库 领域语料解析 领域语料挖握 饭面识别 元素关联 种子文档 问答对生成 掌位统文 企业内邮 C 表格识别 公式识别 主内客&质量过滤 网培搜索 数清洗 质量评估 数据筛选&配比 数据环线评测 乱码修复 知识密度 数据源多样性 统一符号 教育意义 知识密度分布 矩阵化 语料去重 格式规范 内容新颖程度 小规模实验验证 相关性过滤 难易程度 知识专业程度
大语言模型LLM(0.90.85 泛化性 多模态模型VLM(0.9,0.6,0.8 时序模型0.6,0.6,0.5) Generalizability 流式交互多模态模型(0.7,0.8,0.6) 文生图模型(0.7,0.6,0.55) 文生视频模型(0.75,0.65,0.7) 通用性 涌现性 语音大模型(0.6,0.85,0.4) Versatility Emergence VLA模型(0.3,0.4,0.2) DH09 0.3)
内容提及地域:江西省、江苏省、浙江省、南京市、杭州市、拱墅区、鼓楼区
IP属地:中国 北京