基于DeepSeek的数据治理.pptx

下载文档

2
0
约7.18千字
约 65页
2025-04-19 发布于北京
举报
版权申诉
保障服务

基于DeepSeek的数据治理.pptx

1、本文档共65页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

;

1.前言

2.大模型技术基础

3.DeepSeek赋能数据治理技术

4.基于DeepSeek的智能体构建;

·资产属性(自用、他用)

·与数据的相关性;

图像文本

代码

音频

镜像;

AI,即人工智能(ArtificialIntelligence),是一种模

拟人类的智能技术，使机器能够像人一样学习、思考和做出决策，从而能够自主地执行各种任务。;

人工智能

监督学习

深度学习

生成式AI;

显式编程

通过编写明确的代码来控

制程序进行识别。;

学习带有标签的原始数据，目标是发现原始数据与标签之间的映射关系，从而预测新的数据。

给机器的训练数据拥有标记或答案!

Dog

Cat;

0.20.4;

Environment

环境

Reward

奖励

Policy策略

Agent;

·深度学习使用多层神经网络来模拟人脑处理信息的方式。

·神经网络由许多计算和存储单元(神经元)组成，这些神经元通过“连接”来处理数据。

·深度学习模型的“深度”指的是其层次化的结构，通过多层的提取和连接来表示数据的特征。;

·训练数据量巨大

大语言模型首先需要通过大量文本进行无监督学

习。以GPT4为例，它的训练数据来自广泛的互联网文本语料，如电子书、新闻文章、博文、论文、百科、社交媒体帖子等。这些文本数据没有人工标签，模型主要学习单词与上下文之间的关系，以更好地理解文本并生成准确预测。

·参数量巨大

参数在模型中用于刻画从庞大训练数据集中学习

到的规律，决定模型如何响应输入数据。随着参数增加，模型能力增强，甚至能创造出全新的内容。参数越大，模型的创造力越强!;

“以数据为中心的Al是对用于构建Al系统的数据进行系统化处理的学科。”;

NVIDIA(英伟达)公司发展历程：

·1993年，在美国加利福尼亚州由黄仁勋等人发起成立。

·1999年，发明图形处理器(GPU),极大推动PC游戏的发展，重新定义了计算机图形技术。

·2006年，发明并行计算平台和编程模型CUDA,为后来的人工智能技术带来了重大影响。

·2020年7月，首次在市值上超越英特尔，成为美国市值最高的芯片厂商。

·2023年5月，成为首家市值达到1万亿美元的芯片企业。

·2024年2月，市值达到1.83万亿美元，市值仅次于微软和苹果，成为美股市值第三大公司。;

解决方案：

·检索增强生成(RAG)

·函数调用(FunctionCalling)

·模型微调(SupervisedFineTuning)

·训练行业大模型

●……;

检索增强生成(RetrievalAugmentedGeneration,RAG)

用户的提问转向量

在向量数据库检索相似材料，

得到“包含答案的内容”

·文本转向量

·存入向量数据库;

函数调用(FunctionCalling)

用户DeepSeek接口(函数)列表;

DeepSeek简介deepseek

杭州深度求索人工智能基础技术研究有限公司于2023年7月成立，创始人梁文峰。

该公司主攻大模型的研发与应用，开创性地提出了多头潜在注意力机制(MLA)和DeepSeekMoE等创新架

构，并相继推出DeepSeek-V3和DeepSeek-R1两款模型，在网页端、APP、API全面上线。;

(对数坐标)100;

·DeepSeek-R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩OpenAlo1正式版。

·DeepSeek-R1是一款推理优先的模型，专注于复杂推理任务，适合需要深度逻辑分析和问题解决的场景。;

你好，你是谁?

深度思考(R1)田联网有哪些信誉好的足球投注网站;

token是模型用来表示自然语言文本的基本单位，也是我们的计费单元，可以直观的理解为“字“或”词”;通常1个中文词语、1个英文单

词、1个数字或1个符号计为1个token。

一般情况下模型中token和字数的换算比例大致如下：

·1个英文字符≈0.3个token。

·1个中文字符≈0.6个token。

模型价格细节

CNYUSD;￥1

￥0;

3.数据存储

·知识库(向量数据库)

●数据库设计、管理

·自动化运维监控

●…..;

DeepSeek能力体现：词法和句法分析

您可能关注的文档

文档评论（0）

136****4599 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于DeepSeek的数据治理.pptx