网站大量收购独家精品文档,联系QQ:2885784924

基于DeepSeek的数据治理.pptx

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;

1.前言

2.大模型技术基础

3.DeepSeek赋能数据治理技术

4.基于DeepSeek的智能体构建;

·资产属性(自用、他用)

·与数据的相关性;

图像文本

代码

音频

镜像;

AI,即人工智能(ArtificialIntelligence),是一种模

拟人类的智能技术,使机器能够像人一样学习、思考和做出决策,从而能够自主地执行各种任务。;

人工智能

监督学习

深度学习

生成式AI;

显式编程

通过编写明确的代码来控

制程序进行识别。;

学习带有标签的原始数据,目标是发现原始数据与标签之间的映射关系,从而预测新的数据。

给机器的训练数据拥有标记或答案!

Dog

Cat;

0.20.4;

Environment

环境

Reward

奖励

Policy策略

Agent;

·深度学习使用多层神经网络来模拟人脑处理信息的方式。

·神经网络由许多计算和存储单元(神经元)组成,这些神经元通过“连接”来处理数据。

·深度学习模型的“深度”指的是其层次化的结构,通过多层的提取和连接来表示数据的特征。;

·训练数据量巨大

大语言模型首先需要通过大量文本进行无监督学

习。以GPT4为例,它的训练数据来自广泛的互联网文本语料,如电子书、新闻文章、博文、论文、百科、社交媒体帖子等。这些文本数据没有人工标签,模型主要学习单词与上下文之间的关系,以更好地理解文本并生成准确预测。

·参数量巨大

参数在模型中用于刻画从庞大训练数据集中学习

到的规律,决定模型如何响应输入数据。随着参数增加,模型能力增强,甚至能创造出全新的内容。参数越大,模型的创造力越强!;

“以数据为中心的Al是对用于构建Al系统的数据进行系统化处理的学科。”;

NVIDIA(英伟达)公司发展历程:

·1993年,在美国加利福尼亚州由黄仁勋等人发起成立。

·1999年,发明图形处理器(GPU),极大推动PC游戏的发展,重新定义了计算机图形技术。

·2006年,发明并行计算平台和编程模型CUDA,为后来的人工智能技术带来了重大影响。

·2020年7月,首次在市值上超越英特尔,成为美国市值最高的芯片厂商。

·2023年5月,成为首家市值达到1万亿美元的芯片企业。

·2024年2月,市值达到1.83万亿美元,市值仅次于微软和苹果,成为美股市值第三大公司。;

解决方案:

·检索增强生成(RAG)

·函数调用(FunctionCalling)

·模型微调(SupervisedFineTuning)

·训练行业大模型

●……;

检索增强生成(RetrievalAugmentedGeneration,RAG)

2

用户的提问转向量

在向量数据库检索相似材料,

得到“包含答案的内容”

·文本转向量

·存入向量数据库;

函数调用(FunctionCalling)

用户DeepSeek接口(函数)列表;

DeepSeek简介deepseek

杭州深度求索人工智能基础技术研究有限公司于2023年7月成立,创始人梁文峰。

该公司主攻大模型的研发与应用,开创性地提出了多头潜在注意力机制(MLA)和DeepSeekMoE等创新架

构,并相继推出DeepSeek-V3和DeepSeek-R1两款模型,在网页端、APP、API全面上线。;

(对数坐标)100;

·DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAlo1正式版。

·DeepSeek-R1是一款推理优先的模型,专注于复杂推理任务,适合需要深度逻辑分析和问题解决的场景。;

你好,你是谁?

深度思考(R1)田联网有哪些信誉好的足球投注网站;

token是模型用来表示自然语言文本的基本单位,也是我们的计费单元,可以直观的理解为“字“或”词”;通常1个中文词语、1个英文单

词、1个数字或1个符号计为1个token。

一般情况下模型中token和字数的换算比例大致如下:

·1个英文字符≈0.3个token。

·1个中文字符≈0.6个token。

模型价格细节

CNYUSD;¥1

¥0;

3.数据存储

·知识库(向量数据库)

●数据库设计、管理

·自动化运维监控

●…..;

DeepSeek能力体现:词法和句法分析

您可能关注的文档

文档评论(0)

136****4599 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档