本教學大綱涵蓋了企業大數據專家級認證考試(Enterprise Big Data Professional examination)。 它基于大數據框架網站(www.bigdataframework.org )上發布的第一版企業大數據專家指南(“文本”),適用于參加考試的所有考生。教學大綱的主要目的是為參與大數據解決方案和服務的人員提供認證的基礎,它描述了與使用大數據框架相關的學習成果,并描述了各個認證級別所期望考生達到的學習成果的范圍。
認證針對參與企業大數據分析的人員,需要了解大數據背后原理的工作知識,并需要知道相關術語和實踐背后的一些理論;
因此,企業大數據專家級認證的目標受眾包括:
數據分析師(Data Analysts)/業務分析師(Business Analysts)/IT 顧問(IT Advisors)/IT 專家(IT Professionals)。
1) 企業大數據專家級認證目的是衡量考生是否對大數據框架有足夠的知識和理解,以及考生是否能夠理解基本數據處理技術和算法,并以此解決實際問題;
2) 經過認證的企業大數據專家能分析實踐和并掌握技術概念,這些概念包括當前大數據環境和工具中的特征。
-- 大數據概念和關鍵驅動因素;
-- 大數據框架;
-- 大數據戰略;
-- 大數據架構;
-- 大數據算法;
-- 大數據流程;
-- 大數據職能;
-- 人工智能。
學習內容
大數據的定義
大數據的四個特征的名稱
兩類機器學習的名稱和通常與之相關的技術
監督式 - 分類和回歸
非監督式 - 聚類和關聯
大數據的起源和三類大數據發展階段的特點:
大數據的四個特征以及它們如何區分大數據和傳統數據分析
1. Volume – 體量 2. Velocity – 速率 3. Variety- 多樣性 4. Veracity – 可信度
四種識別模式
1.analysis - 分析 2.analytics- 解析 3.business intelligence - 商業智能 4.Big Data - 大數據
不同類型的解析目的
1. descriptive - 描述性 2. diagnostic - 診斷性 3. predictive - 預測性 4. prescriptive - 規范性
大數據環境中元數據的功能
三類數據類型的特征
1. Structured - 結構化 2. Unstructured - 非結構化 3. Semi-structured - 半結構化
Hadoop 在分布式存儲和分布式處理中的作用
了解兩類機器學習,并能夠識別相關樣
1.Supervised - 監督式 2.Unsupervised - 非監督式
大數據框架六種能力的名稱
如何建立大數據組織的六大數據框架能力的相關性
大數據成熟度模型的不同層次
Level 1 - Analytically Impaired – 分析能力有損級
Level 2 - Localized Analytics – 分析能力本地級
Level 3 - Analytical Operation - 分析能力運營級
Level 4 - Analytical Enterprise - 分析能力企業級
Level 5 - Data Driven Enterprise - 數據驅動企業級
制定大數據戰略的五個步驟及其順序
制定大數據戰略所需要的六個業務驅動影響因素,以及如何使用大數據來產生競爭優勢
優先級矩陣
1. 目的 2. 結構
制定大數據戰略五個步驟中的每一步所涉及的活動:
步驟1 - 定義業務目標
步驟2 - 評估當前現狀
步驟3 - 識別用例并排優先級
步驟4 - 制定大數據路線圖
步驟5 - 通過變更管理植入
指導性架構與其目標
NIST 大數據參考架構的主要特點
整體結構(5 個邏輯角色和2個維度)
角色名稱
維度名稱
信息如何在不同角色之間流動
Hadoop 架構下核心組件的名稱
NameNode – 名字節點
MapReduce – 映射歸約
SlaveNode - 從屬節點
Job tracker – 工作跟蹤器
HDFS - 分布式文件系統
使用大數據參考架構的收益
與參考架構中的邏輯角色相關聯的職能和活動
System Orchestrator - 系統編配器
Data Provider - 數據提供者
Big Data Application Provider - 大數據應用提供者
Big Data Framework Provider - 大數據框架提供者
Data Consumer - 數據消費者
本地式處理和分布式存儲處理的區別
面對海量數據的三種大數據存儲系統
Direct Attached Storage (DAS)- 直接附加存儲
Network Attached Storage (NAS) - 網絡附加存儲
Storage Area Network (SAN) - 存儲區域網絡
大數據存儲機制
File systems - 文件系統
NoSQL databases - NoSQL 數據庫
Parallel programming models - 并行編程模型
大數據實證分析體系結構
Real time analysis- 實時分析
Off-line analysis - 離線分析
Hadoop 在大數據環境中的功能
以下 Hadoop 組件的角色
NameNode – 名字節點
MapReduce – 映射歸約
SlaveNode - 從屬節點
Job tracker – 工作跟蹤器
HDFS – 分布式文件系統
什么是描述性統計信息
關聯的關鍵要素
什么是關聯(correlation
兩種用于關聯的變量類型
關于Pearson皮爾遜關聯系數的關鍵要素
分類的關鍵要素
它能做什么?
機器學習的形式是什么?
對于每種類型的描述性統計,了解每個統計操作/分布措施或顯示
Central tendency statistics - 集中趨勢統計
Dispersion statistics and – 離散統計
Distribution Shapes – 分布形態
偏度特征
Positive - 正偏度
Negative – 負偏度
大數據計算中為什么要標準化
識別和計算描述性統計的示例
不同類型的分布式圖形的不同類型特征
1.Frequency - 頻率分布 2.Probability - 概率分布 3.Sampling – 抽樣分布 4.Normal – 正態分布
為什么分布式圖形對大數據和數據科學很重要
Probability - 概率分布
Sampling – 抽樣分布
Normal – 正態分布
Skew – 偏度
人口、抽樣和偏倚對大數據的影響
如何在大數據中使用關聯,并識別這些示例
關聯與回歸的區別
識別分類算法的示例
聚類的關鍵特性
它能做什么?
大多數聚類算法的典型著眼點
如何在大數據的上下文中使用異常檢測
每個可視化技術的關鍵特性以及每種技術是如何使用的
1. 柱形圖 2. 直方圖 3. 散點圖 4. 雙標圖 5. 箱型圖 6.正態分布Q-Q圖 7.餅狀圖
用于大數據中三個的主要流程及其主要特征
在數據分析流程中的步驟是通常使用的下列工具/技術以及它們在該步驟中的應用方式
1.數據識別圖 2.數據可視化技術 3. 算法
形成大數據項目業務目標的六類問題的特點
1.描述性 2.探索性 3.推理性 4.預測性 5.因果性 6.機理性
數據分析流程中每個步驟的重要性以及每個步驟中發生的情況
1.確定目標 2.數據識別 3.數據收集和采購 4.數據評審 5.數據清洗 6.模型建立 7.數據處理 8.溝通結果
數據治理流程中每個步驟的重要性以及每個步驟中發生的情況
1.制定數據質量戰略 2.評審合規性和隱私性需求 3.制定數據治理政策 4.分配角色和職責
數據管理流程中每個步驟的重要性以及每個步驟中發生的情況
1.指定指標和績效指標 2.監控和管理企業數據 3.數據改進和驗證 4.對數據管理人員進行溝通和培訓
卓越的大數據中心的五大支柱名稱和每個支柱的關鍵特征:
1.大數據團隊 2.大數據實驗室 3.概念驗證 4.敏捷方法 5.計費模型
卓越的大數據中心的收益
大數據團隊中關鍵角色的典型職責和技能
1.大數據分析師 2.大數據科學家 3.大數據工程師
大數據組織的六個成功因素
基于圖靈測試的智能化的實用型定義
關于認知分析的關鍵因素
1.什么是認知分析 2.認知分析與其他形式的分析之間差異的兩個主要特征
考試內容:EBDP官方認證考試。
暫無開班信息
人工智能訓練師(三級)進階
隨著人工智能技術的快速發展,社會對相關專業人才的需求不斷增加。上海交通大學憑借其在人工智能領域的學科優勢和科研實力,開展人工智能訓練師培訓項目,旨在培養適應市場需求的專業技術人才。
開課時間:暫無
人工智能訓練師(三級)基礎
隨著人工智能技術的快速發展,社會對相關專業人才的需求不斷增加。上海交通大學憑借其在人工智能領域的學科優勢和科研實力,開展人工智能訓練師培訓項目,旨在培養適應市場需求的專業技術人才。
開課時間:暫無
DeepSeek核心技術原理和本地部署微調實戰
隨著人工智能技術的快速發展,智能助手(如DeepSeek-V3)在多模態理解、個性化交互、知識推理等領域的應用日益廣泛。DeepSeek-V3作為深度求索公司推出的第三代智能助手,憑借其先進的核心技術(如大規模預訓練、多模態理解、上下文感知等),在智能客服、內容創作、教育、醫療等領域展現了強大的潛力。
開課時間:暫無