DP-203T00: Data Engineering in Azure

「DP-203: Data Engineering on Azure」コースへようこそ。このコースをサポートするため、コースの内容を更新して、コースで使用される Azure サービスを最新の状態に維持する必要があります。コース作成者と MCT の間のオープンな貢献を可能にし、Azure プラットフォームの変更に伴ってコンテンツを最新の状態に保つため、GitHub でラボの手順とラボファイルを公開しています。

**MCT ですか? ** - MCT 向け GitHub ユーザーガイドをご覧ください。

公開済みの MOC ファイルと一緒にこれらのファイルを使用する方法

講師用ハンドブックと PowerPoint は、コースコンテンツを指導する際に必要な主要なソースになります。
GitHub のこれらのファイルは、受講者向けハンドブックと組み合わせて使用するように設計されていますが、MCT とコース作成者が最新のラボファイルの共有ソースを有するができるように、中央リポジトリとして GitHub に用意されています。
各モジュールのラボの手順は /Instructions/Labs フォルダーに含まれています。このフォルダー内の各サブフォルダーは各モジュールを参照しています。たとえば、Lab01 は module01 に関係があります。ラボの手順の各フォルダーには、受講者が従うことのできる README.md ファイルがあります。
講師は資料の配信時に、最新の Azure サービスをサポートするために行われた変更がないか GitHub を確認し、配信用の最新ファイルを取得することをお勧めします。
ラボの手順に掲載されている画像の中には、このコースで使用するラボの環境の状態を必ずしも反映していないものもあります。たとえば、データレイクでファイルを参照する際、実際の環境では存在しない追加フォルダーが画像に表示されている可能性があります。これは意図的なもので、ラボの手順には影響しません。

受講者用ハンドブックの変更について

受講者用ハンドブックは四半期ごとに確認が行われ、必要に応じて通常の MOC リリースチャンネルを通じて更新されます。

貢献するには

MCT は、GitHub repro のコードまたはコンテンツに問題を送信できます。Microsoft とコース作成者は、必要に応じてコンテンツとラボのコード変更をトリアージして含めます。

教材

MCT およびパートナーがこれらの資料にアクセスしてから、受講者に教材を別途提供することを強くお勧めします。受講者が GitHub に直接アクセスして、進行中のクラスの一部としてラボの手順にアクセスすると、コースの一部において別の UI にアクセスしなければならず、混乱を招くことになります。個別のラボの手順が別途提供される理由として、常に変化するクラウドベースのインターフェイスとプラットフォームの性質について説明するようにしてください。GitHub 上のファイルへのアクセスに関する Microsoft Learning サポートと GitHub サイトのナビゲーションのサポートは、このコースを指導する MCT に限定されます。

ラボの概要

各モジュールの課題の目的を以下に概説します。

ラボ 1 - データエンジニアリングワークロードのコンピューティングおよびストレージオプションを確認する

このラボでは、データレイクを構成し、探索、ストリーミング、バッチワークロードに備えてファイルを最適化する方法を説明します。受講者は、バッチおよびストリーム処理を通してファイルを変換しながら、データを絞り込めるレベルにデータレイクを整理する方法を学びます。また、Azure Synapse Analytics で Apache Spark を使用する経験も積みます。データセットで CSV、JSON、Parquet ファイルのようなインデックスを作成し、これを使用して Hyperspace や MSSParkUtils などの Spark ライブラリでクエリやワークロードアクセラレーションを行う方法を学びます。

ラボ 2 - サービングレイヤーを設計して実装する

このラボでは、最新のデータウェアハウスでデータストアを設計して実装し、分析ワークロードを最適化する方法を説明します。受講者は、マルチディメンションのスキーマを設計して、ファクトおよびディメンションデータを格納する方法を学びます。その後、Azure Data Factory の増分データ読み込みを使用して、ゆっくり変化するディメンションのデータを読み込む方法を学びます。

ラボ 3 - ソースファイルに関するデータエンジニアリングの考慮事項

このラボでは、ひとりまたはグループで20分間、以下の情報を読むよう講師から指示されます。その後、質問に答え、要件に基づいて見つけた結果を教室内で発表します。

ラボ 4 - Azure Synapse Analytics サーバーレス SQL プールを使用してインタラクティブなクエリを実行する

このラボでは、Azure Synapse Analytics のサーバーレス SQL プールで T-SQL ステートメントを実行し、データレイクと外部ファイルソースに格納されているファイルを使用する方法を学びます。データレイクに格納されている Parquet ファイルと、外部データストアに格納されている CSV ファイルのクエリを実行します。次に、Azure Active Directory セキュリティグループを作成し、ロールベースのアクセス制御 (RBAC) とアクセス制御リスト (ACL) を使用してデータレイクのファイルにアクセスします。

ラボ 5 - Apache Spark を使用してデータの探索と変換を行い、データウェアハウスに読み込む

このラボでは、データレイクに格納されているデータを探索し、データを変換して、リレーショナルデータストアにデータを読み込む方法を学びます。Parquet ファイルと JSON ファイルを探索し、階層構造を使用して JSON ファイルのクエリと変換を実行する技術を使用します。その後、Apache Spark を使用してデータをデータウェアハウスに読み込み、データレイクの Parquet データを専用 SQL プールのデータに統合します。

ラボ 6 - Azure Databricks でのデータの探索と変換

このラボでは、さまざまな Apache Spark DataFrame メソッドを使用して、Azure Databricks でデータを探索して変換する方法を説明します。受講者は、標準的な DataFrame メソッドを実行してデータの探索と変換を行う方法を学びます。また、重複データの削除や、日時の値の操作、列の名前変更、データの集計など、より高度なタスクを実行する方法を学習します。選択した取り込み技術をプロビジョニングし、これを Stream Analytics と統合して、ストリーミングデータで動作するソリューションを作成します。

ラボ 7 - データウェアハウスにデータを取り込んで読み込む

このラボでは、T-SQL スクリプトと Synapse Analytics 統合パイプラインを介してデータウェアハウスにデータを取り込む方法を説明します。受講者は、T-SQL を使用して PolyBase と COPY で Synapse 専用 Synapse SQLプールにデータを読み込む方法を学びます。また、ペタバイトスケールのデータインジェスト向けに Azure Synapse パイプラインでコピーアクティビティとともにワークロード管理を使用する方法も学習します。

ラボ 8 - Azure Data Factory または Azure Synapse パイプラインでデータを変換する

このラボでは、データ統合パイプラインを構築して、複数のデータソースから取り込み、マッピングデータフローとノートブックを使用してデータを変換し、ひとつ以上のデータシンクにデータを移動する方法を説明します。

ラボ 9 - ノートブックのデータを Azure Data Factory または Azure Synapse パイプラインと統合する

このラボでは、過去 12 ヶ月間のユーザーのアクティビティと購入を照会するためにノートブックを作成します。その後、新しいノートブックアクティビティを使用してノートブックをパイプラインに追加し、調整プロセスの一環としてマッピングデータフローの後でこのノートブックを実行します。これを構成する間に、制御フローでダイナミックコンテンツを追加し、どのようにパラメーターを使用できるのか検証します。

ラボ 10 - Azure Synapse の専用 SQL プールでクエリのパフォーマンスを最適化する

このラボでは、Azure Synapse Analytics で専用 SQL プールを使用する際にデータストレージと処理を最適化するための戦略を学びます。受講者は、ウィンドウ化や HyperLogLog 関数など開発者向けの機能の使用、データ読み込みのベストプラクティスの利用、クエリパフォーマンスの最適化と向上の方法を学習します。

ラボ 11 - データウェアハウスストレージを分析して最適化する

このラボでは、Azure Synapse 専用 SQL プールのデータストレージを分析して最適化する方法を説明します。テーブルの領域使用量と列ストアストレージの詳細を把握するテクニックを学びます。次に、異なるデータ型を使用している同一のテーブルでストレージ要件を比較する方法を学習します。最後に、複雑なクエリの代わりに具体化されたビューを実行した場合の影響を観察し、削除操作を最適化することによって膨大なログを回避する方法を学びます。

ラボ 12 - Azure Synapse Link を使用してハイブリッドトランザクション分析処理 (HTAP) に対応する

このラボでは、Azure Synapse Link によって Azure Cosmos DB アカウントを Synapse ワークスペースにシームレスに接続する方法を学習します。Synapse Link を有効にして構成する方法、および Apache Spark プールと SQL サーバーレスプールを使用して Azure Cosmos DB 分析ストアのクエリを行う方法を学びます。

ラボ 13 - Azure Synapse Analytics を使用したエンドツーエンドのセキュリティ

このラボでは、Synapse Analytics ワークスペースとその補助インフラストラクチャを保護する方法を学習します。SQL Active Directory Admin の観察、IP ファイアウォールルールの管理、Azure Key Vault を使用したシークレットの管理、Key Vault にリンクされたサービスとパイプラインアクティビティによるシークレットへのアクセスを実行します。専用 SQL プールを使用する際の列レベルのセキュリティ、行レベルのセキュリティ、動的データマスクの実装方法を学びます。

ラボ 14 - Stream Analytics によるリアルタイムのストリーム処理

このラボでは、Azure Stream Analytics を使用してストリーミングデータを処理する方法を学習します。車両のテレメトリデータを Event Hubs に取り込んだ後、Azure Stream Analytics のさまざまなウィンドウ化関数を使用してリアルタイムでそのデータを処理します。データは Azure Synapse Analytics に出力されます。最後に、スループットを増やすために Stream Analytics ジョブのスケーリングを行う方法を学びます。

ラボ 15 - Event Hubs と Azure Databricks を使用してストリーム処理ソリューションを作成する

このラボでは、Azure Databricks で Event Hubs と Spark Structured Streaming を使用して大規模なストリーミングデータの取り込みと処理を行う方法を学習します。構造化ストリーミングの主な機能と使用方法について学びます。スライディングウィンドウを実装して、データのチャンクで集計を行い、基準値を適用して古いデータを削除します。最後に、Event Hubs に接続して、ストリームの読み取りと書き込みを行います。

レッスン 16 - Power BI と Azure Synapse Analytics の統合を使用してレポートを作成する

このラボでは、Power BI を Azure Synapse ワークスペースと統合して Power BI でレポートを作成する方法を学習します。受講者は Azure Synapse Studio で新しいデータソースと Power BI レポートを作成します。その後、具体化されたビューと結果セットのキャッシュを使用してクエリのパフォーマンスを向上させる方法を学びます。最後に、サーバーレス SQL プールのあるデータレイクを確認し、Power BI でそのデータに対する視覚化を作成します。

ラボ 17 ? Azure Synapse Analytics で統合された機械学習プロセスを実行する

ラボでは、Azure Synapse Analytics で統合されたエンドツーエンドの Azure Machine Learning および Azure Cognitive Services を確認します。リンクサービスを使用して Azure Synapse Analytics ワークスペースを Azure Machine Learning ワークスペースに接続する方法を学習した後、Spark テーブルからのデータを使用する Automated ML 実験を開始します。また、Azure Machine Learning または Azure Cognitive Services からトレーニング済みのモデルを使用して SQL プールテーブルでデータを強化し、Power BI で予測結果を提示する方法も学びます。

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
.github		.github
Instructions		Instructions
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DP-203T00: Data Engineering in Azure

公開済みの MOC ファイルと一緒にこれらのファイルを使用する方法

受講者用ハンドブックの変更について

貢献するには

教材

ラボの概要

ラボ 1 - データエンジニアリングワークロードのコンピューティングおよびストレージオプションを確認する

ラボ 2 - サービングレイヤーを設計して実装する

ラボ 3 - ソースファイルに関するデータエンジニアリングの考慮事項

ラボ 4 - Azure Synapse Analytics サーバーレス SQL プールを使用してインタラクティブなクエリを実行する

ラボ 5 - Apache Spark を使用してデータの探索と変換を行い、データウェアハウスに読み込む

ラボ 6 - Azure Databricks でのデータの探索と変換

ラボ 7 - データウェアハウスにデータを取り込んで読み込む

ラボ 8 - Azure Data Factory または Azure Synapse パイプラインでデータを変換する

ラボ 9 - ノートブックのデータを Azure Data Factory または Azure Synapse パイプラインと統合する

ラボ 10 - Azure Synapse の専用 SQL プールでクエリのパフォーマンスを最適化する

ラボ 11 - データウェアハウスストレージを分析して最適化する

ラボ 12 - Azure Synapse Link を使用してハイブリッドトランザクション分析処理 (HTAP) に対応する

ラボ 13 - Azure Synapse Analytics を使用したエンドツーエンドのセキュリティ

ラボ 14 - Stream Analytics によるリアルタイムのストリーム処理

ラボ 15 - Event Hubs と Azure Databricks を使用してストリーム処理ソリューションを作成する

レッスン 16 - Power BI と Azure Synapse Analytics の統合を使用してレポートを作成する

ラボ 17 ? Azure Synapse Analytics で統合された機械学習プロセスを実行する

About

Releases

Packages

Contributors 2

Languages

VietTran0302/DP-203JA-Data-Engineering-on-Microsoft-Azure

Folders and files

Latest commit

History

Repository files navigation

DP-203T00: Data Engineering in Azure

公開済みの MOC ファイルと一緒にこれらのファイルを使用する方法

受講者用ハンドブックの変更について

貢献するには

教材

ラボの概要

ラボ 1 - データ エンジニアリング ワークロードのコンピューティングおよびストレージ オプションを確認する

ラボ 2 - サービング レイヤーを設計して実装する

ラボ 3 - ソース ファイルに関するデータ エンジニアリングの考慮事項

ラボ 4 - Azure Synapse Analytics サーバーレス SQL プールを使用してインタラクティブなクエリを実行する

ラボ 5 - Apache Spark を使用してデータの探索と変換を行い、データ ウェアハウスに読み込む

ラボ 6 - Azure Databricks でのデータの探索と変換

ラボ 7 - データ ウェアハウスにデータを取り込んで読み込む

ラボ 8 - Azure Data Factory または Azure Synapse パイプラインでデータを変換する

ラボ 9 - ノートブックのデータを Azure Data Factory または Azure Synapse パイプラインと統合する

ラボ 10 - Azure Synapse の専用 SQL プールでクエリのパフォーマンスを最適化する

ラボ 11 - データ ウェアハウス ストレージを分析して最適化する

ラボ 12 - Azure Synapse Link を使用してハイブリッド トランザクション分析処理 (HTAP) に対応する

ラボ 13 - Azure Synapse Analytics を使用したエンドツーエンドのセキュリティ

ラボ 14 - Stream Analytics によるリアルタイムのストリーム処理

ラボ 15 - Event Hubs と Azure Databricks を使用してストリーム処理ソリューションを作成する

レッスン 16 - Power BI と Azure Synapse Analytics の統合を使用してレポートを作成する

ラボ 17 ? Azure Synapse Analytics で統合された機械学習プロセスを実行する

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

ラボ 1 - データエンジニアリングワークロードのコンピューティングおよびストレージオプションを確認する

ラボ 2 - サービングレイヤーを設計して実装する

ラボ 3 - ソースファイルに関するデータエンジニアリングの考慮事項

ラボ 5 - Apache Spark を使用してデータの探索と変換を行い、データウェアハウスに読み込む

ラボ 7 - データウェアハウスにデータを取り込んで読み込む

ラボ 11 - データウェアハウスストレージを分析して最適化する

ラボ 12 - Azure Synapse Link を使用してハイブリッドトランザクション分析処理 (HTAP) に対応する

Packages