【合格体験記】AWS Certified Data Analytics - Specialty

はじめに

こんにちは、クラウド事業部の清水(雄)です。

先日、AWS DAS（AWS Certified Data Analytics - Specialty)に合格してきました。
今回は体験記を書かせて頂きました。

はじめに
前提
教材
合計学習時間
スコア
学習方法
所感
理解しにくかった用語のメモ
おわりに
お知らせ

前提

・以下資格取得済み

AWS Certified Solutions Architect - Professional
AWS Certified Solutions Architect - Associate
AWS Certified Developer - Associate
AWS Certified SysOps Administrator - Associate
AWS Certified Security - Specialty
AWS Certified Database - Specialty

・データ分析の実務経験なし

教材

・https://cloud-license.com/exam/das/
・推薦図書:要点整理から攻略する『AWS認定データ分析・専門知識』
・Skill Builder

合計学習時間

・1カ月半

スコア

834

学習方法

1.cloud-license(DAS)の問題演習を3周行う
2.cloud-license(DAS)の間違えた問題を3周行う
3.Skill Builderで模試を3回解く
4.Skill Builderで試験対策を3回受ける（3回問題演習をする）
5.要点整理から攻略する『AWS認定データ分析・専門知識』の問題演習

所感

・cloud-license(DAS)の問題演習を3周程度していれば合格圏内だと思いますが
　実務経験がないとイメージが湧きにくいので本質を理解するのに時間がかかった印象です。
・Skill Builderや参考書の問題を解くと別角度で知見を深められるので最後の仕上げにやるとスコアアップにつながると思います。

理解しにくかった用語のメモ

- Athneをデータソースにすることは可能
- Apache Spark
    - EMRクラスタを使用
    - 機会学習、ストリーム処理、グラフ分析で使用
    - 分散処理フレームワーク
    - プログラミングモデル
- Apache HCatalog
    - Pig,SparkSQL,MapRedudeカスタムアプリケーションからHiveのメタストアテーブルにアクセスする為のツール
- Juoyterノートブック
    - オープンソースのウェブアプリケーション
    - EMR Hadoopエコシステム
    - ライブコード。方程式、視覚化、音声テキストを含むドキュメントを作成して共有する為に使用

- Presto
    - 複数のソースからのくる大量のデータセットを対話型で実施することができる高速のSQLエンジン
- Hbase
    - Key-valueストア
- Hue
    - GUI
    - EMRとHadoopで使用
- D3.js
    - データに基づいてドキュメントを操作する為のJavaScriptライブラリ
- Zeppelin
    - データの取り込み、発見、分析、データの視覚化
- Hive
    - データウェアハウス
    - Hadoop上で実行される分析パッケージ
- 「ストリームする」＝「配信する」
- AWS Glue
    - Glue Data Catalog:どの場所にどのデータがどのような形式で保存されているかを管理する
    - Glue Crawler:保存されたデータから、自動的にスキーマを取得してGlue Data Catalogに登録する
    - Glue ETL:サーバレスな環境でETL処理を行う
    - インタラクティブに適していない
- EMR
    - Hadoopクラスタを提供するサービス
    - インタラクティブに適している
    - 大量データの解析向け
    - Prestoサポート
    - Spark以外のフレームワークを利用してETL処理を行いたい場合に使用。Sparkの場合はGlue ETLでサポート
- VACUUM
    - **テーブルの実体となるファイルの中から、不要領域を探索し、再利用可能な状態にしていくもの**
- ETag
    - エンティティタグの総称
    - オブジェクトのハッシュ情報
- Apache Spark DataFrames
    - 分散したデータを列に整理することで集計が早くなる
- Amazon Redshift Spectrum
    - 外部のデータカタログを必要とする
- Elasticsearch
    - ファセット
    - 検索
    - スキーマ（JSON）と固定スキーマ
    - ノイズワードを排除したもの
- スライディングウィンドウ
    - **ACK（確認応答）を受け取るまでに送出できるデータの範囲であるウィンドウを徐々にスライドさせながら通信を行います**。
- ALL分散の最適なケース
    - ちいさくてゆっくり変化するディメンションテーブル
- EVEN分散が最適なケース
    - 新しいテーブルが読み込まれ、どの分散スタイルに結合されるかが不明な場合
    - テーブルが行動に非正規化されており、頻繁な結合に参加していない場合
- キー分散の最適なケース
    - クエリの大部分が両方のテーブルで実行されている場合
    - ノード間トラフィックを減らす必要がある場合
    - データ分散とコロケーションデータのバランスをとる必要がある場合
    - ローカルノードのデータの局所性を利用して結合と集計を行う必要がある場合
- Kinesis Data Analytics
    - ほぼリアルタイムでData Firehose配信ストリームのデータをクエリできる
- kinesis Data Firehose
    - Redshiftに直接データをストリーミングできる。
- kinesis Data streams
    - Red shiftをターゲットとしてサポートしていない
    - 同じ順序でレコードを読み取ったり再生したりできます。
- CUSTOM＿JAR
    - S3バケットからJARファイルをダウンロードして実行するように設定可能
- DocumentDB
    - PDFファイルを保存するには理想的ではない。
- Ganglia
    - スケーラブルな分散型の監視システム
- ヒートマップ
    - 二つの次元の交点を測定することができ、パターンを簡単に区別するために色分けできる
- Redshift SpectrumはRedshift にデータをロードしない
- セマンティクス＝コードの断片
- EMRFSはAWS Glueデータカタログを必要とし、AWS Glueのアクセス許可はRangerではなくリソースポリシーを使用して制御する
- インスタンスフリートは
- OpenSerch
    - GUIはKibanaが最適
    - ストリーミングログに最適