
はじめに
こんにちは、クラウド事業部の清水(雄)です。
先日、AWS DAS(AWS Certified Data Analytics - Specialty)に合格してきました。
今回は体験記を書かせて頂きました。
前提
・以下資格取得済み
AWS Certified Solutions Architect - Professional AWS Certified Solutions Architect - Associate AWS Certified Developer - Associate AWS Certified SysOps Administrator - Associate AWS Certified Security - Specialty AWS Certified Database - Specialty
・データ分析の実務経験なし
教材
・https://cloud-license.com/exam/das/
・推薦図書:要点整理から攻略する『AWS認定 データ分析・専門知識』
・Skill Builder
合計学習時間
・1カ月半
スコア
834
学習方法
1.cloud-license(DAS)の問題演習を3周行う
2.cloud-license(DAS)の間違えた問題を3周行う
3.Skill Builderで模試を3回解く
4.Skill Builderで試験対策を3回受ける(3回問題演習をする)
5.要点整理から攻略する『AWS認定 データ分析・専門知識』の問題演習
所感
・cloud-license(DAS)の問題演習を3周程度していれば合格圏内だと思いますが
実務経験がないとイメージが湧きにくいので本質を理解するのに時間がかかった印象です。
・Skill Builderや参考書の問題を解くと別角度で知見を深められるので最後の仕上げにやるとスコアアップにつながると思います。
理解しにくかった用語のメモ
- Athneをデータソースにすることは可能
- Apache Spark
- EMRクラスタを使用
- 機会学習、ストリーム処理、グラフ分析で使用
- 分散処理フレームワーク
- プログラミングモデル
- Apache HCatalog
- Pig,SparkSQL,MapRedudeカスタムアプリケーションからHiveのメタストアテーブルにアクセスする為のツール
- Juoyterノートブック
- オープンソースのウェブアプリケーション
- EMR Hadoopエコシステム
- ライブコード。方程式、視覚化、音声テキストを含むドキュメントを作成して共有する為に使用
- Presto
- 複数のソースからのくる大量のデータセットを対話型で実施することができる高速のSQLエンジン
- Hbase
- Key-valueストア
- Hue
- GUI
- EMRとHadoopで使用
- D3.js
- データに基づいてドキュメントを操作する為のJavaScriptライブラリ
- Zeppelin
- データの取り込み、発見、分析、データの視覚化
- Hive
- データウェアハウス
- Hadoop上で実行される分析パッケージ
- 「ストリームする」=「配信する」
- AWS Glue
- Glue Data Catalog:どの場所にどのデータがどのような形式で保存されているかを管理する
- Glue Crawler:保存されたデータから、自動的にスキーマを取得してGlue Data Catalogに登録する
- Glue ETL:サーバレスな環境でETL処理を行う
- インタラクティブに適していない
- EMR
- Hadoopクラスタを提供するサービス
- インタラクティブに適している
- 大量データの解析向け
- Prestoサポート
- Spark以外のフレームワークを利用してETL処理を行いたい場合に使用。Sparkの場合はGlue ETLでサポート
- VACUUM
- **テーブルの実体となるファイルの中から、不要領域を探索し、再利用可能な状態にしていくもの**
- ETag
- エンティティタグの総称
- オブジェクトのハッシュ情報
- Apache Spark DataFrames
- 分散したデータを列に整理することで集計が早くなる
- Amazon Redshift Spectrum
- 外部のデータカタログを必要とする
- Elasticsearch
- ファセット
- 検索
- スキーマ(JSON)と固定スキーマ
- ノイズワードを排除したもの
- スライディングウィンドウ
- **ACK(確認応答)を受け取るまでに送出できるデータの範囲であるウィンドウを徐々にスライドさせながら通信を行います**。
- ALL分散の最適なケース
- ちいさくてゆっくり変化するディメンションテーブル
- EVEN分散が最適なケース
- 新しいテーブルが読み込まれ、どの分散スタイルに結合されるかが不明な場合
- テーブルが行動に非正規化されており、頻繁な結合に参加していない場合
- キー分散の最適なケース
- クエリの大部分が両方のテーブルで実行されている場合
- ノード間トラフィックを減らす必要がある場合
- データ分散とコロケーションデータのバランスをとる必要がある場合
- ローカルノードのデータの局所性を利用して結合と集計を行う必要がある場合
- Kinesis Data Analytics
- ほぼリアルタイムでData Firehose配信ストリームのデータをクエリできる
- kinesis Data Firehose
- Redshiftに直接データをストリーミングできる。
- kinesis Data streams
- Red shiftをターゲットとしてサポートしていない
- 同じ順序でレコードを読み取ったり再生したりできます。
- CUSTOM_JAR
- S3バケットからJARファイルをダウンロードして実行するように設定可能
- DocumentDB
- PDFファイルを保存するには理想的ではない。
- Ganglia
- スケーラブルな分散型の監視システム
- ヒートマップ
- 二つの次元の交点を測定することができ、パターンを簡単に区別するために色分けできる
- Redshift SpectrumはRedshift にデータをロードしない
- セマンティクス=コードの断片
- EMRFSはAWS Glueデータカタログを必要とし、AWS Glueのアクセス許可はRangerではなくリソースポリシーを使用して制御する
- インスタンスフリートは
- OpenSerch
- GUIはKibanaが最適
- ストリーミングログに最適
おわりに
これで晴れて現在7冠(SAA SAP DVA SOA SCS DBS DVA)となりました。
次はANS!
お知らせ
APCはAWSセレクトティアサービスパートナー認定を受けております。

その中で私達クラウド事業部はAWSなどのクラウド技術を活用したSI/SESのご支援をしております。
https://www.ap-com.co.jp/service/utilize-aws/
また、一緒に働いていただける仲間も募集中です!
今年もまだまだ組織規模拡大中なので、ご興味持っていただけましたらぜひお声がけください。