AWS MLS対策メモ｜Techまとめ

AWSの認定のMLSについて、不明な用語がたくさん出てきたため、勉強兼メモのために用語の解説をします！

参考にしたページをすべて記載しておくので、誰かの参考になれば幸いです

試験での出題内容
用語解説

試験での出題内容

AWS自体ではなく、機械学習の用語の問題も出題されるので、機械学習自体の理解が必須となっています。

用語解説

教師あり学習

k-NN(k近傍法)

教師ありデータで、クラス分類を行う

未知のデータは、近い点を取得して、多数決でクラスを推定

https://toukei-lab.com/%EF%BD%8B%E8%BF%91%E5%82%8D%E6%B3%95

線形回帰　学習

データの分布に合う直線を求めること

https://zero2one.jp/learningblog/machine-learning-linear-regression/

因数分解機

分類タスクと回帰タスクの両方に使用できる汎用的な教師あり学習アルゴリズム
クリック予測や項目推奨など、高次元スパースデータセットを処理するタスクに適した選択肢

https://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/fact-machines.html

教師なし学習

RCF ランダムカットフォレスト

データ内の異常値を検出する教師なしアルゴリズム

決定木とアンサンブル学習を利用している
アンサンブル学習とは、複数の識別器を用いて判別を行う手法

https://hogetech.info/machine-learning/algorithm/forest#toc2

潜在的ディリクレ配分法（LDA)

トピックモデル
教師無し学習で、複数のクラスタに分ける

k-means

教師無し学習による、クラスタリングモデル

ディープラーニング

ResNet

残差ブロックと呼ばれる畳み込み層とスキップコネクションを組み合わせたモデル

https://qiita.com/kenmaro/items/008051dae0bf0ad718cb

セマンティックセグメンテーション

画像の領域まで識別する

インスタンスセグメンテーション

物体検出の個体ごとの位置検出と、セマンティックセグメンテーションのピクセルレベルでの意味検出の両方の特徴を持つ技術

https://aiacademy.jp/media/?p=3270

その他

クラスタリングと分類の違い

分類は教師あり学習
未知のデータがどの分類になるか予測する

クラスタリングは教師なし学習
データから特徴を学習してグループ分けする

バイナリ分類（二項分類)

2種類のグループに分けることを意味する
２クラス分類とも言う

https://ja.wikipedia.org/wiki/%E4%BA%8C%E9%A0%85%E5%88%86%E9%A1%9E#:~:text=%E4%BA%8C%E9%A0%85%E5%88%86%E9%A1%9E%EF%BC%88%E3%81%AB%E3%81%93%E3%81%86,%E3%81%A8%E8%80%83%E3%81%88%E3%82%8B%E3%81%93%E3%81%A8%E3%81%8C%E3%81%A7%E3%81%8D%E3%82%8B%E3%80%82

過学習・オーバーフィッティング

二次関数で表せるデータ群を、高次元の関数で表せる状態になったこと。
教師データに対しては精度が良いが、教師データ以外の箇所はずれているので学習しすぎの状態。
汎化できていない

https://di-acc2.com/analytics/ai/6335/

正則化、L1,L2正則化

過学習を防ぐもの
過剰なフィッティングを防ぐ
損失関数にモデルの複雑さを表す指標（正則化項）を加える

https://di-acc2.com/analytics/ai/6335/

L2正則化は、重みに対して円上の範囲許す
L1正則化は、重みに対して菱形の範囲を許す

L2正則化を利用することが多いらしい

転移学習

既存の学習モデルを利用して新しいデータを学び、違う問題に効率的に解こうという手法
画像認識や自然言語処理では有用だが、未知の問題には利用が難しい

https://www.sedesign.co.jp/dxinsight/transfer-learning#:~:text=%E8%BB%A2%E7%A7%BB%E5%AD%A6%E7%BF%92%E3%81%AF%E3%80%81%E6%97%A2%E5%AD%98%E3%81%AE,%E6%89%8B%E9%96%93%E3%82%92%E7%9C%81%E7%95%A5%E3%81%A7%E3%81%8D%E3%81%BE%E3%81%99%E3%80%82

デカルト積

2つの集合の直積
2つの集合を、それぞれの要素を並べた集合。イメージは↓のリンク先参考

https://mathlandscape.com/product-set/#:~:text=2%E3%81%A4%E3%81%AE%E9%9B%86%E5%90%88%E3%81%AE%E7%9B%B4%E7%A9%8D%E3%81%A8%E3%81%AF,-%E5%AE%9A%E7%BE%A9%EF%BC%882%E3%81%A4%E3%81%AE&text=%E3%82%92%20A%20%E3%81%A8%20B%20%E3%81%AE,2%20A2%20%E3%81%A8%E3%82%82%E8%A1%A8%E3%81%99%E3%80%82

オンライン学習

データが逐次的に与えられる場合を考え、新しいデータが来るごとに学習を追加で行うようなイメージ

https://www.ai-gakkai.or.jp/resource/my-bookmark/my-bookmark_vol30-no5/

One-hot

1つだけを１に、そのほかを０で表現すること
数値データではなく、カテゴリを数値で表したいときに使える

3種類の色がある場合、(1,0,0), (0,1,0), (0,0,1)と表現する

https://mathwords.net/onehot

Out-of-core learning

メモリにロードできないほど大きいデータセットの学習方法
少しずつ外部ストレージから、メモリにロードしていくイメージ

https://axross-recipe.com/recipes/627

ロジスティック回帰

いくつかの説明変数を使って目的変数が起こる確率を説明予測する方法。
説明変数を用いてある事象が起こる確率を予測する

https://gmo-research.jp/research-column/logistic-regression-analysis

重回帰分析

ロジスティック回帰は質的の目的変数を予測し、重回帰分析は量の目的変数を予測する

https://gmo-research.jp/research-column/logistic-regression-analysis

オーバーサンプリング・アンダーサンプリング

不均衡データに対するアプローチ
アンダー：多数派のデータの数を少数派に合わせて学習
オーバー：少数派のデータの数を増やして多数派と同じにして学習。増やすにはコピーしたり、SMOTE法での生成など

https://qiita.com/tk-tatsuro/items/10e9dbb3f2cf030e2119#3%E3%82%AA%E3%83%BC%E3%83%90%E3%83%BC%E3%82%B5%E3%83%B3%E3%83%97%E3%83%AA%E3%83%B3%E3%82%B0

SMOTE(Synmtetic Minority Obersampling TEchnique)

ランダムサンプリングのデータとk近傍法アルゴリズムで求められたデータによって合成データを生成する

https://qiita.com/tk-tatsuro/items/10e9dbb3f2cf030e2119#3%E3%82%AA%E3%83%BC%E3%83%90%E3%83%BC%E3%82%B5%E3%83%B3%E3%83%97%E3%83%AA%E3%83%B3%E3%82%B0

損失関数

モデルによる出力された予測値とのずれのを大きさを計算するための関数
この損失の値を最小化最大化することで、機械学習モデルを最適化する

https://atmarkit.itmedia.co.jp/ait/articles/2104/15/news030.html

主成分分析・PCA

たくさんの量的な説明変数を、より少ない変数に要約する
次元の削減

https://www.intage.co.jp/glossary/401/#:~:text=%E3%80%8C%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90%E3%80%8D%E3%81%A8%E3%81%AF,%E4%B8%BB%E6%88%90%E5%88%86%E3%80%8D%E3%81%A8%E5%91%BC%E3%81%B3%E3%81%BE%E3%81%99%E3%80%82

ピアソン相関係数

線形の相関用。２つの変数間の関係の強さと高いの関連性を測定するもの

https://atmarkit.itmedia.co.jp/ait/articles/2110/13/news027.html

NTM(Neural Topic Model)

ニューラルトピックモデル。
トピック（カテゴリや分類）を生成する

Apache Flink

ストリーミングとバッチ処理、ステート管理、イベント時間処理用

セマンティックセグメンテーションアルゴリズム

イメージ内のすべてのピクセルに、事前定義された一連のクラスのクラスラベルを付け

ROC曲線下面積(AUC, Area Under the Curve)

曲線の下の面積で、縦横 0.0〜1.0 の間のROC曲線の下にある領域の面積を指します
きれいに分類できれば1に、ランダムな分類になっていると 0.5になる

ROC曲線は、各軸が TPR、FPR を表し、Postitive と Negative に分類する際の閾値を変更し、各閾値時の TPR、FPR をプロットしたグラフ。

https://blog.kikagaku.co.jp/roc-auc

XGBoost(eXtreme Gradient Boosting)　勾配ブースティング回帰木

アンサンブル学習を代表するアルゴリズム
ブースティングと決定木で構成

ステミング

検索エンジンのアルゴリズムで、語形が変化する単語の語幹でマッチングを行うこと

パディング

データを固定長として扱いたいときに、短いデータの前や後に無意味なデータを追加して長さを合わせる処理

ホールドアウト検証

全てのデータセットを任意の割合で学習データ、検証データ、テストデータに分割して検証する方法

交差検証（クロスバリデーション）

汎化性能を検証する統計的な手法
K-分割交差検証やLeave-one-out 交差検証がある

K-分割交差検証

データをK個に分割してそのうち1つをテストデータに残りのK-1個を学習データとして正解率の評価を行います。

これをK個のデータすべてが1回ずつテストデータになるようにK回学習を行なって精度の平均をとる手法

https://aiacademy.jp/media/?p=263

Leave-one-out 交差検証

データセットが小さい場合用の交差検証

k分割交差検証の個々の分割が、1個のデータのみをテスト用に利用し、残りを全て学習データとして利用する

https://aiacademy.jp/media/?p=2571

層化K分割交差検証

不均衡データ向け
目的変数の割合が等しくなるように分割する交差検証

インサイト

洞察

ボックスプロット

箱ひげ図

StandardScaler

データセットの標準化機能

標準化は「平均を0，分散を1とするスケーリング手法」
一般的に標準化を用いる場合は、最大値及び最小値が決まっていない場合や外れ値が存在する場合に利用

Normalization

正規化
「最小値を0，最大値を1とする0-1スケーリング手法」
正規化の場合は、外れ値が大きく影響してしまう

RMSProp

最適化手法 SGD・Momentum・AdaGrad・RMSProp・Adam

交差エントロピーlog損失

クラス分類ニューラルネットワークの損失関数として利用する式

二乗平均平方根誤差　RMSE

モデルまたは推定量により予測された値（標本値または母集団値）と観測された値の間の差として頻繁に使用される尺度

ベイズ最適化

ガウス過程回帰により未知の関数をデータから学習しつつ，少ない試行回数でその関数の大域的最適解の推定を行う手法

クラス分類評価指標

https://tech-blog.optim.co.jp/entry/2021/05/31/100000

混合行列

真陽性(TP:True Positive)、偽陽性(FP:False Positive)、真陰性(TF:True Negative)、偽陰性(FN:False Negative)をまとめた表。イメージは↑参考

正解率、精度？

正しく分類できた割合
正しい予測の割合

不均衡なデータには不向き

適合率

陽性と判断したもののうち、どれくらい正しかったか
予測が正の中で、実際に正の割合

偽陽性が多くなると悪化する
正の予測結果の合計のうち、真陽性の割合
誤認識・誤検知をなるべく抑えたいとき

再現率、リコール率

陽性のものをどれだけ予測できたか
実際に正であるおのの中で、正と予測できた割合

陽性の見逃し（偽陰性）が多くなると悪化する
偽陰性の最小化
見逃しをなるべく抑えたいとき

F1-スコア

適合率と再現率の調和平均(各データの逆数の算術平均の逆数)

不均衡なデータの場合に、どうバランスを取るかの指標

ROC曲線

TPR（True positive rate）とFPR(False positive rate)の割合のグラフ

モデルの評価指標

ACU(Area under the ROC curve)

ROC曲線下の面積
精度良く分類できていると、それぞれのクラス間がデータに対して離れるはず
なので、面積が大きくなる

クラス確率閾値

下げると、TPとFPが増えて、FN減る

https://tech-blog.optim.co.jp/entry/2021/05/31/100000

AWS関連

Apache Parquet

AWSだと、Athenaなどデータ分析の際に、効率的に探索できるようになる列指向データファイル形式
CSVだと行単位で分割されているが、Parquet形式だと列単位で分割される

大体のデータ分析では全カラムのデータを利用するわけではないため、必要なカラムのデータだけを読み込めば良い
そのため、列単位で分割することで効率よくデータ分析ができるようになる

https://www.souichi.club/technology/apache-parquet/

Amazon Mechanical Turk

コンピュータだけでは不可能な仕事を人にクラウドソーシングするサービス

Elastic Interfaceアクセラレーター

EC2または、SageMakerインスタンスタイプまたはECSタスクにGPUをプロビジョニングできるということ。適切な量のGPUによる高速コンピューティングサービスで推論が高速になる。
なお、ネットワーク経由でアタッチされるので、GPU搭載インスタンスとは異なる

https://aws.amazon.com/jp/machine-learning/elastic-inference/faqs/

IoT Greengrass

AWS IoTの機能を現場に持っていく仕組み

Panorama

AWS Panoramaは、オンプレミスのカメラネットワークにコンピュータービジョンをもたらすサービス
コンピュータビジョンとは、人間のように画像や映像を処理するAIや機械学習のことです。

既存のカメラネットワークと統合されている

Forecast

機械学習を使用した正確な時系列予測

Amazon Forecast DeepAR は、再帰型ニューラルネットワーク (RNN) を使用してスカラー (1 次元) 時系列を予測するための、教師あり学習アルゴリズムです

Amazon Comprehend

テキストのインサイトや関係性を検出

Amazon Textract

スキャンしたドキュメントからテキスト、手書き文字、およびデータを自動的に抽出する機械学習 (ML) サービス

Personalize

開発者がリアルタイムのパーソナライゼーションとユーザーセグメンテーションを備えたカスタムレコメンデーションエンジン

Lex

自然言語での高度な対話ボット

Transcribe

音声をテキストに変換する機能

Polly

高度なディープラーニング技術を使用したテキスト読み上げサービス

SageMaker

モデルバリアント

１つのエンドポイントで、複数のモデルデプロイが可能

word2vec

テキスト分類アルゴリズム。
SageMakerならBlazingText アルゴリズムが実装で、センチメント分析（Web上に存在する口コミやブログの書き込み、SNSの投稿といったテキスト情報から個人が抱いている感情を分析する）などできる

Object2Vec

SageMakerでWord2Vec＋一般ベクトル化による実装で、分類とレコメンドが可能

seq2seq

DeepLSTM(Long Short Term Memory) で、テキスト要約や音声認識用の実装

AutoPilot

最適な分類および回帰の機械学習モデルを自動的に作成できる

Amazon SageMaker Ground Truth

データのラベル付けを簡単に行うことができるデータラベリングサービス

Pipeモード

モデルトのレーニングを開始する前に、ローカルの Amazon Elastic Block Store (EBS) ボリュームにデータをダウンロードするファイルモードよりも大幅に優れた読み取りスループットを提供します。つまり、トレーニングジョブがより早く始まり、迅速に完了し、必要なディスク容量が少なくて済み、Amazon SageMaker で機械学習モデルをトレーニングするための全体的なコストが削減されることを意味します

データセット

ターゲットラベルは最初の列に