AWSの認定のMLSについて、不明な用語がたくさん出てきたため、勉強兼メモのために用語の解説をします!
参考にしたページをすべて記載しておくので、誰かの参考になれば幸いです
試験での出題内容
AWS自体ではなく、機械学習の用語の問題も出題されるので、機械学習自体の理解が必須となっています。
用語解説
教師あり学習
k-NN(k近傍法)
教師ありデータで、クラス分類を行う
未知のデータは、近い点を取得して、多数決でクラスを推定
https://toukei-lab.com/%EF%BD%8B%E8%BF%91%E5%82%8D%E6%B3%95
線形回帰 学習
データの分布に合う直線を求めること
因数分解機
分類タスクと回帰タスクの両方に使用できる汎用的な教師あり学習アルゴリズム
クリック予測や項目推奨など、高次元スパースデータセットを処理するタスクに適した選択肢
https://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/fact-machines.html
教師なし学習
RCF ランダムカットフォレスト
データ内の異常値を検出する教師なしアルゴリズム
決定木とアンサンブル学習を利用している
アンサンブル学習とは、複数の識別器を用いて判別を行う手法
https://hogetech.info/machine-learning/algorithm/forest#toc2
潜在的ディリクレ配分法(LDA)
トピックモデル
教師無し学習で、複数のクラスタに分ける
k-means
教師無し学習による、クラスタリングモデル
ディープラーニング
ResNet
残差ブロックと呼ばれる畳み込み層とスキップコネクションを組み合わせたモデル
https://qiita.com/kenmaro/items/008051dae0bf0ad718cb
セマンティックセグメンテーション
画像の領域まで識別する
インスタンスセグメンテーション
物体検出の個体ごとの位置検出と、セマンティックセグメンテーションのピクセルレベルでの意味検出の両方の特徴を持つ技術
その他
クラスタリングと分類の違い
分類は教師あり学習
未知のデータがどの分類になるか予測する
クラスタリングは教師なし学習
データから特徴を学習してグループ分けする
バイナリ分類(二項分類)
2種類のグループに分けることを意味する
2クラス分類とも言う
過学習・オーバーフィッティング
二次関数で表せるデータ群を、高次元の関数で表せる状態になったこと。
教師データに対しては精度が良いが、教師データ以外の箇所はずれているので学習しすぎの状態。
汎化できていない
https://di-acc2.com/analytics/ai/6335/
正則化、L1,L2正則化
過学習を防ぐもの
過剰なフィッティングを防ぐ
損失関数にモデルの複雑さを表す指標(正則化項)を加える
https://di-acc2.com/analytics/ai/6335/
L2正則化は、重みに対して円上の範囲許す
L1正則化は、重みに対して菱形の範囲を許す
L2正則化を利用することが多いらしい
転移学習
既存の学習モデルを利用して新しいデータを学び、違う問題に効率的に解こうという手法
画像認識や自然言語処理では有用だが、未知の問題には利用が難しい
デカルト積
2つの集合の直積
2つの集合を、それぞれの要素を並べた集合。イメージは↓のリンク先参考
オンライン学習
データが逐次的に与えられる場合を考え、新しいデータが来るごとに学習を追加で行うようなイメージ
https://www.ai-gakkai.or.jp/resource/my-bookmark/my-bookmark_vol30-no5/
One-hot
1つだけを1に、そのほかを0で表現すること
数値データではなく、カテゴリを数値で表したいときに使える
3種類の色がある場合、(1,0,0), (0,1,0), (0,0,1)と表現する
Out-of-core learning
メモリにロードできないほど大きいデータセットの学習方法
少しずつ外部ストレージから、メモリにロードしていくイメージ
https://axross-recipe.com/recipes/627
ロジスティック回帰
いくつかの説明変数を使って目的変数が起こる確率を説明予測する方法。
説明変数を用いてある事象が起こる確率を予測する
https://gmo-research.jp/research-column/logistic-regression-analysis
重回帰分析
ロジスティック回帰は質的の目的変数を予測し、重回帰分析は量の目的変数を予測する
https://gmo-research.jp/research-column/logistic-regression-analysis
オーバーサンプリング・アンダーサンプリング
不均衡データに対するアプローチ
アンダー:多数派のデータの数を少数派に合わせて学習
オーバー:少数派のデータの数を増やして多数派と同じにして学習。増やすにはコピーしたり、SMOTE法での生成など
SMOTE(Synmtetic Minority Obersampling TEchnique)
ランダムサンプリングのデータとk近傍法アルゴリズムで求められたデータによって合成データを生成する
損失関数
モデルによる出力された予測値とのずれのを大きさを計算するための関数
この損失の値を最小化最大化することで、機械学習モデルを最適化する
https://atmarkit.itmedia.co.jp/ait/articles/2104/15/news030.html
主成分分析・PCA
たくさんの量的な説明変数を、より少ない変数に要約する
次元の削減
ピアソン相関係数
線形の相関用。2つの変数間の関係の強さと高いの関連性を測定するもの
https://atmarkit.itmedia.co.jp/ait/articles/2110/13/news027.html
NTM(Neural Topic Model)
ニューラルトピックモデル。
トピック(カテゴリや分類)を生成する
Apache Flink
ストリーミングとバッチ処理、ステート管理、イベント時間処理用
セマンティックセグメンテーションアルゴリズム
イメージ内のすべてのピクセルに、事前定義された一連のクラスのクラスラベルを付け
ROC曲線下面積(AUC, Area Under the Curve)
曲線の下の面積で、縦横 0.0〜1.0 の間のROC曲線の下にある領域の面積を指します
きれいに分類できれば1に、ランダムな分類になっていると 0.5になる
ROC曲線は、各軸が TPR、FPR を表し、Postitive と Negative に分類する際の閾値を変更し、各閾値時の TPR、FPR をプロットしたグラフ。
https://blog.kikagaku.co.jp/roc-auc
XGBoost(eXtreme Gradient Boosting) 勾配ブースティング回帰木
アンサンブル学習を代表するアルゴリズム
ブースティングと決定木で構成
ステミング
検索エンジンのアルゴリズムで、語形が変化する単語の語幹でマッチングを行うこと
パディング
データを固定長として扱いたいときに、短いデータの前や後に無意味なデータを追加して長さを合わせる処理
ホールドアウト検証
全てのデータセットを任意の割合で学習データ、検証データ、テストデータに分割して検証する方法
交差検証(クロスバリデーション)
汎化性能を検証する統計的な手法
K-分割交差検証やLeave-one-out 交差検証がある
K-分割交差検証
データをK個に分割してそのうち1つをテストデータに残りのK-1個を学習データとして正解率の評価を行います。
これをK個のデータすべてが1回ずつテストデータになるようにK回学習を行なって精度の平均をとる手法
Leave-one-out 交差検証
データセットが小さい場合用の交差検証
k分割交差検証の個々の分割が、1個のデータのみをテスト用に利用し、残りを全て学習データとして利用する
層化K分割交差検証
不均衡データ向け
目的変数の割合が等しくなるように分割する交差検証
インサイト
洞察
ボックスプロット
箱ひげ図
StandardScaler
データセットの標準化機能
標準化は「平均を0,分散を1とするスケーリング手法」
一般的に標準化を用いる場合は、最大値及び最小値が決まっていない場合や外れ値が存在する場合に利用
Normalization
正規化
「最小値を0,最大値を1とする0-1スケーリング手法」
正規化の場合は、外れ値が大きく影響してしまう
RMSProp
最適化手法 SGD・Momentum・AdaGrad・RMSProp・Adam
交差エントロピーlog損失
クラス分類ニューラルネットワークの損失関数として利用する式
二乗平均平方根誤差 RMSE
モデルまたは推定量により予測された値(標本値または母集団値)と観測された値の間の差として頻繁に使用される尺度
ベイズ最適化
ガウス過程回帰により未知の関 数をデータから学習しつつ,少ない試行回数でその 関数の大域的最適解の推定を行う手法
クラス分類評価指標
混合行列
真陽性(TP:True Positive)、偽陽性(FP:False Positive)、真陰性(TF:True Negative)、偽陰性(FN:False Negative)をまとめた表。イメージは↑参考
正解率、精度?
正しく分類できた割合
正しい予測の割合
不均衡なデータには不向き
適合率
陽性と判断したもののうち、どれくらい正しかったか
予測が正の中で、実際に正の割合
偽陽性が多くなると悪化する
正の予測結果の合計のうち、真陽性の割合
誤認識・誤検知をなるべく抑えたいとき
再現率、リコール率
陽性のものをどれだけ予測できたか
実際に正であるおのの中で、正と予測できた割合
陽性の見逃し(偽陰性)が多くなると悪化する
偽陰性の最小化
見逃しをなるべく抑えたいとき
F1-スコア
適合率と再現率の調和平均(各データの逆数の算術平均の逆数)
不均衡なデータの場合に、どうバランスを取るかの指標
ROC曲線
TPR(True positive rate)とFPR(False positive rate)の割合のグラフ
モデルの評価指標
ACU(Area under the ROC curve)
ROC曲線下の面積
精度良く分類できていると、それぞれのクラス間がデータに対して離れるはず
なので、面積が大きくなる
クラス確率閾値
下げると、TPとFPが増えて、FN減る
AWS関連
Apache Parquet
AWSだと、Athenaなどデータ分析の際に、効率的に探索できるようになる列指向データファイル形式
CSVだと行単位で分割されているが、Parquet形式だと列単位で分割される
大体のデータ分析では全カラムのデータを利用するわけではないため、必要なカラムのデータだけを読み込めば良い
そのため、列単位で分割することで効率よくデータ分析ができるようになる
Amazon Mechanical Turk
コンピュータだけでは不可能な仕事を人にクラウドソーシングするサービス
Elastic Interfaceアクセラレーター
EC2または、SageMakerインスタンスタイプまたはECSタスクにGPUをプロビジョニングできるということ。適切な量のGPUによる高速コンピューティングサービスで推論が高速になる。
なお、ネットワーク経由でアタッチされるので、GPU搭載インスタンスとは異なる
https://aws.amazon.com/jp/machine-learning/elastic-inference/faqs/
IoT Greengrass
AWS IoTの機能を現場に持っていく仕組み
Panorama
AWS Panoramaは、オンプレミスのカメラネットワークにコンピュータービジョンをもたらすサービス
コンピュータビジョンとは、人間のように画像や映像を処理するAIや機械学習のことです。
既存のカメラネットワークと統合されている
Forecast
機械学習を使用した正確な時系列予測
Amazon Forecast DeepAR は、再帰型ニューラルネットワーク (RNN) を使用してスカラー (1 次元) 時系列を予測するための、教師あり学習アルゴリズムです
Amazon Comprehend
テキストのインサイトや関係性を検出
Amazon Textract
スキャンしたドキュメントからテキスト、手書き文字、およびデータを自動的に抽出する機械学習 (ML) サービス
Personalize
開発者がリアルタイムのパーソナライゼーションとユーザーセグメンテーションを備えたカスタムレコメンデーションエンジン
Lex
自然言語での高度な対話ボット
Transcribe
音声をテキストに変換する機能
Polly
高度なディープラーニング技術を使用したテキスト読み上げサービス
SageMaker
モデルバリアント
1つのエンドポイントで、複数のモデルデプロイが可能
word2vec
テキスト分類アルゴリズム。
SageMakerならBlazingText アルゴリズムが実装で、センチメント分析(Web上に存在する口コミやブログの書き込み、SNSの投稿といったテキスト情報から個人が抱いている感情を分析する)などできる
Object2Vec
SageMakerでWord2Vec+一般ベクトル化による実装で、分類とレコメンドが可能
seq2seq
DeepLSTM(Long Short Term Memory) で、テキスト要約や音声認識用の実装
AutoPilot
最適な分類および回帰の機械学習モデルを自動的に作成できる
Amazon SageMaker Ground Truth
データのラベル付けを簡単に行うことができるデータラベリングサービス
Pipeモード
モデルトのレーニングを開始する前に、ローカルの Amazon Elastic Block Store (EBS) ボリュームにデータをダウンロードするファイルモードよりも大幅に優れた読み取りスループットを提供します。つまり、トレーニングジョブがより早く始まり、迅速に完了し、必要なディスク容量が少なくて済み、Amazon SageMaker で機械学習モデルをトレーニングするための全体的なコストが削減されることを意味します
データセット
ターゲットラベルは最初の列に