AWS DeepRacerで楽しく機械学習を学んでみた！

2024.06.05

ターン・アンド・フロンティアについて採用社内イベント

AWS DeepRacerで楽しく機械学習を学んでみた！

みなさん、こんにちは！
エンジニアチームのだいじゅです！

梅雨の気配を感じ始め、今年はどんな夏にしようかと期待が高まる時期ですね。

昨今「機械学習」の進化が目覚ましく、あらゆる分野でAIが活躍しており、
私たちがパートナーとして提供しているAWSでも、様々な機械学習系サービスが展開されています。

どれも魅力的なサービスばかりですが、中には機械学習を専門とするエンジニア以外には理解が難しいサービスもあります。

ゆくゆくはそんな難易度が高いサービスを扱える様に成長していきたい！といった思惑の元、
弊社エンジニアの中でも機械学習初学者が集まって「AWS DeepRacer」を遊んでみたので、その様子をご紹介したいと思います！

#AWS DeepRacerとは

そもそもAWS DeepRacerって何でしょう？

AWS DeepRacerとは、機械学習(強化学習)を楽しく学べるAWSのサービスで、レーシングゲーム要素を含んでいます。

機械学習の中でも、「強化学習」を用いてレーシングカーをコントロールし、レースのレギュレーションによって、1周のタイムだったり、3周の合計だったりを競います。

では、どうやってコントロールするのかと言うと、強化学習によって仮想サーキットを走行させるための「学習モデル」を作成することによってコントロールします。

簡単に言うと、
サーキット上のどのルートをどのくらいのスピードで走行するかという情報を詰め込んだ「学習モデル」を作成し、より速く、正確にサーキットを周回することを目指します。

「学習モデル」を作成する過程で強化学習に触れることが出来るため、機械学習に触れたことがない人でもお手軽に学習を始めることができます。

# 学習モデルの作成

## 走行ルートの学習設定

強化学習で「学習モデル」を作成すると言っても、一体何を学習させればいいのでしょうか？

一般的に強化学習とは、エージェントが環境と対話しながらアクションを取ることで、報酬を受け取りその報酬を最大化するように学習する機械学習の一形態です。

AWS DeepRacerにおいて、
「エージェント」は「レーシングカー」に当たり、「環境」とは「サーキット」に当たります。

つまりレーシングカーが、
「走行して欲しいルートを走行すると報酬が高く」なり、
「走行して欲しくないルートを走ると報酬が低くなる」ように設定することが重要になります。
この設定は、「Reward function」に、Pythonコードで作成します。

当然ですが学習前のレーシングカーは、
サーキットを走り切るためには、どのようなハンドリングが必要かという情報を持っていません。
人間の様に視覚的にサーキットを見て、走行ルートを認識することも出来ません。

右に進んでみたり左に進んでみたりしながら、
何度もトライアンドエラーを繰り返して、
一番報酬が高くなるルートを蓄積して学習していきます。

## 走行速度の学習設定

走行ルートと並行して走行速度についても学習が必要です。
走行速度については「アクションスペース」で定義していきます。
アクションスペースとは、レーシングカーが取り得る行動パターンを決定するもので、
「ステアリング (ハンドル) の角度」と「速度」の組み合わせになります。
(速度は「アクセルを踏み込む強さ」と捉えた方が分かり易い)

例えば、「右に30度ステアリング (ハンドル)が傾いた時」には、
安定させるために「スピードを0.5」とし、
直進の時は「スピードを4(MAX)」とするといった設定です。
と言っても、「スピードを4(MAX)」と設定してもMAXスピードで走ってくれるという訳ではありません。

下の参考画像では、同じ角度に対して別の速度パターンが設定されていると思いますが、
この場合はどうなるのでしょうか。