Big Idea 1 – Perception

| ビッグアイデア#1:知覚 | コンピュータはセンサーを使用して世界を認識する。 | 知覚とは、知識を用いて感覚的な情報から意味を抽出することである。 | 信号から意味への変換は段階的に行われ、各段階で抽象度の高い特徴やより高度な知識が適用されます。 | 目標 = 学習目標:生徒ができるようになるべきこと。 理解 = 持続的理解:生徒が知るべきこと。 | | --- | --- | --- | --- | --- | | コンセプト | K-2 | 3-5 | 6-8 | 9-12 | | 学習者の発達段階 | 幼児期から小学校低学年 | 小学校中学年 | 小学校高学年から中学校 | 高校生 | | 知覚 (生物)

1-A-i | 目標: 人間の感覚と感覚器官を確認する。

理解: 人間は視覚、聴覚、触覚、味覚、嗅覚を通して世界を体験すること。 | 目標: 人間と動物の知覚を比べる。

理解: 一部の動物は人間とは異なる方法で世界を体験していること。

具体: コウモリやイルカは音波を使用します。ミツバチは紫外線を見ることができます。ネズミには色覚がなく、犬は赤緑色盲です。犬とネズミは人間よりも高い周波数の音が聞こえます。 | 目標: 人間が複数の様式から情報をどう組み合わせているか示す。

理解: 人間は、視覚や聴覚などの感覚間の相関を利用して、あいまいな信号を理解できること。

具体: 騒がしい環境では、話し手の口元が見えると、音声がより理解しやすくなる。人は様々な動作(物を落とすなど)に関連する音を学習し、その音が自分の予想と異なる場合に認識することができる。 | なし -- AIの目的的には、このトピックはすでに低学年段階で十分に扱われている。想定される発展教材: 目の錯覚(ミュラー・リヤー錯視、カニッツァの三角形)を見て、コンピュータビジョンシステムもどのような錯覚に陥るのか考える。 | | 知覚 (コンピュータ・センサー)

1-A-ii | 目標: コンピュータ、スマホ、ロボット、他のデバイスのセンサー(カメラ、マイク)の特定と位置を把握する。

理解: コンピュータはビデオカメラを通じて「見る」ことができ、マイクロフォンを通じて「聞く」ことができること。 | 目標: コンピュータの知覚が人間の知覚とどう違うのか説明する。

理解: ほとんどのコンピュータは味覚、嗅覚、触覚を持たないが、人間が感じることのできない赤外線放射、極低周波や高周波の音、磁気などを知覚することができること。 | 目標: 知的エージェントが複数のセンサーから情報をどう組み合わせているか示す。

理解: 自動運転車は、レーダーまたはLiDARイメージングのコンピュータビジョンを組み合わせる。GPS測定、加速度計のデータから環境とその移動に関する詳細な表現を形成すること。 | 目標: さまざまな種類のコンピュータセンサーの限界と利点を説明する。

理解: センサーは、光、音、温度、圧力などの物理現象を測定する装置であること。

具体: カメラは、解像度、ダイナミックレンジ、分光感度に限界がある。マイクロフォンは、感度や周波数特性に限界がある。雑音の多い環境ではノイズによってマイクの信号が劣化する。センサーによっては、赤外線や紫外線の画像、超音波など、人が検知できないものを検知できるものもある。 | | 知覚 (デジタルエンコード)

1-A-iii | なし | 目標: コンピュータ内で画像がどうデジタル表現されるか説明する。

理解: 画像は、各ピクセルがその部分の明るさを示す数字、またはその部分の赤、緑、青の成分の明るさを示すRGB値で表される2次元のピクセル配列としてエンコードされること。 | 目標: コンピュータ内で音声がどうデジタル表現されるか説明する。

理解: 音声は、波形を離散的な点でサンプリング(通常は毎秒数千回のサンプリング)することによってデジタル的にエンコードされ、一連の数値が生成されること。 | 目標: レーダー、LiDAR、GPS、および加速度計データがどう表現されるか説明する。

理解: レーダーとLiDARは深度イメージングを行い、各ピクセルは深度値となること。GPSは、衛星信号を用いた三角測量により位置を決定し、経度と緯度の位置情報を提供すること。加速度計は3つの直交する次元で加速度を測定すること。

具体: レーダーとLiDARは反射信号が送信機に戻るまでの時間を測定し、距離を測定します。GPSは、3つ以上の衛星から正確にタイミングされた信号を三角測量して位置を決定します。加速度計は直交するひずみゲージを使用して、三次元での加速度を測定します。 |

| ビッグアイデア#1:知覚 | コンピュータはセンサーを使用して世界を認識する。 | 知覚とは、知識を用いて感覚的な情報から意味を抽出することである。 | 信号から意味への変換は段階的に行われ、各段階で抽象度の高い特徴やより高度な知識が適用されます。 | 目標 = 学習目標:生徒ができるようになるべきこと。 理解 = 持続的理解:生徒が知るべきこと。 | | --- | --- | --- | --- | --- | | コンセプト | K-2 | 3-5 | 6-8 | 9-12 | | 処理 (センシングと知覚)

1-B-i | 目標: 知的と非知的な機械の例を挙げ、何が機械を知的なものにするのか議論する。

理解: 多くの機械がセンサーを使用しているが、すべてが知的に使用しているわけではない。非知的な機械は単純なセンシングに限られ、知的な機械は知覚していること。

具体: カメラやスマホは画像や音声を記録・再生することができますが、これらの信号から意味を抽出するには、人工知能を持つコンピュータが必要です。 | 目標: 音声字幕や物体認識デモなどのソフトウェアツールを使用して機械による知覚を実演し、これが単なるセンシングではなく、なぜ知覚なのかを説明する。

理解: 知覚とは、感覚的な信号から意味を抽出すること。

具体: 音声認識や顔検出は知覚の例です。圧力パッドや超音波センサーによって作動する自動ドアは、知覚を示しません。なぜなら、信号から意味を抽出するために知識を使うのではなく、生の信号に反応しているだけだからです。 | 目標: 感覚信号から意味抽出できる様々なタイプのコンピュータ知覚の示す。

理解: 顔検出、表情認識、物体認識、障害物検出、音声認識、声帯ストレス測定、音楽認識など、知覚タスクに特化したアルゴリズムが数多くあること。 | 目標: 知覚アルゴリズムと、それが実世界のアプリケーションでどう使用されているか説明する。

理解: 多くのデバイスやサービスは特殊な知覚アルゴリズムに依存していること。例えば、ナンバープレートリーダー、郵便番号リーダー、顔認識による電話のロック解除、Facebook投稿での人物タグ付け、物体識別(例:Google Lens)、または音声ベースのカスタマーサービスなど。 | | 処理 (特徴抽出)

1-B-ii | 目標: 画像内の対象物(例:猫)を特定クラスとして認識したい場合、どんな特徴を探すか示す。

理解: 対象物の視覚的特徴には、部分、テクスチャ、色が含まれること。

具体: 猫を認識するためには、耳、足、ヒゲ、猫特有の形状の鼻と尾を探す。テクスチャは毛のように見え、色柄は猫特有である。 | 目標: 顔の特徴を抽出することで顔検出を行う仕組みを説明する。

理解: 顔検出器は、特殊なアルゴリズムを用いて、目、鼻、口、顎ラインを探すこと。

具体: 顔認識は、さらに一歩進んで、誰の顔が検出されたかを判断しようとするものです。目の間隔や顎の形など、数値化できる性質をもとに認識します。 | 目標: エッジ検出器をシミュレーションすることで、画像から特徴抽出する概念を説明する。

理解: 画像内のエッジの位置や向きは、小さな(局所的な)領域における明暗画素の特定配置を探して検出できる特徴であること。 | 目標: 波形や画像から特徴抽出する方法を説明する。

理解: 音声スペクトログラムは、波形内の各周波数帯でのエネルギーを示すこと。フォルマントは、スペクトログラム内のエネルギーが集中している領域として定義される音響特徴であること。画像からの特徴抽出は、画像内のエッジを検出すること、または複数のスケールでの強度勾配を検出することから始まること。

具体: 異なるフォルマントパターンは、異なる音声、すなわち異なる母音と子音に関連づけられています。 | | 処理 (抽象化パイプライン: 言語)

1-B-iii | 目標: 自分の話す言語を構成する様々な音を説明し、すべての母音について、その音を含む単語を挙げる。

理解: コンピュータが音声を理解するためには、単語を構成する音を認識する必要があること。

具体: アメリカ英語には15個の母音があります。5つの短母音、5つの長母音、その他5つです。5つの短母音を表す単語は、bid、bed、bad、bog、bugです。 | 目標: 音に不明瞭な部分があっても、どうして音の並びを単語候補として認識できるか説明する。

理解: 音から言葉への変換は、音声理解のための抽象化パイプラインの1ステップであること。

具体: 例えば、最初の音が「f」または「d」、2番目の音が「l」または「n」であるというように、各位置の音に関して部分的な情報のみを与えられた4文字単語を推測する問題を考えてみましょう。単語内の隣接する音間の制約に関する知識は、可能性を絞り込むのに利用できます。この場合、英語の語頭配列として有効なのは「fl」だけです。 | 目標: 一部の単語が不明瞭でも、単語がどのように組み合わされているかを見ることで、単語の並びをフレーズとして認識できることを説明する。

理解: 上位レベルの表現における情報は、言語抽象化パイプラインのより下位レベルの曖昧さを解決するために使用できること。

具体: 3語のフレーズで、最初の単語が「seat」「sea」「see」、2番目の単語が「the」「a」「of」、3番目の単語が「moody」「movie」だとすると、最も可能性の高いフレーズは「see the movie」であり、それが文法的かつ統計的に一般的です。「seat a moody」のような選択肢は、それらしいですが、文法的にも統計的にも一般的ではありません。 | 目標: 各レベルの知識が下位レベルの曖昧さを解決するためにどのように使用されるか、音声理解のための波形から文章に至る抽象化階層を図示する。

理解: 音声言語の階層は:波形→発話動作→音→形態素→単語→フレーズ→文であること。

具体: ノイズの多い曖昧な信号から意味を持たせるためには、複数の抽象的なレベルで構造を認識し領域知識を適用することが必要です。典型的な例として、「How to recognize speech(音声をどう認識するか)」と「How to wreck a nice beach(素晴らしいビーチをどう荒らすか)」という文章は、波形のレベルではほとんど同じです。 | | 処理 (抽象化パイプライン: ビジョン)

1-B-IV | 目標: 画像内の前景と背景を識別することで、図形/地形の分割を実演する。

理解: 視覚的なシーンには、前景が背景を部分的に覆い隠す(遮蔽する)構造が含まれていること。

具体: シーンに構造があると理解することは、画像の機械的知覚の問題にアプローチする一方法です。コンピュータは、画像内の対象物を特定するために、前景/背景の分割を行う必要があります。 | 目標: 画像内の部分的に遮蔽された(ブロックされた)対象物の輪郭が、実際の対象物の形状とどのように異なるかを説明する。

理解: 複雑なシーンを理解するには、対象物を認識しようとする際に、遮断の影響を考慮する必要があること。

具体: 2つのシリアル朝食のボックスの一つは前方にあって、もう一つを部分的に隠すよう配置されているとします。学生には、画像で表示されている通りに各ボックスの輪郭を(別の用紙に)描いてもらったとしましょう。遮る箱は長方形になりますが、隠れている箱は凹型の多角形となります。次に、生徒には、元の画像の中における箱本来の輪郭を点線で描くように指示したとします。このとき、箱本来の輪郭は推測でしかなく、箱には欠陥があって、見えない部分は別の形をしている可能性があることを認識するかも知れません。 | 目標: エッジ検出器がどう組み合わされると、文字や図形など、より複雑な特徴検出器を形成するのか説明する。

理解: 信号から意味への進行は段階的に行われ、各段階でより複雑な特徴が抽出されること。

具体: 例えば「A」を検出するためには、3つの方向付きエッジの組み合わせを探します。エッジは画素を見ることで検出されます。 | 目標: 上位レベルの抽象度の知覚的推論が、下位レベルの抽象度の知覚的推論にどう基づいているか示す。

理解: シーンは対象物で構成され、対象物は表面と境界線で構成されること。境界は、境界は輪郭によって示され、輪郭はエッジで構成され、エッジはピクセルから作られている。シーン内の対象物間の関係性、例えば一つの対象物が他の対象物を遮っていることは、表面と境界の配置から推測されること。 |

| ビッグアイデア#1:知覚 | コンピュータはセンサーを使用して世界を認識する。 | 知覚とは、知識を用いて感覚的な情報から意味を抽出することである。 | 信号から意味への変換は段階的に行われ、各段階で抽象度の高い特徴やより高度な知識が適用されます。 | 目標 = 学習目標:生徒ができるようになるべきこと。 理解 = 持続的理解:生徒が知るべきこと。 | | --- | --- | --- | --- | --- | | コンセプト | K-2 | 3-5 | 6-8 | 9-12 | | 知識領域 (知識領域の種類)

1-C-i | 目標: 質問の意味を理解するために知的エージェントが「知っていなければならない」いくつかの事柄について説明する。

理解: 音声による要求を理解するためには、コンピュータは私たちの語彙や発音規則を知っている必要があり、質問と命令を区別することができなければならないこと。

具体: 「今日は雨が降るでしょうか?」という音声による問い合わせを理解するには、上記のすべての知識が必要です。 | 目標: 音声合成システムが文脈に基づいてどのように曖昧さを解決できるか実演し、非文法的な入力や意味のない入力が与えられたときどのようにエラー率が上昇するかを示す。

理解: 音声認識システムは何百万もの発話から訓練され、一般的な単語とそうでない単語の並びを区別することができ、これらが信号の最も可能性の高い解釈を選択するのに役立つこと。

具体: 「the jockey reined in the horse(ジョッキーが馬を制御した)」と「the king reigned in the horse(王が馬を統治した)」の文字起こしを比較する。「which witch is which(どの魔女がどの魔女なのか)」「two ways to go is one too many(2通りあるのは1通りすぎる)」についても、音声認識システムをテストしてみましょう。文法的な影響を調べるには、通常の語順で読まれた文章と、語順(個々の単語ではない)を逆にした同じ文章(例えば「see the view」と「view the sea」)の文字起こしの正確さを比較してみてください。 | 目標: 与えられた画像(例えば「交通シーン」「自然シーン」「社交の場」など)を分類し、この種のシーンを理解するためにコンピュータが必要とする知識の種類を説明する。

理解: 視覚の領域知識には、どのような種類の対象物がシーンに現れやすいか、他の対象物との関係でどこに現れやすいか、遮へいや影が対象物の見え方をどう変化させるかが含まれていること。

具体: 交通シーンでは、車は道路上に、ある交通標識は道路上でなく道路の脇、いつくかの標識は道路上に現れ、歩行者は歩道や横断歩道に、時には道路上に現れます。自然のシーンでは、画像の上部は青空、下部は緑の草や木である可能性が高いです。 | 目標: 1つ以上のオンライン画像データセットを分析し、データセットが提供する情報と、これをコンピュータビジョンシステムの領域知識を抽出する方法にどう利用できるか説明する。

理解: AIシステムにおける領域知識は、多くの場合、何百万もの文章や画像から収集した統計から得られること。

具体: サンプル画像データベース。ImageNet - https://image-net.org/Coco - http://cocodataset.org/#exploreテキストや電子メールを入力する際の単語予測は、高度な知覚システムに見られるような統計的予測の使用例です。大規模な画像コレクションを分析することで、あるシーンでどのような種類の対象物が共起する可能性が高いかについての統計が得られます。 | | 領域知識 (包括性)

1-C-ii | 目標: 知的エージェントが英語以外の言語を理解する必要がある理由について議論する。

理解: 音声認識システムは、様々な人が使うものなので、様々な言語に対応する必要があること。

具体: Alexaの設定は、複数の英語方言(米国、英国、カナダ、インド)、および多数のヨーロッパとアジアの言語に対応しています。 | 目標: 領域知識は、アプリケーションが対象とするすべてのグループを包含するのに十分広範である必要があることを議論する。

理解: 音声認識システムは、様々な種類のアクセントや代替発音に対応する必要があること。音楽認識システムは、異なる音楽ジャンルについて知っている必要があること。 | 目標: ビジョンシステムが、それを作った人々の文化にない対象物についての知識を欠いた場合、どう文化的バイアスを示す可能性があるか説明する。

理解: AIアプリケーションが多様なグループに対応するためには、領域知識は多文化を考慮する必要があること。

具体: アメリカの交通標識のみ認識する自動運転車では、ヨーロッパやアジアの交通標識を認識することができません。 | 目標: コンピュータの知覚システムを多様なグループに対してうまく機能させるための技術的な難しさについていくつか説明する。

理解: 暗くコントラストの低い顔の特徴は、明るくコントラストの高い顔よりも認識しにくいこと。子供の話し言葉は、大人の話し言葉よりも高音域で、明瞭には発音されないこと。 |