カワセミのまなざし

カワセミのまなざし

清流の中に濁りを見つけ出す

人工知能(AI)進化に不可欠な「ディープラーニング(深層学習)」について ~その最前線~

 f:id:Hatabou:20170515182413j:plain

・記事最新更新日:2017/6/21

直近(5/11)の日経新聞トップに、「ディープラーニングの記事が載っていました。

<記事の要約>

  • 富士フィルムオリンパスが医師らの学会と組み、「内視鏡を使った検査で胃がんなど病気の疑いを人工知能(AI)が自動判別する技術」を2020年にも実用化するとの内容です。
  • 内視鏡医が不足している中、医師が画像を見る手間や時間を減らし、病変の見落としも防ぐことを狙っています。また、受診者の検査や結果の待ち時間が短縮するなど効果も期待できるそうです。
  • AIの判断のもととなる検査画像は大学付属病院など全国32の病院から17年度末までに30万件程度集め、順次増やし、医師の診断結果や患者の既往歴なども加えます。AIは自らが精度を向上させるディープラーニング(深層学習)技術で特徴を学ぶことが出来ます

 

 上記の通り、ディープラーニングは日々新聞を賑わしていますし、とても身近な関心事になりつつあります。しかも、注目度は加速度的です。

これまで人工知能なんて関係ないだろうと思っていた人々の仕事にも、近い将来は関係してくる可能性は十分にあります。そのとき、きちんとした理解がないとビジネスチャンスをものにできないだけでなく、時代の潮流取り残される危険性だってあるのです。

 

何故、ディープラーニングはそれ程までに我々を魅惑するのでしょうか?

それは、ディープラーニング手法を用いた人工知能が、我々人間世界を一変する力を持っているからです。

「シンギュラリティ」という言葉を覚えていますか。

2月に書いた記事の中でストーリータッチ風に詳しく説明していますが、ディープラーニング手法を駆使して技術進歩した人口知能が、2045年に人間の知能を越え、新しい知能が誕生する、その不連続な世界のスタートを「シンギュラリティ(=技術的特異点)」といいます。

「シンギュラリティ」はSF世界の絵空事ではありません。ディープラーニングはその実現を後押しするパワーを持ち合わせているのです

 

hatabou.hatenablog.com

 

ディープラーニングの最前線について説明する前に

人工知能(AI)とは何なのか、そしてディープラーニングとは何なのか出来るだけ、短く分かりやすく説明したいと思います。

 人工知能とは

  1. 「知的な情報処理をするもの、またはその技術」のことを言います。
  2. 「知的な情報処理」とは、「同じコンピューターでも、足し算をしたり画像を白黒に変換したりするといった処理ではなく、画像に何が映っているかを当てるような処理をする場合、知的な情報処理をしていると感じる、何らかの“知的そうな”処理」のことです。
  3. AIとも呼ばれ、「Artificial Intelligence」の略です。

 

人工知能の技術進歩

 第1次人工知能ブーム

1950年代に起こりました。

専門家が持つ経験則をベースに展開して、人の知的作業を支援するもので、「チェスを指すコンピュータ」や「数学の定理証明をする」ものでした。

第2次人工知能ブーム

1980年代に起こりました。

統計・探索モデルによって最適解を見つけるもので、「感染病診断治療支援システム」など医学上の支援システムの開発が主でした。

この頃、「機械学習」の研究が始まりました。(詳細後述)

第3次人工知能ブーム

2000年代に起こりました。

機械学習の中で「ディープラーニング」手法を用いた研究が進み、飛躍的に人工知能の能力が向上しました。

 

機械学習とは

機械が答えを出すための手法を、人間がプログラムとして与えるのではなく、機械が自動的に膨大なデータから学習してモデルを作るのが機械学習」です。機械学習では人間がプログラムを書くときのように、「どのような条件のときに、どのような答えが導き出されるか」といったことはわかりません。機械の中で、入力に対して正しい答えが導き出されるような“モデル”が自動的に作られるだけです。

この手法が生まれた要因は、「ニューラルネットワーク」との連携が大きいです。

ニューラルネットワーク」とは

人間の脳神経回路を真似することによって、データを人間と同じように分類しようとする仕組みです。

第2次人口知能ブームの頃は、「入力」「中間」「出力」の3層程度しかシミュレーションできませんでした。したがって、より人間に近い、人間を超える性能を発揮するという視点からは限界に至り、しばらく冬の時代になりました。

 

ディープラーニングとは

冬の時代を乗り越えたものが、「ディープラーニング」という手法の誕生です。

ディープラーニング」は「機械学習」の1分野ですが、「ニューラルネットワーク」の階層を4層、5層と増やし、精度の高い「機械学習」を可能にしたもので、「深層学習」とも呼ばれています。

f:id:Hatabou:20170515182505p:plain

誕生した大きな要因は

  1. 技術発展により、膨大な量のデータ(ビッグデータ)を収集蓄積できるネットワーク環境が整ったこと
  2. コンピューターの性能が飛躍的に向上したことです。

 

 ディープラーニングの現状と将来とは

 <その現状>

画像認識人口知能」が誕生しました。例えば、猫の画像を1,000万枚見せただけで、誰に教わることもなく、一週間で猫がどういうものか(=概念)を学習・理解するのです。この概念に「猫(単語)」をヒモ付けすれば、画像を見せるだけで「これは猫です」と答えることが出来ます。

これまでの「機械学習」では、こんな高度の自学自習は不可能でした。人間が教育する必要があったからです。 

 <その将来>

眼をもった機械・ロボットの誕生

市場規模や課題から分析すると、以下3つの機械・ロボットが生まれる可能性が高くなります。

農業:トマト収穫ロボット

  • トマトは市場規模も大きく、収穫の回数も多いです。
  • 現状の技術でトマトの認識ができます。上手にもぎ取ることもできます。
  • 先進的な考えを持つ農場から試し導入。

建設業:自動溶接ロボット

  • 建設の工程(例えば溶接)を自動化します。
  • 現状の技術で、溶接面の状態を認識できます。上手に溶接することも可能。機械を当てれば熟練した人でなくても、熟練の人のような溶接が出来ます。
  • 一部の建設現場から試験導入。

食品加工業:食洗器にお皿を入れるロボット

  • 食品加工に関わる仕事、まずは食洗器にお皿を入れることを自動化します。
  • 現状の技術で、お皿の位置、把持位置の認識ができます。まずは、食器が下げられたところから食洗器に入れるところを自動化します(混雑時に重要)
  • ファミレス等の一部店舗で試験導入。

 

最後に

いかがでしたか。「ディープラーニング」のイメージが少しでも理解して頂けたでしょうか?

この人工知能の手法は、「画像認識」のほか「音声認識」や「言語認識」にも活用が進んでおり、「自動運転」や「外科手術」等にも応用されるようになると思います。

そうして、2045年の「シンギュラリティ」を迎えるのだと思います。

精神的にも物理的にも豊かな世界が待ち受けていることを切に願うばかりです。

 

 Googleが年内を目途に、日本語に対応した「会話型AIを搭載したスマートスピーカー」を発売すると発表しました。(2017/5/17) 

f:id:Hatabou:20170520234030j:plain

 

スマートスピーカーは居間や台所に置き、利用者が話かけることで主に以下のタスクを行う機器です。

  • 音楽を再生(Google Play MusicSpotifyYouTube Musicなど)
  • スケジュールの管理
  • 家電製品を声だけで操作
  • 知りたいことを教えてもらう等(検索機能)

Googleがすでに開発して、スマートフォンに搭載している会話型「グーグルアシスタント」を応用した製品で「Google Home」と呼ばれています。

グーグルのピチャイCEOによる説明では、「深層学習」を採用した結果、「音声認識」能力が飛躍的に向上し、同社のAIが人間の言葉(英語)を聞き間違える確率は1年弱で8.5%から4.9%に下がり、最大で6人の声を聴き分けることが出来るようになったそうです。

キーボードやタッチパネルにも触る必要のない「ハンズフリー」の操作を実現する会話型AIの応用範囲はますます拡大していくと期待されています。

 

「深層学習」手法を使った技術革新は日進月歩ですね。

これからも、出来るだけ新しい話題を拾って行きたいと思います。

 

アップルも「スマートスピーカー」発売を発表しました。(2017/6/5)

f:id:Hatabou:20170610174256j:plain

アップルは5日、アメリカ西部カリフォルニア州でIT業界の開発者向けのイベントを開き、ノートパソコンやタブレット端末などの最新の製品に続いて、人工知能を搭載する小型のスピーカーを初めて発表しました。

スピーカーは高さはおよそ17センチの円筒型で、スマートフォンなどでも使われているアップルの人工知能が搭載されています。内蔵する6つのマイクで声を拾うことから、話しかけるだけで音楽を再生したりニュースを聞いたりできるほか、ネット経由で部屋の照明やエアコンなどを操作することもできます。

価格は349ドル(日本円で3万8000円余)で、アメリカなどの英語圏ではことし12月に、日本では来年、発売する予定です。

人工知能を搭載するスピーカーは、アマゾン・ドット・コムなどIT大手がすでに販売を始め、その手軽さから人気が広がっていて、2020年の世界の市場規模は現在の6倍に当たるおよそ2300億円に拡大するという試算もあります

アップルのティム・クックCEOは発表会で、これまで革新的な製品で音楽の世界を変革してきたとしたうえで、「家庭での音楽の聞き方を変えていきたい」と述べ、追い上げに自信を示しました。

人工知能を搭載した小型スピーカーは、2014年にアマゾン・ドット・コムが初めて発売しました。「アレクサ」という人工知能の愛称をスピーカーに呼びかけると反応し、話しかけるだけで音楽やニュースを聞いたり、検索したりすることができます。アメリカでは自宅の部屋や台所などに置いて使われることが多く、アメリカの証券会社の試算では、これまでに国内で1100万台が販売されたと見られています。

このほかグーグルも去年11月、「グーグルホーム」と呼ばれる小型スピーカーを発売したほか、先月にはマイクロソフトも参入を発表しましたが(前回記事参照)アメリカの調査会社によりますと、利用者ベースの市場シェアはアマゾンが71%を占め、24%のグーグルを大きく引き離しています。

各社がこの分野への参入を急ぐ背景には、搭載する人工知能がスピーカーにとどまらず、さまざまな家電やIT機器にも搭載でき、市場の拡大が見込まれていることがあります。

先行するアマゾンは、すでにアメリカの自動車メーカーのフォードや韓国のLG電子と提携し、人工知能を搭載した自動車や冷蔵庫を共同開発しています。

音声での操作はキーボードやマウス、タッチパネルに続く新たな操作の手段として普及すると見られ、各社は利便性の高い機能の開発を競っています。

 

LINEも「スマートスピーカー」発売を発表しました。(2017/6/15)

LINEは2017年6月15日に開催した「LINE CONFERENCE 2017」で、人の呼びかけに自動応答する人工知能(AI)スピーカー「WAVE」の試作機を初披露しました。

クラウドAI機能「Clova」と連携して、メッセージをやり取りしたり、ニュースや天気を確認したりできます。発売は2017年秋の予定で、価格は1万5000円(税別)。さらに機能を限定した先行版を2017年夏ごろに1万円(税別)で発売する予定です。

LINEの舛田淳取締役CSMO(チーフストラテジー&マーケティングオフィサー)は、AIスピーカーの戦略的な価格設定について、音声操作デバイスの普及を優先させる狙いを示しました。

ビッグデータのビジネスでは、学習データを多く作ることが競争力になる。しかし日本には、生活の中で音声を使って機器を操作する文化がない」とした上で、「まずは様々な製品を出して試行錯誤し、その成果をパートナーに提供してスマートデバイスを普及させる」という意図があります。Clovaを連携させたWAVEなどのスマートデバイスで、新たなビジネスモデルを構築することを目指すようです。

WAVEは、Clova音声認識自然言語処理音声合成を利用した様々な機能を提供します。
  • 例えば、メッセージアプリ「LINE」のIDを紐づけて、友達からのメッセージを読み上げたり、音声でメッセージを送信したりできます。翻訳機能やカレンダー機能、「LINEニュース」と連携したニュース/天気の確認、EC(電子商取引)利用、To-doリストの作成といった機能も備えています。
  • 「LINE MUSIC」が提供する4000万曲の楽曲を再生でき、プレイリストやランキングを確認したり、ユーザーの好みやその日の天気に合わせて曲をレコメンドしたり、本体には赤外線コントローラを内蔵し、家電製品の操作も可能です。

f:id:Hatabou:20170621173947j:plain

WAVEは高さ20.1センチ、重さ998グラム。四つのマイクを搭載して、スピーカーから約5メートルの距離にいる人の声を認識できます。スピーカーには2.5インチの20Wウーファーを一つと、1インチの5Wのツィーターを二つ採用し、「音質にこだわった仕様」(舛田氏)になっています。Wi-FiBluetoothと接続し、バッテリー駆動のため、家で部屋の間を持ち歩いても利用できます。

LINEはWAVEの他にも、LINEのキャラクターをモチーフにしたデザインのAIスピーカー「CHAMP」も2017年冬ごろに発売する予定。Clovaと連携してWAVEと同様の機能を利用できます。画面を搭載して、画像や動画を表示できるスマートディスプレーFACE」も現在開発を進めているようです。

発表会の席で舛田氏はヤマハとの協業も発表し、ヤマハの歌声合成技術「VOCALOIDボーカロイド」とLINEのClovaを連携して楽曲創作する構想も紹介しました。

 

ディープラーニング・技術進歩の最前線 ~GANとは~(2017/5/29)

f:id:Hatabou:20170529162014j:plain

グーグルのイアン・グットフェロー氏が2014年に考案した「敵対的生成ネットワーク(GAN)」が、ここに来てIT企業や大学の研究者から注目を浴びています。

マサチューセッツ工科大学の子会社が発行する「MITテクノロジーレビュー」誌が"2017年のAIの5大潮流"に選ぶほどです。

敵対的生成ネットワーク(GAN)とは

2つのAIが競い合って能力を高め、リアルな画像などを作りだす「深層学習」の最新技術です。

将来的には、AIが苦手とする「概念」を獲得するための突破口になるのではと、多くの研究者が期待しています。

更に具体的な説明としては

  1. 2種類のAIにはそれぞれ役割があり、片方は目利きの役のもう一方をだまそうと画像をせっせと作ります。
  2. 目利きのAIはそれが本物かどうか見抜こうとします。
  3. それぞれには「深層学習」の機能を組み込んでおり、騙し合いを通じて能力を高めます。
  4. こうした作業を繰り返すことで、現実に存在しそうな画像が出来上がります。作文でもリアルな文章が出来る可能性があります。

従来の「深層学習」と違う点

今までの深層学習では、AIが大量のデータを読み込み、物体などの特徴を自力で見つけ出し画像として表現できますが、その画像にあるものが何かは人間が示す(=ひも付け)必要がありました。GANの技術では人間が指摘(=ひも付け)しなくても学習することが可能になります

 

ディープラーニングの技術進歩は 留まることを知りません。

AI自ら「概念」を理解するようになるのでしょうか?