本一冊丸かじり! おいしい書評ブログ

本を読むことは、心と体に栄養を与えること。読むと元気が出る、そして役に立つ、ビタミンたっぷりの“おいしい”本をご紹介していきます。

【書評】『生成AIで世界はこう変わる』(今井翔太)

お薦めの本の紹介です。
今井翔太さんの『生成AIで世界はこう変わる』です。

今井翔太(いまい・しょうた)さんは、東京大学大学院工学系研究科技術経営政略学専攻松尾研究室に所属する博士です。
人工知能分野における強化学習の研究、特にマルチエージェント強化学習の研究に従事されています。

「生成AI」とは何か?

生成AIとは、人間が行うような新たなアイディアやコンテンツをつくり出す能力を持つ人工知能の一種です。

これは、一般的に機械学習、特に深層学習の手法を用いて実現され,その応用範囲は広く、文章の作成から音楽、絵画、デザイン、ゲームのレベル設計、さらには科学的な仮説の生成まで、人間の創造力が求められるほとんどすべての分野に及びます。

生成AI、特にChatGOTのような言語生成AIは、「汎用技術(GPT:General Purpose Technology)」と考えられています。

汎用技術とは、文字通り、さまざまな領域で広範な応用が可能な技術を指します。
例えば、電気やインターネットなどですね。

 言語の理解と生成は、コミュニケーション、情報処理、意思決定といった多くの領域で中心的な役割を果たすため、そうしたタスクを自動化または支援する能力は、電気やインターネットと同様に産業全体、社会全体で利用可能です。実際にChatGPTは、カスタマーサービスの自動化から、文章の作成、教育、研究、エンターテインメントまで、多岐にわたる応用が可能です。
ChatGPTのような言語生成Aiは、単に生成を行うAIの域を超えて、総合的に地球上で最も賢い知的存在、とまで言えるかもしれません。
ChatGPTに搭載されている最新の言語モデルであるGPT-4は、すでに司法試験や医師国家試験に合格できるレベルに達しています。数学、化学、物理、歴史など大学受験の主要な科目のほとんどの問題でも、人間より上のレベルの解答ができます.英語から日本語、アラビア語まで30近い言語を操ることができ、プログラミングについてもGoogleのコーディングテストをパスできるレベルです。さすがに一人でこれと同じことができる人間が地球上にいるとは思えません。

歴史上、汎用技術とされる技術の登場直後は、その技術が良くも悪くも社会に多大な影響を及ぼし、以降の人類発展の方向を決定づける契機となっています。
ただ、これまでの汎用技術で起こった変化も長期的に見て大きなものではありましたが、その変化のスパンは数十年から数百年単位というものでした。それらの汎用技術が登場した時代の人が1,2年後に担務スリップしても、社会構造が激変していると感じることはなかったはずです。産業革命は18世紀中盤から19世紀にかけての長い期間を経て、社会の生産構造を変えました。インターネットの登場は20世紀中盤でしたが、一般家庭に普及し始めたのは21世紀に入る直前でした。
一方、生成AIはその影響があまりにも大きく、これまでの汎用技術とは比較にならない速度で変化が起きています。2022年前半の私を、2023年の現在に連れてきたらどうでしょうか。ネット記事やSNS、新聞の見出しなどを見て、どれだけびっくりするか想像もつきません。
昨年に生成AI革命が起こってから、本書の執筆段階までに起きたことのみを挙げても、すでに数十年分の技術革命があったかのような様相です。
ChatGPTの発表直後、Google社は車内にコードレッド(厳戒警報)を発令したとされています。ChatGPTの出現が、Google社の検索事業に深刻な影響を与えると判断されたためです。実際、Coogle社に対抗するMicrosoft社は、すぐに検索エンジン「Bing」にChatGPTを搭載し、Google検索エンジンを追いかけています。1つの技術によって、突如、世界一の企業の地位が脅かされる事態になっているのです。
そのMicrosoft社は、私たちが普段利用するパワーポイントやワード、エクセルなど、ほとんどのビジネス製品に生成AIを搭載すると発表しました。私たちの生産作業が根本から変わろうとしています。
画像生成AIで生み出したアートは、アメリカの芸術コンテストでグランプリを獲得し、ドイツの世界的な権威ある写真コンテストで入賞するレベルに達しています。突如として、すべての人間に、プロクリエイター並みの作品を生み出す力が解放されたと言ってもいいでしょう。
教育も生成AIで大きく変わろうとしています。東京大学をはじめとする国内の各大学は、生成AIの利用に関する声明を発表しています。問題への解答やレポートの作成に生成AIが使われる事態は容易に想像でき、従来の教育方法は成立しなくなるでしょう。生成AIに聞けば大体の疑問は解決し、対話的な議論も可能なことから、現在のように教員が生徒に知識を与える教育形式にも変化が起きるかもしれません。
すでに生成AIは、世界中のリーダーの主要な関心事となっています。2023年5月に開催された広島サミットでは、生成AIが議題に上り、首脳宣言のなかで生成AIの議論を進めるための「広島AIプロセス」を立ち上げることが発表されました。同年7月には、東京大学で日本国内の政治、学術、経済界のリーダーが集まったシンポジウムが岸田文雄内閣総理大臣出席のもと開催され、今後の国内の生成AIの取り組みについて議論されました。

一方で、生成AIがもたらす脅威も無視できません。
IBM社は一部職種の業務が生成AIによって代替できるとし、採用を凍結。雇用削減を行うことも示唆しています。その他の企業でも、カスタマーサポートなど、生成AIによって代替可能な職業すべてを解雇するといった動きが出始めています。
中国では、画像生成AIの活用により、イラストレーターへの報酬が10分の1になったという事態が報告されています。ハリウッドでは、脚本をAIにつくらせる動きに反発し、映画脚本家らがストライキを起こしています。
政治の世界でも、アメリカの大統領選挙に関連し、対立陣営の存在しない写真を生成して煽動(せんどう)するような行為が報告されています。生成AIを使って声を変換した電話による、詐欺や政府高官へのなりすましといった事件も発生しています。

世界中で生成AIによる変革が起きていることはご理解いただけたと思います。それでは、当のAI研究者は、この生成AI革命に対してどのような態度で臨んでいるのでしょうか。
一言で言うと、過去に類を見ないほどのお祭り騒ぎです。
生成AIに関する論文がすさまじい勢いで量産されています。1ヶ月、1週間どころか、2日や3日で常識が覆(くつがえる)ることも少なくありません。Google社が生成AIに関する重大な告知をした数時間後に、OpenAI社がGPT-4を発表して何もかもがひっくり返ってしまったことがありました。私が研究機関で講演をしている最中に、講演で言及していたトピックがひっくり返されてしまったこともありました。
あまりにも発表される論文が多すぎて、研究者でさえ消化しきれていません。AI研究と言っても、分野はかなり細分化されていて、本来は生成AIとはあまり関係がないAI研究も多く存在します。ところが今や、各分野の研究者が一斉にそれぞれの専門知をもって生成AIにアプローチしています。
研究者たちは、自分たちの研究がある日突然ひっくり返されてしまう恐怖感と、後世に語り継がれるであろう劇的な時代にめぐり合えた幸福感の狭間にいます。

AI研究者の究極目標は、汎用人工知能(AGI:Artificial General Inteligence)の実現です(矛盾するようですが、その実現は最大の懸念点でもあります)。AGIとは、人間の知能と同じく汎用的な知能処理ができる人工知能を指します。
人間の知能は、言語の使用、視覚処理、運動、ゲームプレイなど、さまざまなことを行える、まさに「汎用的」なものです。そもそも人工知能の研究は、機械によってこれを実現することを目標に掲げて始まりました。
70年にわたるAI研究のなかで、汎用的ではない「特化型人工知能」は、囲碁のチャンピオンを倒した「AlphaGo」をはじめ、高性能なものがいくつか登場しましたが、AGIはまだ登場していません。
少なくとも2022年まで、AI研究者コミュニティにおけるAGIの話題は、「いつできるのか」という議論とともに、「本当に(われわれが生きている間に)実現できるのか」と言う議論に二分される状況でした。実現できると信じている人たちの間でさえ、「2030年代には実現できる」と言ったら、「それはさすがに早すぎるのではないか?」という見方が普通だったと思います。「30年先なのか?」「50年後なのか?」「いや、それ以上かかるのではないか?」そのような感覚が当たり前でした。
しかし、ChatGPTから始まった生成AI革命ですべてがひっくり返りました。現在、AI研究者のなかで「AGIは実現できない」と考える人はほぼいないでしょう。AGIが実現されることはほとんど確定的であり、あとはその実現が10年後なのか? それとも5年後なのか? という議論になっています。

そして、今やAGIの枠を越え、人間の知能を超えた超知能(Superinteligence)の実現すら真剣に議論されています。ChatGPTを開発したOpenAI社は、未来の超知能の実現を見すえて、AI開発におけるIAEA(国際原子力機関)のような期間の設立を訴え、自らも超知能を制御する研究に着手すると発表しています。
ディープラーニングの生みの親であり、「AIのゴッドファーザー」とも呼ばれているジェフリー・ヒントンは、2023年4月、10年近く勤めたGoogleを突然退社しました。生成AIを見てAI開発の危険性を感じ、より自由な立場で活動したくなったからだとコメントしています。生成AIの開発を核戦争にたとえ、開発の競争の激化は避けられないとしながらも、人類にとって取り返しのつかない結果を避ける取り組みが必要だと警告しています。
それでは、AI研究者は実際のところ、この生成AI革命の先にある未来を正確に見通しているのでしょうか。答えはノーです。あのヒントンですら、「われわれには何が起きるのかわからない」「霧の中を運転しているような感じだ」と答えています。それは私の周囲の研究者を見ても同様です。AIに対する脅威論が盛んに語られているのも、この不確実性の表れでしょう。

『生成AIで世界はこう変わる』 第1章 より 今井翔太:著 SBクリエイティブ:刊

私たちは、まさに「生成AI革命」という嵐のまっただ中にいるといっても過言ではありません。

本書は、生成AI革命が与える影響を短期的なものと長期的なものに分けて考察し、わかりやすくまとめた一冊です。
その中からいくつかピックアップしてご紹介します。

スポンサーリンク
[ad#kiji-naka-1]

「生成AI」の仕組みとは?

2012年ごろから、生成AIの技術基盤ともなっているディープラーニングを中心とした第三次AIブームが始まり大量のデータを与えながら、機械が自動的に最大の解き方を学習する「機械学習」のアプローチが主流となります。

この機械学習を、人間の脳をコンピュータ上で再現した「深い(Deep)」人工ニューラルネットワークで行うのが、「ディープラーニング」です。

図2−1 人工ニューロンの図 生成AIで世界はこう変わる 第2章
図2−1.人工ニューロンの図
(『生成AIで世界はこう変わる』 第2章 より抜粋)

図2−2 人工ニューラルネットワークの図 生成AIで世界はこう変わる 第2章
図2−2.人工ニューラルネットワークの図
(『生成AIで世界はこう変わる』 第2章 より抜粋)

 人間の脳の最小構成要素は、ニューロン(神経細胞)です。人間の脳の知能処理では、ニューロン同士がシナプスを介してつながりながら、他のニューロンから受け取った電気信号をシナプスの結びつきの強さで調節し、また別のニューロンに電気信号を流すという動作が行われています。人間は学習によって、このニューロン同士のつながりの強さを調節していると考えられています。
人工ニューラルネットワークは、このニューロンの電気信号の処理を計算機上で再現したものです。ニューラルネットワークにおけるニューロン同士の結びつきの強さは、「重み」や「パラメータ」と呼ばれており、このパラメータは学習によって変化していきます(上の図2−1を参照)。
ニューラルネットワークはこのニューロン同士がつながって、入力層、中間層、出力層まで複数の層を形成しています。この層が「深い」のがディープラーニングの特徴であり、この深さにともなってパラメータ数が大きいことが、ディープラーニングの性能の鍵とされています(上の図2−2を参照)。
入力層にはニューラルネットワークに予測させたい対象、たとえば画像の分類であれば画像を、対話AIであれば人間の文章を入力し、出力層で予測を出力します。ニューラルネットワークを学習させる場合には、ニューラルネットワークの出力と正解データを比較し、その差分からパラメータの調整量を決定します。よく勘違いされますが、AIは学習に使ったデータ自体をデータベースのような形で保持しているわけではありません。あくまでデータは、ニューラルネットワークのパラメータの調整に使われるだけです。
生成AIは、このニューラルネットワークの入力層に、たとえば人間の言語指示(質問や書いてほしい文章の指示、生成してほしい画像の指定など)、出力層に生成対象の数値(文章生成なら次に生成すべき単語の確立、画像生成なら画像のピクセル値や除去すべきノイズ)を取ったものです。
(中略)
ChatGPT(GPT-4)のようなAIは、「言語モデル」という技術で実現されています。これらの言語モデルは、先ほどのニューラルネットワークを使って実装されています。そして、その圧倒的な性能の実現に必要なニューラルネットワークのパラメータ数が膨大であることから、このような言語モデルをまとめて「大規模言語モデル(LLM: Large Language Model)」と呼んでいます。
言語モデルを一言で説明すると、「生成される単語・文章に確率を割り当てるモデル」です。わかりやすく伝えるために、ここでは少し変わった説明をします。

突然ですが、これからChat GPTなどが実際に行っている情報処理を、みなさんの頭の中で体験してもらいます。最先端の人工知能だからさぞ難しい情報処理をしているのだろうと思われるかもしれませんが、やっていることは直感的に理解できるものです。
次の文章を読んで、最後の( )の中に入る単語を考えてください。

〈文章1〉
このりんごは( )
〈選択肢〉
①アインシュタイン
②黄色い
③おいしい
④行く

さて、それぞれの選択肢を見て、みなさんは何を考えたでしょうか。①はそもそも文章としておかしい。②は文法的には正しそうですが、りんごが黄色いのはちょっと違和感がある。③は正しそうです。④はりんごが主語なので、「行く」のような動詞が入るのはおかしい。たぶんこんな感じのことを考えたのではないでしょうか。これくらいの問題だったら、そこまで深く考えずに選べたかもしれません。
次は、選択肢はそのまま、少し文章の内容を変えた問題を考えてみましょう。

〈文章2〉
農家の友達から普通とは違う色のりんごをもらった。このりんごは( )
〈選択肢〉
①アインシュタイン
②黄色い
③おいしい
④行く

この問題はどうでしょうか。①と④は引き続き論外でしょう。③は今回も正しそうです。しかし、この文章だと②も正しそうな気がします。「違う色のりんご」という文言を考えると、むしろ通常のりんごと違う色の「黄色い」が正解になってもおかしくなさそうです。今回は②が正しそうで、次点で③もそれなりに正しそう、と考えた方が多いのではないかと思いますが、最終的にどちらを回答するかは人によって分かれそうです。

言語モデルとは「生成される単語・文章に割り当てるモデル」と説明しました。先ほどみなさんは問題を解く際に、選択肢の単語に対して「どの解答が正しそうか」を頭の中で考えていたと思います。言語モデルはこの「どの解答が正しそうか」を確率的な出力に置き換えて計算します。
たとえば、最初の問題と次の問題で、みなさんの頭で考えていたことを言語モデルの出力として確率で表すと、以下のようになります(確率の数値は私が想像したいい加減な値です)

〈文章1〉
このりんごは( )
〈選択肢〉
①アインシュタイン[正解の確率 2%〕
②黄色い[正解の確率 5%〕
③おいしい[正解の確率 90%〕
④行く[正解の確率 3%〕

〈文章2〉
 農家の友達から普通とは違う色のりんごをもらった。このりんごは( )
〈選択肢〉
①アインシュタイン[正解の確率 2%〕
②黄色い[正解の確率 55%〕
③おいしい[正解の確率 40%〕
④行く[正解の確率 3%〕

言語モデルの実現方法はいろいろありますが、ここでは入出力を行うモデルをニューラルネットワークにし、文章を途中まで入力したときに次にくる単語の確率を出力するものを考えます。先ほどは単語の選択肢が4つしかない問題でしたが、ChatGPTがやっているように流暢(りゅうちょう)に長文を出力するのは簡単です。
自分が出力した確率に従って解答とした単語を補いつつ、次に続く単語に対する出力を行うという操作を繰り返すことで、文章を最後まで出力できます。ここまでが言語モデルの動作の全体像です。意外と簡単だと思った方が多いのではないでしょうか。ChatGPTなどが文章を生成するためにやっていることは、このように単純な次の単語予測の繰り返しなのです。
先ほども述べましたが、このように言語生成AIは内部になんらかの文章データを保持して、それを組み合わせているわけではありません。これがChat GPTのような柔軟な文章生成を可能にしているとともに、「ハルシネーション(日本語では幻覚、妄想の意味)」と呼ばれる嘘の情報を出力してしまう原因にもなっています。

それでは、先ほどのような文章の続きの単語を予測できる言語モデルは、どのようにして学習するのでしょうか。ChatGPTくらい大型で高性能なものになると学習の手順はいくつかあるのですが、核の部分は非常に単純です。
ニューラルネットワークが、先ほどのような「穴埋め問題」を正解を教わりつつ大量にこなすと、かなり高性能な言語モデルができてしまうのです。どれくらい大量かというと、日本語のみならず、英語、中国語、フランス語・・・・・・などなど、さまざまな言語の文章を文字数にして数兆字というレベルです(実際には「トークン」という単位なのですが、わかりやすく文字数でカウントしています)。
では、その文章データはどこにあるのか。これも簡単です。インターネット上で普段われわれが目にしているWebページの文章を大量に取得してきて、そこから穴埋め問題をつくるのです。
義務教育や受験勉強などで、われわれ人間が英語や国語のドリルを使ってやっていたような文章の「穴埋め問題」をひたすらAIに解かせることが、高性能AI実現の核心だったのです。Chat GPTレベルにするには、もう少し工夫した学習が必要なのですが、これくらい単純な学習でも相当高性能な文章生成AIがつくれることが研究で明らかになっています。
ChatGPTの前身である2020年に公開されたGPT-3は、穴埋め問題を大量に解くだけでほとんど人間レベルの文章生成ができるようになることが明らかになった最初のAIであり、一般にはともかく研究者の間では大いに問題になりました。
ただし、単なる穴埋め問題だと言って馬鹿にしてはいけません。穴埋め問題を解くには、意外と高度な知能処理が必要です。先ほどみなさんに解いてもらった2つ目の問題の文章をもう1度見てみましょう。

〈文章2〉
農家の友達から普通とは違う色のりんごをもらった。このりんごは( )

先ほどは、( )に入る単語の選択肢に「黄色い」というものがありましたが、この選択肢が正解だと予想するには、「りんごは通常赤色である」という、文章には直接書かれていない知識が必要です。
穴埋め問題を解くには意外と高度な知識が必要であり、言語モデルは大量の穴埋め問題を解く過程で、世界に関する一般的な知識や文法構造を学んでいると言えるのです。

高性能な言語モデルを実現するには、大量の穴埋め問題を解かせるということを説明してきました。しかし、先ほども触れたように、実はこれだけではChatGPTレベルの超高性能なAI をつくるには足りません。例を挙げながら説明します。
たとえば、人間が「会社の上司との関係が悪いのですが、どうしたらいいですか?」というプロンプトを入力した場合を考えます。先ほどのような学習を行った言語モデルは、次のような回答をしてくるかもしれません。

まずはその上司をぶん殴ってやりましょう。暴力はすべてを解決します。またはそ上司がいうことを無視するのもいいかもしれません。そうすれば上司もあなたに気を遣うでしょう。

さて、このような回答は、われわれ人間がAIに望む回答でしょうか。少なくとも、この回答は文章としては問題ありません。文法は正しいですし、質問の内容にも答えています。しかし、これは人間にとって「好ましい回答」とは言えないと思います。
では、次のような回答が返ってきたら、どうでしょうか。

いくつかの選択肢が考えられます。まずは、上司本人と時間を取って話し合うことが大切です。他に考えられるのは、その上司のさらに上の立場の人に相談してみることです。

私たち人間がAIに望むのは、このような回答のはずです。
穴埋め問題だけで学習した言語モデルは、このような「好ましい」文章を優先的に生成するようにはできていません。言語モデルの学習には、Web上から集めたデータを使いますが、そのなかには暴力的な言説、デマ、倫理に反する内容など、好ましくないテキストが大量に含まれています。ところが、学習に使うデータは何兆字にも及ぶため、人間があらかじめテキストをすべて精査するのは不可能です。
ただ単に穴埋め問題を解くように学習した言語モデルは、人間らしい文章を生成することはできるかもしれませんが、その文章が好ましいものであるかどうかはまったく考慮されないのです。いくら文法的には正しい文章を生成するAIができたとしても、人間の入力に対して好ましくない滅茶苦茶(めちゃくちゃ)な回答をするものであれば、ここまで注目されることはなかったでしょう。

生成AIブームのきっかけとなったChatGPTは、この問題を画期的な方法で解決したのです。この手法はまず、ChatGPTの前身となる「InstructGPT」で導入されました。
1つは「教師ありファインチューニング(Supervised Fine-Tuning)という手法です。これは先述した「教師あり学習」を文章に対して適用したようなもので、なんらかのプロンプトに対して人間が理想的な回答をつくってやり、AIがそれを正解データとして学習するというものです。
先ほどの「会社の上司との関係が悪いのですが、どうしたらいいですか?」というプロンプトがあった場合、人間が正しい回答として「まずは話し合うことが重要です。場合によっては、上司のさらに上司に相談することも考えるべきです」という文章をつくってあげます。あとは、言語モデルがそういった人間の回答データを出力するように学習するのです。
しかし、これだけでは言語モデルに好ましい出力をさせるには足りません。そもそも人間がひとつひとつ回答を作成するので、データを大量に用意できず、ありとあらゆる入力に対応するのは不可能です。また、このやり方では、何が正しい回答なのかを教えることはできても、何が誤った回答なのかを明示的に教えることができません。
そこで、ChatGPTなどの最近の超高性能な言語モデルを実現する核となった最後のコア技術が、「人間からのフィードバックに基づく強化学習(RLHF: Reinforcement Learning From Human Feedback)」です。ちなみに筆者の専門もこの強化学習です。
RLHFではまず、とあるプロンプトを言語モデルに入力して、何個か回答を生成させます。言語モデルの出力は確率的なので、入力のたびに違う回答が返ってきます。たとえば、「会社の上司との関係が悪いのですが、どうしたらいいですか?」というプロンプトを3回言語モデルに入力すると、以下のような出力が返ってくるでしょう(以下は実際にChatGPTに出力させた例です)。

〈出力1〉
上司との関係を改善するには、上司とのコミュニケーションを取り、上司のことを理解していく必要があります。また、上司に謙虚な態度や協力的な態度を見せることも大切です。
〈出力2〉
原因を特定して対策を講じることが大切です。相手の働き方や性格を理解することも大切です。たとえば、相手の働き方が気に入らない場合は、相手に対して意見を述べることで改善してもらうことができます。また、相手の性格を理解することで、相手に対してうるさくないように気をつけることもできます。ただし、原因を特定して対策を講じることは難しいです。
〈出力3〉
相手の人格を尊重し、相手の意見を聞くことを意識しましょう。また、自分の意見もしっかりと伝え、相手に対して感謝の気持ちを持つことも大切です。

これらの回答に対し、人間にとっての好ましさに応じてランク付けをします。たとえば、出力1は0.6、出力2は0.3、出力3は0.1などのように、回答が好ましいものであるほど良いスコアを付けます。これは人間が行います。つまり、言語モデルの出力に対して、人間が「フィードバック」を行っているわけです。
次にこのようにランク付けした回答を使って、「報酬モデル(Reward Model)」というものを学習します。言語モデルに対する入力と出力のセットを報酬モデルに入力すると、言語モデルが好ましい回答をしたかどうかを示す報酬を出力します。これはいわば、言語モデルの出力を採点しているようなもので、報酬の数値が高いほど好ましい出力ができていたことを示します。
そして、言語モデルは、報酬モデルから得た報酬を使って強化学習を行います。強化学習は、自分の行動によって高い報酬を得られるように学習する手法ですから、このようにして学習された言語モデルは報酬が高くなる好ましい出力を高い確率でするようになります。
このやり方であれば、報酬モデルさえ完成してしまえば、あとは半自動的にさまざまなプロンプトに対する出力について、「何が良いのか?」「何が悪いのか?」を報酬の大小から学習することができるようになります。
ここまでがChat GPTの学習方法です。ChaGPTは「穴埋め問題の学習」「教師ありファインチューニング」「人間からのフィードバックに基づく強化学習」を大規模に行うことによって実現されたのです。

『生成AIで世界はこう変わる』 第2章 より 今井翔太:著 SBクリエイティブ:刊

最新技術である生成AIも、原理的には、そんなに難しくなく、素人でも理解できるレベルです。
ただ、それを可能にするには、高速度の処理が必要です。

コンピューター能力向上、特に半導体(CPU)の劇的な改善。
それがあって初めて実現した技術だといえますね。

生成AIで影響を受ける「仕事」は?

AIが私たちの仕事に与える影響についてです。

「特別なスキルを必要としない賃金が低い仕事であるほど、コンピュータ/AIによる自動化の影響を受ける可能性が高い」

これは、この分野の研究で、長らく共有されてきた主張です。

しかし、生成AIが登場した2023年現在に広く共有されている主張は、以下の通りです。

「高学歴で高いスキルを身につけている者が就くような賃金が高い仕事であるほど、コンピュータ/AIによる自動化の影響を受ける可能性が高い」

今井さんは、1つの研究分野の主張が、ここまで完全にひっくり返ることは歴史的にも稀(まれ)だと述べています。

図3−1 雇用の未来 で示された機械化の影響を受けにくい職業と受けやすい職業 生成AIで世界はこう変わる 第3章
図3−1.「雇用の未来」で示された機械化の影響を受けにくい職業と受けやすい職業
(『生成AIで世界はこう変わる』 第3章 より抜粋)

図3−2 GPTs are GPTs で示された機械化の影響を受けにくい職業と受けやすい職業 生成AIで世界はこう変わる 第3章
図3−2.「GPTs are GPTs」で示された機械化の影響を受けにくい職業と受けやすい職業
(『生成AIで世界はこう変わる』 第3章 より抜粋)

 図3−1に、本論文において示された、機械化の影響を受けにくい/受けやすい職業をそれぞれ1〜25位までまとめています(上の図3−1を参照)。
影響を受けにくいとされる職業は、全体的に高度な判断力や創造性、数理的な思考、人との感情を重視した対話を必要とする傾向があります。一方で、影響を受けやすいとされる職業は、作業の内容がほとんど決まっており、作業内容に変化が生じにくいものが多くなっています。
最終的な結論としては、全職業のうち47%が機械化の影響を受けるだろうとしています。

次に、2023年にOpenAI社とペンシルベニア大学が共同で発表した論文を見てみましょう。原題は“GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models”(GPTは汎用技術であるーー大規模言語モデルが労働市場に与える影響についての早期の見解)というものです。この論文では、GPTのような言語生成AIやその拡張システムによって、各職業の労働がどれくらい影響を受けるのかが分析されています。
特に言語生成AI周辺の技術に焦点を当てており、その点ではコンピュータやロボットなど、機械化全般に焦点を当てていた2013年の論文とは異なります。ただ、それぞれの時点におけるコンピュータ科学技術の最高到達点に目を向けているという点では、比較に値する内容です。
図3−2に、本論文において示された、AIの影響を受けにくい/受けやすい職業をそれぞれ25種まとめたものを示しています。厳密に各職業名などが対応しているわけではないのですが、2013年の研究と比較すると、傾向がまったく異なることが一目でわかるでしょう(上図を参照)。
影響を受けにくいとされる職業は、ほとんどが手足を動かす肉体労働を行うもの、いわゆるブルーワーカーと呼ばれる職種です。一方で、影響を受けやすいとされる職業は、エイジニアや研究者、デザイナーなど、高度な判断力や創造的な思考が必要とされるもの、いわゆるホワイトカラーと呼ばれる職種です。
最終的な結論として、全職業の8割がなんらかの影響を受け、さらにそのなかの2割ほどは労働の半分がAIに完全に置き換えられるレベルの影響を受けるだろうとしています。さらに同論文内分析を見てみましょう。上の図3−3を見てください(上図を参照)。
この図が主張しているのは、本章冒頭でも少し触れた次のような内容です。
「高学歴で高いスキルを身につけた者が就くような賃金が高い職業であるほど、生成AIによる自動化の影響を受ける可能性が高い。ただし、本当に習得に時間がかかる高度なスキルが必要とされる職業に関してはその限りではない」
図3−3を見てみると、必要とされる訓練が短い、または学位の要求が低く、賃金が低い職業であればあるほどAIの影響を受けにくく、逆に訓練期間が長く、学位が必要で、賃金が高い職業であるほどAIの影響を受けやすいという傾向があります。ただし、弁護士のように最も賃金が高く、訓練に必要な時間も長い職業については、AIの影響の受けやすさの値は高いものの、その程度は限定的です。
なお、ここで示したのはあくまでもGPT4が登場した時点での見解ですので、それ以降も急速にAIが発展していることを考えると、実際の影響はこれどころではないでしょう。

たった10年の間で、どうしてここまでの変化があったのでしょうか。それはコンピュータ・AIにできること/できないことの前提が、生成AIの登場でひっくり返ってしまったからです。
「ポランニーのパラドックス」という有名な説があります。これは哲学者マイケル・ポランニーの言葉をもとに提唱されたもので、その内容は「人は言葉で表現できる以上のことを知っている」というものです。この「言葉で表現できる以上のこと」を「暗黙知」と言います。
このパラドックスは、人間の作業の機械化を阻む障害を表すものとして、よく引き合いに出されます。コンピュータは人間がプログラミングして初めて動きます。つまり、人間が言語で表現してプログラミングコードに落とし込むのが難しい動作は、そもそも機械化のしようがないということです。機械化においては、このパラドックスをどうやって乗り越えるかが課題でした。
AI以前にコンピュータの基本的な性能から考えて、「定型作業」が機械化によって置き換えられることは、昔から共有されてきた認識です。定型作業では、作業内容があらかじめ決まっており、人間の言葉で作業内容を記述できるようなもの、つまり単純な行動の繰り返しで実行できるようなものを指します。
このような作業は、人の手でその内容をコンピュータにプログラミングできます。コンピュータは、人間によって書かれたプログラム、つまり動作するためのルールに従って動作すれば、定型作業を完了できます。
2013年は機械学習・ディープラーニングの本格的な性能上昇が認知され始めた時期です。この時期には、機械学習によって「非定型作業」の一部も機械で置き換えられるという期待が大きくなりました。非定型作業とは、作業内容が決まっておらず、しかも人間の言葉で作業内容を明確に記述できないようなもので、まさにポランニーのパラドックスで言う「暗黙知」が関わる作業です。
たとえば、運転は交通状況や天候などに左右され、同じルートであっても作業内容は毎回異なります。もっと簡単な例で言うと、猫と犬を見分けるといった識別も非定型作業です。人間はこれを簡単にやってのけますが、実は犬と猫を見分けるルールを言葉で明確に表すのはかなり難しいことです。異常検知も非定型作業の1つです。人間の「なんか変だなぁ」という感覚の「なんか」は、言語で表すことの難しさを端的に表しています。

機械学習・ディープラーニングは、人間が作業をプログラミングするのではなく、データから自ら学習することにより、このような非定型作業の一部を可能としました。これらの非定型作業は確かに言葉で表すのは難しいのですが、作業の実例や正解データ自体はいくらでも存在しますし、作業の過程はともかく、作業で達成されるべき目標や成果は明確です。それらをAIに学習させれば、言葉にできない作業過程も自律的に学んでくれるというわけです。
つまり、「ポランニーのパラドックス」で言う暗黙知の一部分は、機械にも学習可能であることが明らかになったのです。
ここまでは先ほど紹介した論文「雇用の未来」においても、AI/コンピュータによって代替できることとして前提にされていた部分です。ただし、この論文でも、AIには将来的にも難しいとされていた能力があります。論文内では「創造的知能」と「社会的知能」とされていた能力です。
創造的知能とは、作曲や科学研究など、新しく価値あるアイディアを思いつく能力です。社会的知能とは、交渉や説得のように、人間の感情を重視した対人コミュニケーションを行う能力です。
これらの能力が扱う作業は、非定型作業であるうえに、そもそも何が正解であるかが明確ではありません。ヒットする音楽の正解を誰が定義できるでしょうか? 感動させる詩のつくり方とは? どんな人も納得させる説得術とは? ノーベル賞を取れる研究のやり方とは? 受ける広告のコピーとは? いずれも正解を用意することは不可能です。
確かに、過去にヒットした曲や成功した研究、人の会話や文章のリストなど、正解データらしきものは集められます。これらを学習することで、過去に存在したものを模倣することはできるでしょう。
しかし、こうした作業で求められているものは、本質的に「今まで存在しなかった現象に対応する」ことや「これまでにない価値のあるものを生み出す」ことです。過去に存在したものをデータから学習して模倣するだけでは、あまり価値がありませんし、未知の事象に対応できないでしょう。
「ポランニーのパラドックス」は部分的には否定されたが、少なくとも短期的には機械化ができない部分が残るだろう。そして、これらの能力を必要とする職業の大半は、高学歴で長いトレーニングを積んだ者が担う高賃金の職種である。これが2013年から生成AI革命前までの大多数の考えでした。

ところが、生成AIは、この考えをひっくり返してしまいました。OpenAI社らが2023年時点で問題にしているのは言語生成AIだけですが、言語を扱う職業だけで見ても、生成AIが創造的かつ社会的な能力を必要とする仕事を実行できることは明らかです。
現在のAIも、2013年時点で登場していた機械学習・ディープラーニング技術の延長です。では、その技術をもってしても「できないだろう」と思っていたことが、生成AIではなぜできてしまったのか。
まだ研究途上の部分も多くありますが、現時点である程度説得力のある説を述べるとすると、人間の創造的な作業とされてきたものの大半は、実は「過去の経験のなかから、価値のある新しい組み合わせを見つけること」であり、生成AIは膨大なデータ学習からこれを見つけられるようになった、というものです。
また、社会的知能についても、第2章で説明した人間のフィードバックを加えた強化学習などの調整を行えば、ある程度は実現可能であることがわかってきました。

それでも、依然として生成AIの影響をほとんど受けない職業もあります。
これを説明するために、もう1つのパラドックスをご紹介しましょう。「モラベックのパラドックス」というものです。ロボット工学者のハンス・モラベックの名を冠したこの主張は、「AIにとっては、人間がよく考えて行う高度な作業は簡単だが、人間が特に何も考えず簡単にこなしていることは難しい」というものです。
たとえば、プログラミングコードを使ってシステム開発をしたり、高度なアルゴリズムを書いたりすることは、かなり頭を使う作業です。将棋や囲碁といったゲームをプレイしてプロを打ち破ることは、普通の人が頭を使ってどうにかなるレベルではありません。これらは人間のなかでも、一部の天才や高度なトレーニングを積んだ者にしかできません。しかし、すでに見てきたように、現在のAIはこれを簡単にできてしまいます。
では、服を畳む、食べものを箸でつまむ、散らかった部屋で移動する、ものを探してもってくる、スキップする、といった作業はどうでしょうか。これはほとんどの人間が簡単にできることです。
多くの人にとってプログラミングは難しい作業ですし、藤井聡太さんを将棋で倒せる人は、少なくともアマチュアでは一人も存在しないかもしれません。それに対して、箸を使ったりスキップしたりすることを難しいと感じる人は、まさかいないでしょう。人間であれば小学生か、下手すれば幼稚園児でもできることです。
しかし、AIにとってはこれが大変困難なことなのです。現時点では、これらの作業を実行できるAIは存在しないか、相当に限られた範囲のことしかできません。生成AIが登場したあともこの点は変わらず、「モラベックのパラドックス」はいまだに健在です。
「GPTs are GPTs」で示されていた生成AI登場後の「AIの影響を受けにくい職業」とは、まさにこのあたりの能力を必要とする作業、つまり肉体労働を中心にした職種です。皮肉なことに、人間にとっては一般的に賃金が低い傾向にあるこれらの職業は、AIで代替するのが最も難しい職業だったのです。
頭脳労働は生成AIなどを実装した機械に奪われてしまい、創造性を発揮する余地はなくなるのではないか? そんな悲観的な考えが頭をよぎります。

それではここからは、「機械化による影響を受ける」という事象についてもう少し詳しく考察していきます。
実は先ほどから、「AIによって仕事が奪われる」という表現は一度もしていません。ここまで議論してきたのは、ある職業が影響を受けやすいか、受けにくいかというものです。
生成AIなどの技術による労働への影響を考える場合、その技術が「労働補完型」の技術なのか、「労働置換型」の技術なのか、分けて考える必要があります。
労働補完型の技術とは、人間の労働を補助し、その労働自体を楽にしたり、生産性を上げたり、新しい仕事を生み出すきっかけになるような技術です。一方の労働置換型の技術とは、文字通り人間の労働を完全に置き換え、人間が介在する余地をなくしてしまうような技術です。
労働がある技術の影響を受ける場合、その技術が労働補完型であれば、単純に現在の仕事を奪われるという事態にはなりません。むしろ、その技術によって労働が効率化され、賃金が上昇する可能性があります。仮に現在の労働がほとんど機械に置き換わってしまった場合でも、その技術自体が新たな労働を生み出すことで、そのマイナスの影響を打ち消すことができます。
第二次産業革命で登場した電気や、それを応用した大量生産技術などは労働補完型の技術であったとされ、実際に当時の雇用は増え、賃金も上昇したという研究結果が出ています。
逆に、産業革命初期に登場した紡績機、力織機などは労働置換技術であったとされ、スキルを持った労働者が不必要になり、そのような労働者が就ける代わりの仕事も生み出さなかったようです。
なお、この労働補完型か労働置換型かという議論は、あくまでも影響を受ける労働者の視点からの問題となります。どちらの技術であっても、最終的に産業発展が起きれば、それらの技術を採用した資本家や後世の人間は、その発展の利益を享受できます。初期の産業革命で生まれた技術はほとんど労働置換型でしたが、人類の産業の発展という観点で見ると、すさまじい恩恵をもたらしました。

それでは生成AIは労働補完型の技術なのでしょうか。それとも労働置換型の技術なのでしょうか。
実は、その技術がどちらであるかは、技術そのものだけを見てもわかりません。仕事の一部を自動化するのは補完型/置換型のどちらでも同じですが、人間が介在する余地が残るかどうかは、その仕事の元々の複雑さに依存します。元の仕事が一定以上複雑な場合、技術を投入しても、その技術自体をコントロールする人材や最終的な出力を責任を持って選択する人材は、依然として必要です。
また、その技術が新しい仕事を生み出すかどうかは、正確に予測しようがありませんし、もし生み出すとしても、その仕事がどのようなものになるかは未知です。
現時点では、研究者の間でも意見が分かれています。どちらかというと、生成AIは労働補完型の技術であり、既存の労働をより生産的に、より快適に質が高いものにするという説が多い印象です。
ただし、完全に今の雇用が維持されるという楽観的な考えもまた少ないようです。新たなスキル獲得に向けた教育の提供や、雇用が失われた場合のセーフティネットの整備など、社会的、政治的な取り組みの必要性が強調されています。

『生成AIで世界はこう変わる』 第3章 より 今井翔太:著 SBクリエイティブ:刊

図3−3 GPTs are GPTs で示された訓練期間と年収 AIの影響の受けやすさの比較 生成AIで世界はこう変わる 第3章
図3−3.「GPTs are GPTs」で示された訓練期間と年収、AIの影響の受けやすさの比較
(『生成AIで世界はこう変わる』 第3章 より抜粋)

生成AIの登場が、これまでの常識を、文字通り、ひっくり返してしまったことがよくわかりますね。
生成AIによる革命は、まだ始まったばかりです。

生成AIは、今後、私たちの生活にどのような影響を与えるのか。
神のみぞ知る、ですね。

生成AIで、プログラミングコード生成能力は10倍に上がった!

生成AIは、今後、どのように各個別業務分野の現場に導入されていくのでしょうか。

今井さんは、業務のどの部分に組み込むかはまだ手探り状態ですし、長期的に良い影響があるかは不透明だと述べています。

その上で、カスタマーサービスとソフトウェア開発の2分野に関しては、生成AIブーム以前に、分野固有の事情から生成AIの導入が比較的進んでいて、その影響についても長期的な視点での報告があると指摘します。

 カスタマーサービスは、現時点で生成AIが最も威力を発揮するとされている分野です。生成AIの流行以前から、この機能に特化したAIを導入して顧客対応を行っていた企業が多く存在という調査結果もありますし、長期の影響を分析した詳細な研究結果も報告されています。
カスタマーサービスにおける生成AIの強みは、サービスの質を落とさず、場合によっては高い顧客満足度と高速化を達成しつつ、顧客とのやりとりを半自動化できることにあります。
また、この分野には、新入社員では生産性が低く、トレーニングコストが大きいにもかかわらず、離職率が高いという背景があります。これらの問題が、企業が生成AIを導入する強い動機になっています。
実際にはさまざまな導入形態があると思われますが、ここでは一例として、MITなどによる既存研究で紹介されているシステムを取り上げます。この研究は、実在の生成AIシステムを導入したある米国大手ソフトウェア企業を対象に、5000人以上の利用者数かつ数ヶ月以上の期間の実運用データをもとにしており、企業での生成AI導入の実例として大変興味深いものです。
この生成AIシステムは、ソフトウェア製品に関する顧客の技術的質問に答える人間のサポートをするものです。顧客の質問と過去の会話を入力し、「エージェントが顧客に返す回答文章」と「顧客の質問に関連する社内文書へのリンク」の2つを出力します。
この出力はエージェントのみに提示され、顧客には見せません。生成AIは、専用に特化したものであっても時に不適切な出力を行いますが、あくまでエージェントへの提案システムとして導入することで、不適切な出力を顧客に返すリスクを回避しつつ、エージェントの作業を効率化できます。
同じ質問でも、顧客の背景に応じて回答が複数考えられるため(たとえば顧客が使っている製品バージョンなど)、システムは複数の解答案を生成します。
単にシステムに回答させるだけだと、内容はともかく、相手の感情を考慮しない無機質な回答になります。この例では、専用の学習、あるいはプロンプトを工夫する(たとえばプロンプトの冒頭に「熟練のカスタマーサポートとして回答してください」という文を入れる)ことにより、良い結果を引き出せそうな回答には、「この質問に関してはお力になれそうです!」や「この件をお手伝いできるのは光栄です!」といったフレーズを付け加えて回答するよう学習していきます。

さて、このシステムを導入することで、本当にカスタマーサポートの主要な指標を改善できたのでしょうか。
まずは生産性です。これは1時間あたりにエージェントが解決した質問数によって計測できます。平均で見ると、このシステムの導入で生産性が14%向上していました。
この研究では、システムを利用するエージェントがスキルの高さによって分けられ、それぞれ個別の結果も報告されています。システムを利用した生産性の向上効果は、最もスキルが低い労働者(Q1)が最も大きく、1時間あたりの解決率が35%向上しています。一方、最もスキルが高い労働者(Q5)の場合、ほとんど解決率の向上が見られません。
システム導入後の労働者と顧客の満足度(ポジティブな感情)はどうでしょうか。次ページの図3−6(下図を参照)を見ると、両者とも上昇傾向にあり、特に顧客の満足度の変化は非常に大きくなっています。また、カスタマーサポートは特に離職率が高い職業であると最初に説明しましたが、システムの影響は離職率を下げる方向に作用し、離職者が平均して9%近く減少するということです。
これらの結果を総合して考えると、生成AIシステムの導入は、労働当事者の満足感を上げつつ、仕事の質も向上させ、さらに顧客の満足度も上げるという非常に良い影響があることになります。
ところで、このシステムはあくまで回答の候補を提案するものでしたが、そもそもエージェントはこの提案を採用しているのでしょうか。これについては面白い結果が報告されています。
システム導入の初期には、最もスキルが高い労働者はシステムの提案を拒否する傾向があったようです。しかし、時間の経過とともに、どのスキル帯の労働者もシステムの提案を受け入れるようになり、最終的な変化は最もスキルが高い労働者で大きくなっています。
スキルが高い労働者は、当初は自分のスキルへの自信ゆえにAIの出力を拒否するものの、最終的には生成AIの提案の質や価値を認めるようになるというこの傾向は、生成AIが別の分野に導入される場合にも参考になるでしょう。

ソフトウェア開発における生成AIは、私自身が積極的に利用していることもあり、定量的な研究成果に加え、当事者の生の声もお伝えしたいと思います。この部分に関しては主観的な記述も多くなりますが、その点はご留意ください。
「ChatGPT以前のソフトウェア開発は石器時代だった」とは、ある開発者の言葉です。
第1章でも触れましたが、言語生成AIが持つプログラミングコードの生成能力は驚異的なものです。ChatGPT登場当日、私が最も驚き、「これは本当にすごい」と確信したきっかけは、このプログラミングコードの生成能力を目の当たりにしたことでした。
ここからの話は、生成AIの導入が最も良い方向に作用した場合にはこれほどの効果がある、という事例として参考にしていただければと思います。
ソフトウェア開発における生成AIの導入は、以下の3つの形態に分けられるでしょう。

①逐次的にコードの続きを提案してくれるシステム
②対話的にコードを生成してくれるシステム
③指示を出すと実行結果を含め、全部のコードを生成してくれるシステム

①は、Microsoft社傘下のGitHUb社というプログラミングコード共有システムの企業が開発した、プログラミング支援ツール「GitHub Copilot」というものが該当します。
図3−7(下図を参照)は、GitHub Copilotを用いて、私が生成したプログラミングコードです。とはいえ、実際に書いたのは「def」の部分までであり、続きから「return Q」までは全てCopilotに搭載された生成AIが提案しています。この提案を受け入れると、提案内容がそのまま書き込まれますし、提案を無視して自分で続きを書くこともできます。
②は、いわゆるChatGPTのような対話的生成AIシステムです。プログラミングに関する自然言語のプロンプトを入力してコードを生成、ユーザー側でコードを実行して、そのフィードバックをユーザーが「エラーが出た」などと入力し、再びコードを生成、実行を繰り返すような使用を想定しています。
③のレベルまでできる生成AIシステムの例はまだありませんが、OpenAI社が2023年7月に公開したChatGPTのプラグイン「Advanced Data Analysis」が該当します。
①については、GitHub Copilotがプログラマーの生産性をどれだけ向上させたかに関して、長期にわたって調査した報告と研究論文があります。2021年のテクニカルレビュー期間から、GitHub社は定期的にCopilotの使用状況に関する統計データを発表していますが、ここでは2023年前半に公開されたデータを参照します。
Copilotユーザーが書いたプログラムは、その約半分(46%)がAIの提案をそのまま受け入れたものであるという結果が出ています。つまりCopilotの導入により、開発者の仕事のほぼ半分が自動化されたことになります。この割合はプログラミング言語によって異なりますが、Javaの開発に関しては60%を超えており、もはや人間よりもCopilptが書いたコードの割合が高いという驚異的な結果になっています。
次ページの図3−8(下図を参照)は、生産性に関わる要素について、開発者視点の評価を示しています。ほとんどの項目で7割以上の開発者から高い評価を得ています。
また、GitHubがMicrosoft社やMITと共同で行った研究では、開発者をCopilotを使う/使わないの2つのグループに分け、あるプログラミング言語を使ってサーバープログラムを開発するというタスクを行わせました。
この結果、Copilotを使わなかったグループの開発者が平均161分でタスクを完了させていたのに対し、Copilotを使ったユーザーはその半分以下の平均71分でタスクを完了させたという結果が出ています(図3−9、下図を参照)。つまりCopilotを使うことで、生産性が2倍以上アップしていることになります。

ChatGPT登場以降は、ChatGPT登場以降は、ChatGPTに「ブラウザーで遊べるブロック崩しのコードを書いてください」といったプロンプトを入力し、コードを出力させる開発者が増えています。Copilotと異なり、人間の自然言語の要求に対し、その要求を満たすコードをまとめて書いてくれます。
自然言語を使うという性質から、まったくのプログラミング初心者でもある程度の作業が可能な使い方です。「これからの主要なプログラミング言語は自然言語になり、誰でもできるようになるだろう」という人も存在します。
対話形式という性質を利用すれば、エラーが出た場合は修正を求めることができ、コードが足りない場合は続きを要求することもできます。また、ChatGPTの高速な読解力と広範な知識を活かして、単なるコードの生成以外にも「他人のコードの読解」「エラー箇所の指摘」「計算効率が高いコードへの変換」「別のプログラミング言語への変換」といった用途でも使用できます。
これらは従来、人間の開発者がどれだけ知識を持っていても、人間の脳の処理能力の限界から、どうしても時間がかかる作業でした。しかし、ChatGPTは数秒でこなすことができます。
また、2023年7月に実装された「Advanced Data Analysis」にいたっては、実装したいものの要求データを渡せば、プログラムの実行結果も含めて必要なすべての作業を自動でやってくれます。
実際にどれくらい生産性が上がったのか、定量的に表すのは難しいのですが、どれだけ低く見積もっても2倍以上、5倍、10倍という数字でも納得できるレベルです。開発者を100人、1000人と雇っている企業であれば、全体としての恩恵はすさまじいものになるでしょう。

『生成AIで世界はこう変わる』 第3章 より 今井翔太:著 SBクリエイティブ:刊

図3−6 生成AI提案システムを導入した場合の業務改善 生成AIで世界はこう変わる 第3章
図3−6.生成AI提案システムを導入した場合の業務改善
(『生成AIで世界はこう変わる』 第3章 より抜粋)

図3−7 Copilot で自動生成されたコード 生成AIで世界はこう変わる 第3章
図3−7.「Copilot」で自動生成されたコード
(『生成AIで世界はこう変わる』 第3章 より抜粋)

図3−8 Copilot による生産性向上についての開発者視点の評価 生成AIで世界はこう変わる 第3章
図3−8.「Copilot」による生産性向上についての開発者視点の評価
(『生成AIで世界はこう変わる』 第3章 より抜粋)

図3−9 Copilot 使用の有無による開発者の生産性の比較 生成AIで世界はこう変わる 第3章
図3−9.「Copilot」使用の有無による開発者の生産性の比較
(『生成AIで世界はこう変わる』 第3章 より抜粋)
 生成AIの登場で、プログラミングコードの生成能力が、すでに数倍から10倍にまで劇的にアップしているというのは驚きですね。
これから、その進歩のスピードはさらに加速していくことは間違いありません。

これからの時代は、IoT(モノのインターネット化)という言葉もあるように、ソフトウェアが生活の隅々まで浸透していくでしょう。
それだけでも、生成AIのもたらすインパクトは破壊的だといえます。

画像も、音楽も「生成AI」で自由自在に!

生成AIは、芸術などの創作活動の分野でも、大きな影響を与えています。

今井さんは、「創作のためのツール」としての生成AI技術を、いくつか紹介しています。

 ここでは、生成される作品の本質的な表現を、ある程度人間が意図を持って制御でき、かつクリエイターとしての技量が高い者ではなくともある程度の質が保証されたアウトプットが期待できる、そんな生成AIの使い方を挙げます。
まず、画像生成AIに関連して、「ControlNet」という技術があります。これは生成AIで出力される画像内の、人間のポーズや空間配置などの細かい特徴を制御できる技術です。前述のように、通常はこれらの細かい要素をプロンプトで制御することは困難ですが、ControlNetを使うことで細かいレベルでの制御が可能になります。
次ページの図4−1(下図を参照)は、ControlNetの機能である「Openpose」という人間のポーズ検出ソフトを使って、ある画像のポーズを抽出(棒人間化)し、その抽出されたポーズを自分が出力したい画像に含まれる人間に適用しています。これにより、ポーズは角度レベルで希望する形に固定し、その他の要素だけを変更することが可能です。
音楽分野では、「Synthesizer V」という音声生成AIのソフトウェアがあります。Synthesizer Vは、先ほども触れたボーカロイドと似たような、キャラクターとその歌声を前面に出した音楽制作ツールです。
しかし、ボーカロイドは通常、歌わせたいメロディーを入力するだけではイメージ通りの歌い方を実現することはできません。ボカロPなどと呼ばれるボーカロイドのクリエイターは、職人芸的とも言える技量で調声(ちょうしょう)を行い、理想的な歌唱を実現しています。この調声を初心者が行うのは困難であり、音楽理論の熟知や積み重ねた経験則など、超えるべき大きなハードルがあります。
その点、Synthesizer VはAI技術により、これらの調声をある程度自動化してくれます。メロディーの打ち込み、呼吸の位置や曲の伴奏を考えるといった作業は人間側に残っていますが、これにより初心者でもある程度の質が保証された歌唱を実現することが可能となっています。
次に、複数の表現媒体を組み合わせるような創作において、その一部を生成AIによって作成するという使い方が考えられます。文章と挿絵を組み合わせた小説、画像やテキスト、音楽を組み合わせたゲームや動画などです。
このような創作は本来、個人が複数の表現手段に対して高度な技量を持っているか、高度な技量を持つそれぞれの専門人材を集める必要があるなど、ハードルが高いものです。ところが生成AIを使うことにより、自分の得意領域にフォーカスしたまま、それ以外の部分については生成AIによって作成したものを補助的に利用することでハードルを下げ、最終的なアウトプットの影響力や評価を高めることが可能です。
たとえば、画像生成AIでパーツを出力し、それを創作作品の素材として使うという使い方が考えられます。出力された生成物をそのまま使うのではなく、キャラクターや世界観の設定のアイディア出しという用途もあるでしょう。これは初心者だけでなく、プロのクリエイターにとっても有用な使い方です。
創作の世界では、とりわけイラストや画像の持つ視覚的な吸引力が重視されます。音楽作品におけるミュージックビデオや文学作品の挿絵などが代表的な例でしょう。これは画像生成AIの使い方としてすでに具体的な応用が多く見られる使い方であり、本書の執筆時点で小説の挿絵、動画のサムネイルといった部分で生成画像を使った創作作品がすでに多く登場し、高い評価を得ています。
また、効果音やBGMを生成するAIを使い、それを動画やゲーム作品に利用したものも一部登場しています。最近では、数枚の画像やプロンプトから動画を生成できるAIも発展しており、従来は個人では難しかった映像系コンテンツを、初心者が画像生成から一貫して行うことも現実的になっています。
その他、AIを使って出力したキャラクターを登場人物とする、あるいはAIで出力した背景を部分的に利用する、いわゆる「AI漫画」といったものが出てくるなど、生成AIのこのような利用形態は今後広がっていくと考えられます(図4−2、下図を参照)。

AIを使った新しい形式の文化芸術コンテンツも出てきました。これは生成AIが普及することによって初めて登場した創作の形態であり、生成AI抜きでは実現しえないものです。このようなコンテンツまだ限定的ですが、すでに登場している例をいくつか挙げます。
最初に紹介するのは、生成AIを使ってなんらかの人物の再現を行う、あるいはまったく新しい人物・キャラクターをつくる「AIキャラクター」などと呼ばれるコンテンツです。実在の人物にAIという文字をつけた「AI〇〇」といった呼ばれ方をされることも多いようで、「AIひろゆき」や「AI知事」、歴史上の人物と擬似的なチャットができる「Character.AI」といったサービスが登場しています。
AIキャラクターは主に、プロンプトエンジニアリングや追加学習により、その人物・キャラクターの人格、しゃべり方、知識といったものを再現した言語生成AIを中心に実現されます。これにより、実在する著名人や知識人、あるいは自分や他者が生み出したまったく新しいキャラクターと、地位や物理的な制約を越えて会話するという新しい体験が可能となります。
生成AIを使って、登場人物の言動を生成し、新しいゲーム体験を目指す動きも見られます。通常、ゲームの登場人物のセリフや行動は、開発時にあらかじめプログラミングされたものに固定されます。コストの関係から、登場人物が現実世界の人間と同等レベルの多様な言動をプログラミングされることはまずありません。
ストーリーをクリアすればそれで終わりとなるゲームでは大した問題にはなりませんが、最近はソーシャルゲームに代表されるように、1つのゲームが継続的に遊ばれる傾向があります。そのなかでもゲーム内の登場人物に対してある種の愛着を持ち、その言動を継続的に楽しむようなタイプのゲーム場合は、登場人物に多様な言動をさせ、飽きさせないようにできるかどうかが成功の鍵となります。
生成されるコンテンツの方向性をある程度保ちながら、実質的に無限のコンテンツを提供できるという生成AIの性質は、このような場で最も力を発揮すると言っていいでしょう。
また、すでにYouTube上で動画投稿や実況活動を行うYouTuberやVtuberはお馴染みですが、これを生成AIによって行うAI Tuber(アイチューバー、あるいはエーアイチューバー)というコンテンツがあります。AI Tuberは、ChatGPTのような言語生成AIにより、人間のように実況を行ったり、コメントに対して返信したりといった特徴を備えており、その声についても生成AIによる合成音声を利用することが多いようです。
AI Tuberの外見は、画像生成AIで出力したキャラクターを使うことがほとんどですが、そのキャラクターを出力するためのプロンプトや追加学習モデルを配布することで、ファンアートなどの二次創作コンテンツの促進を狙う例も見られます。

生成AIの登場後、すでに高い技量を持っていたクリエイターが、自身の創作活動のなかに生成AIを取り入れるという例が出てきています。「将来的にはこのような利用をしたい/このような利用になるだろう」と表明されている方も存在します。
これらのクリエイターは、すでに質も評価も高い作品を創作できている人たちです。したがって、生成AIの生成物から使用できる部分を切り取る、あるいは編集した形で使用するという利用法が大半です。創作の初心者のように、自身の表現の技量を超えた(あるいは方向性が異なる)アウトプットを得ようとする使い方もありますが、どちらかというと作業の効率化という側面が強いように思われます。
ワープロによる文章執筆のデジタル化、あるいはペイントツールの自動彩色、背景切り抜き機能と同じように、既存の創作ツールの拡張機能としてとらえていると言えるでしょう。
なお筆者自身は、クリエイターの創作ツールとしての生成AI、特に画像生成AIに関してはまだ未成熟であり、実際に機能するにはさらにもう一歩、基盤技術の発展とAIの出力をツールとして切り出すシステムの整備が必要であると考えている立場です。
現在の画像生成AIは、ほとんど完成された状態で出力されることによって、むしろ編集が困難になることや、出力の遅延が生じることなどがボトルネックとなっています。今後はこれらの問題を解決した生成AIのツールが登場するものと思われます。
また、クリエイターの視点で、創作の作業工程におけるAIによる自動化をどこまで是とするかについては、現在進行形で議論が続いています。長期的には、クリエイターが議論や試行錯誤を繰り返し、それが開発者にフィードバックされ、現在の生成AIを発展あるいは機能の一部を切り出す形でクリエイターが納得するツールが生み出され、創作のなかに溶け込んでいくものと考えられます。

話を戻すと現時点では、創作の高速化・負担軽減とアイディア出しにおいて、生成AIを利用する例が多く見られます。
まず、単純にクリエイターの作業を高速化したり、作業負担を軽減したりするために生成AIを利用することについては、クリエイターからの期待が大きい部分です。
イラストにおいて自身の画風を学習した画像生成AIによって、一部パーツの塗りを行う、背景の元絵を作成するといった利用が検討されており、実験的に取り入れているクリエイターも存在します。これは、既存のデジタルペイントツールの自動彩色機能を純粋に発展させたものと言えます。
通常、生成AIによって特定の個人の画風を細かく再現することは困難でしたが、「DreamBooth」「LoRA」と呼ばれる生成AIの追加学習手法を用いることで、個人の少量の過去データから、自身の画風を忠実に再現するAIをつくれるようになっています(図4−3、下図を参照)。
これらの技術は、クリエイターではない個人が特定のクリエイターの画風を集中学習し、いわゆるフェイク作品や競合作品をつくるような悪用例が目立ちますが、クリエイター自身が自身の画風を再現したAIを作成し、それを作業の効率化に用いることは、有効な活用法の1つです。また、漫画家からは、写真から線画を生成するAIの期待が高まっており、実際に高い精度で線画を生成できるツールも登場しています。

『生成AIで世界はこう変わる』 第4章 より 今井翔太:著 SBクリエイティブ:刊

図4−1 ControlNet を用いた画像生成の図 生成AIで世界はこう変わる 第4章
図4−1.「ControlNet」を用いた画像生成の図
(『生成AIで世界はこう変わる』 第4章 より抜粋)

図4−2 AI漫画 サイバーパンク桃太郎 生成AIで世界はこう変わる 第4章
図4−2.AI漫画『サイバーパンク桃太郎』
(『生成AIで世界はこう変わる』 第4章 より抜粋)

図4−3 いらすとや 風に生成した 本の宣伝を行う猫 の画像 生成AIで世界はこう変わる 第4章
図4−3.「いらすとや」風に生成した「本の宣伝を行う猫」の画像
(『生成AIで世界はこう変わる』 第4章 より抜粋)

これまで、「芸術分野は、(AIより)人間が優位に立てる最後の聖域だ」とも言われてきました。
それも生成AIの登場で、一気に状況が変わってきました。

まだ「創作ツール」の段階だとしても、近い将来、自ら創作する日が来るでしょう。

AIがオリジナルの絵を描き、オリジナルの小説を書き、オリジナルの音楽を作曲する。
それが当たり前になる時代が、すぐそこに迫っているのかもしれません。

スポンサーリンク
[ad#kiji-shita-1]
☆    ★    ☆    ★    ☆    ★    ☆

これまで人間が担ってきた知的活動の大部分をAIが肩代わりする。
そのような時代が来たとき、人間の社会では、どのような変化が起きるのか。

今井さんは、生産性や効率性などといったものから離れて、「人間がやること」に意味を見出す「人間中心の社会」という考えが大きくなっていくのではないかとおっしゃっています。

生成AIの登場は、人類にとって大きな脅威と言えるかもしれません。
ただ、見方を変えると、チャンスでもあります。

ツールとしてうまく使いこなせば、これほど頼りになるものはありません。
アラジンの魔法のランプを手に入れたようなものですね。

私たちも、生成AIという“ランプの魔人”の力を有効に使って、思い通りの人生を創り出していきたいですね。

Comments are currently closed.