ブログ/ BLOG

  1. ホーム
  2. ブログ
  3. 人工知能(AI)、ビッグデータ法務
  4. 歌手・声優の「声」と生成AI(1)~基礎と開発・学習段階での利用~|知的財産・IT・人工知能・ベンチ…

人工知能(AI)、ビッグデータ法務 コンテンツビジネス法務(知的財産権、著作権) 未分類

歌手・声優の「声」と生成AI(1)~基礎と開発・学習段階での利用~

アバター画像 柿沼太一

 
 AI技術の発展により、歌手や声優の「実演」「声」を簡単に学習・生成できるようになり、社会的に大きな議論となっています。
 弊所でも、この問題についてエンタメ系の事業会社や、歌手・声優等の方々からご相談を受けるようになりました。
 この問題については、不正競争防止法の改正や新法の制定など立法論についても議論が盛んになっていますが、そもそも現行法上の解釈自体がまだ明確になっているとは言えません。
 そこで、本記事では歌手や声優の「実演」「声」と生成AIの問題について、「現行法上はどのような結論になりそうか」について、具体的事例をもとになるべく詳しく検討してみました(長いので3つの記事に分けています。)
 今後の議論のスタート地点になれば幸いです1本記事で検討する設例においては、いずれも対象となるゲームデータや楽曲データの利用について当事者間に契約は存在しないものとします。

 なお、本記事においては、文化審議会著作権分科会法制度小委員会が令和6年3月15日に公開した「AI と著作権に関する考え方について」(以下「考え方」といいます)を適宜引用しています。

Contents

1 設例

(1) ゲーム制作会社α社は、新作ゲームにおけるキャラの会話音声を生成するために、様々な市販ゲーム内の、様々な声優によるセリフ音声を大量に収集した。
 その上で、当該セリフ音声を用いて、「セリフ音声、セリフ内容(セリフ文字)、セリフが用いられている場面、キャラの性別、キャラの特徴」のみで構成された学習用データセットを作成した。当該学習用データセットには、ゲーム名、キャラ名、声優名データは含まれていない。
 さらに当該学習用データセットを利用して機械学習技術を利用して音声生成AI(以下「汎用型音声生成AI」という)を作成した。
 汎用型音声生成AIでは、キャラの特徴(性別等や性格等)、セリフ場面及び読ませたいセリフ内容(セリフ文字)を入力すると、当該キャラクターの特徴やセリフ場面に応じたセリフ音声を作成することができる。ただし、汎用型音声生成AIでは、セリフ音声生成に際して、実在の声優やキャラクター名の指定はできず、さらに学習に利用した声優の音声やセリフ内容が、そのまま出力されないような技術的な仕組みが備えられているものとする。
 α社は、新作ゲームの制作に際して、汎用型音声生成AIを用いて、実在する声優の声には類似しないセリフ音声を新たに生成してゲーム内の音声として利用し、当該ゲームを公開・販売した。α社の行為は何らかの権利侵害に該当するか。

(2) ゲーム会社α社が新作ゲームを公開したところ、汎用型音声生成AIに関する評判が高まり、是非当該AI及び当該AIを作成する際に用いた音声データセットを販売して欲しいとの多数の引き合いがあった。そこで、α社は「ゲームやアニメに利用可能。状況に応じた高品質なセリフ音声が簡単に作成できる!」という謳い文句で、汎用型音声生成AI及び音声データセットを販売した。販売の際には、声優名、キャラ名、作品名は一切表示していない。この場合、α社の行為は何らかの権利侵害に該当するか。

(3) AI会社β社は、人気歌手の声を利用した新曲を作成してリリースしたいと考えた。そこで、様々な著名歌手の歌唱音声データを大量に収集して、一般に公開されている大規模な音声生成AIに追加学習を行って、特定の歌手の歌声を生成できる音声生成AI(以下「特化型音声生成AI」という)を作成した。この特化型音声生成AIは、以下のような機能①~⑤を備えている。
 ① 特定の歌手名と、既存またはオリジナルの歌詞・メロディーを入力して当該歌手の歌唱音声を生成する。
 ② 特定の歌手名と、既存の楽曲名を入力して当該歌手の歌唱音声を生成する。
 ③ 特定の歌手名のみ入力して、自動生成された歌詞・メロディーを歌わせた歌唱音声を生成する。
 ④ 特定の歌手の既存楽曲の実演データを入力して、同じ曲を当該歌手の声で少し違う雰囲気で歌った歌唱音声を生成する。
 ⑤ 特定の歌手の既存楽曲の実演データと、既存またはオリジナル歌詞・メロディーを入力して、当該歌手の歌唱音声を生成する。
 β社は、新曲を制作するに際して、特化型音声生成AIの機能①を用いて、有名歌手Xの名前とオリジナルの歌詞・メロディーを入力し、ある有名歌手Xの歌唱音声を生成して公開・販売した。当該Xの歌唱音声は、メロディー・歌詞内容としてはこれまでXが歌唱したことがないものであったが、声はXそのものであった。β社の行為は何らかの権利侵害に該当するか。

(4) β社が、「有名歌手の声を簡単に再現可能。あなたの手元で、あらゆる声であらゆる歌を。」という謳い文句で特化型音声生成AI及び音声データセットを販売した場合、何らかの権利侵害に該当するか。

(5) β社が販売した特化型音声生成AIを購入したAI利用者γが、同AIの機能①~⑤を利用して、有名歌手Yの様々な歌唱音声を生成して販売した。AI利用者γ及びβ社の責任をどう考えるべきか。

2 分析の視点

(1) 総論

 設例のように人の「声」をAI開発や、AIで生成する合成音声(以下この合成音声を「AI実演」と呼ぶことがあります)として利用した場合、どのような法的な問題が生じるのでしょうか。あるいは、適法に当該「声」を利用したければ誰からどのような許諾を貰う必要があるのでしょうか。
 この問題を考えるには、①人の「声」に関する法的権利は何か、と②当該人の「声」が利用される場面を組み合わせて考える必要があります。
 ①の人の「声」に関する法的権利としては、「著作権」「著作隣接権」「パブリシティ権」の3つ(後述しますが、人の「声」について必ずこの3つの権利が常に発生するわけではありません)があります。
 また、②当該人の「声」が利用される場面としては、AIの開発・学習段階での利用と、AI生成物(人工音声)の生成・利用段階での利用があります。

(2) 人の「声」に関する法的権利

 人が何かをしゃべったり演じたり歌ったりした場合、当該「声」に関してどのような権利が発生するのでしょうか。ここで、ざっくりと「人の声」を「何をしゃべっているか」と「どのような音声でしゃべっているか」に分けてみます。
 「何をしゃべっているか」は声の「中身」の問題、「どのような音声でしゃべっているか」は声の「音」の問題です。同じセリフを違う声優さんが演じた場合、「何をしゃべっているか」は同一ですが、「どのような音声でしゃべっているか」は別だということになります。
 そして、現行法上「人の声」について発生する可能性のある法的な権利は以下の3つです。
 

① 著作権
② 著作隣接権(本稿では著作隣接権のうち「実演家の権利」のみを検討対象とします。また、ワンチャンス主義の例外(著作権法91条2項、同92条2項等)は考慮しません)。)
③ パブリシティ権

 このうち①の著作権は、声の「中身」に関する権利、③のパブリシティ権は、声の「音」に関する権利、②の著作隣接権(実演家の権利)は両者にまたがった権利です2人の声の利用について個人情報保護法上の問題がないかとよく聞かれますが、そもそも、当該声によって当該声を発している特定の個人を識別することが出来ないことから、人の声は「個人情報」に該当しません。したがって、人の声の利用について個人情報保護法上の規制はかかりません。ただし、人の声の特徴量を抽出して特定の個人を識別できるように加工した特徴量データについては個人情報(個人識別符号)に該当します(個人情報保護法2条2項、個人情報施行規則1条1項ニ)。


 

*「声」とパブリシティ権について
 パブリシティ権とは、人の氏名、肖像等が有する顧客吸引力を排他的に利用する権利として最判平成24年2月2日(民集66巻2号89頁、いわゆるピンク・レディー事件)により認められた法的権利です。
 具体的には、ピンク・レディー事件最高裁判決(以下「ピンク最判」といいます。以下の各類型の番号は筆者が付しました)は、①氏名,肖像等それ自体を独立して鑑賞の対象となる商品等として使用し,②商品等の差別化を図る目的で氏名,肖像等を商品等に付し,③氏名,肖像等を商品等の広告として使用するなど,「専ら氏名,肖像等の有する顧客吸引力の利用を目的とするといえる場合」には、パブリシティ権侵害として不法行為上違法になると判示しました(以下、ピンク最判が示した3種類の侵害類型を「侵害三類型」といいます)。
 そして、上記ピンク最判が示した三類型にいう「肖像等」には、本人の「声」を含むとされています(ピンク最判の調査官解説(最高裁判所判例解説・民事篇平成24年度(上)18頁)は「本判決の3類型にいう「肖像等」とは、本人の人物識別情報をいうものであり、たとえば、サイン、署名、声、ペンネーム、芸名等を含むものである。」としています。 )
 したがって、声優や歌手の「声」について、① 声それ自体を独立して鑑賞の対象となる商品等として使用し,② 商品等の差別化を図る目的で声を商品等に付し,③ 声を商品等の広告として使用するなど,専ら声の有する顧客吸引力の利用を目的とするといえる場合には声優・歌手が有するパブリシティ権を侵害することとなります。
 すなわち、当該「声」が、実在の声優・歌手の声であると認識できれば「何をしゃべっているか」とは無関係にパブリシティ権が発生し、当該声優・歌手に無断で当該声を「侵害三類型」で利用すれば、パブリシティ権侵害になるのです。

 ただ、全ての人の声について、必ずこの3つの権利が発生するわけではありません。
 たとえば、著作物に該当しないようなありふれた内容をしゃべっている場合、①の著作権は発生しませんし、「著作物等を演じている」声でなければ、②の著作隣接権は発生しません。さらに「パブリシティ権」は「声」が顧客吸引力を持つ著名人にしか発生しませんので、一般人には発生しません。
 少し具体例を見てみましょう。

① 一般人のありふれた日常会話の音声

 声の「中身」としてはありふれた日常会話ですので①著作権は発生しませんし、著作物等を演じているわけではないので②著作隣接権も発生しません。さらに一般人の声なので③パブリシティ権も発生しません。なお、立法論としては、著名人ではない一般人の「声」に関して「声の人格権」を認めるべきという説3荒岡 草馬. 篠田 詩織. 藤村 明子. 成原 慧「声の人格権に関する検討」情報ネットワーク・ローレビュー22巻(2023年)はありますが、現行法上はそのような「声の人格権」は法令上も裁判例上も認められていません。

② 一般人がある小説を朗読した音声

 声の「中身」としては、小説という著作物の朗読なので①著作権があります(この「著作権」は当該小説の著者が保有している権利であり、朗読者に発生する権利ではありません)。また、この場合、「朗読」という「実演」ですので、②朗読者に著作隣接権(実演家の権利)が発生します。しかし、一般人の声には顧客誘引力はありませんので、声のパブリシティ権は発生しません。

③ プロの声優によるアニメ作品内のキャラクター音声

 声の「中身」としては、アニメのセリフという著作物の実演なので①著作権があります(この「著作権」は当該セリフの著作者(あるいは著作権者)が保有している権利であり、声優が有する権利ではありません)。また、この場合、「当該キャラクターとしてセリフを演じる」という「実演」ですので、②プロの声優に著作隣接権(実演家の権利)が発生しますし、プロの声優の「声」ですから、当該「声」について当該声優にパブリシティ権が発生します。

 したがって、人の「声」の利用についてどのような法的権利が問題になるかは、ケースバイケースであるということになります。

(3) 当該「声」の利用場面

 パブリシティ権に限らず、著作権などの知的財産権等とAI利用については、場面を「開発・学習段階」と「生成・利用段階」に分けて考えるとわかりやすいので、ここでもその2つに分けて検討します。

 もっとも、人の「声」には、先ほど説明したように複数の法的権利が含まれているため、場合分けはかなり複雑になります。
 たとえば、①歌手Xの、曲Aの歌唱音声データと、②異なる歌手名Yを入力すると、「Yの声で楽曲Aの歌唱音声データを生成できる」音声生成AIを考えてみましょう。
 これを法的権利の面から見ると以下のとおりとなります。

 つまり、入力データは、①歌詞・メロディーA(著作権で保護)②歌手XのA実演(著作隣接権で保護)③歌手Xの「声」(パブリシティ権で保護)の3つに分解できますので、この入力データを音声生成AIに入力する行為が、①②③に関する各権利を侵害するのかが問題となります。
 一方、出力(生成)データは、①歌詞・メロディーA(著作権で保護?)②歌手YのA実演(著作隣接権で保護?)③歌手Yの「声」(パブリシティ権で保護?)の3つに分解できます。したがって、それら出力(生成)データを生成する行為、生成した出力データを利用(公開や販売)する行為が、①②③に関する各権利を侵害するのかが問題となります。

3 開発・学習段階における「声」の利用

(1) 問題となるパターン

 AIの開発・学習段階における人の「声」の利用は以下の3つのパターンがあります。

① 開発・学習パターン1
 人の声データを収集・蓄積した上で、当該声データを学習用データとして機械学習技術を用いて音声生成AIを作成する行為です。
② 開発・学習パターン2
 人の声データを収集・蓄積・加工して作成した、音声生成AI作成用の学習用データセットを公開・販売する行為です。
③ 開発・学習パターン3
 作成した音声生成AIを公開・販売する行為です。

(2) 開発・学習パターン1(AI開発のための利用行為)

 

 *上図ではひとまとめにして「声データ」としていますが、この中にいくつかの法的権利が含まれている(あるいは含まれていない)ことは前述のとおりです。

 開発・学習パターン1は、AI開発のための学習用データとして人の声データを収集して蓄積・加工・利用する行為です。
 もっとも、このパターンは、特定の人の声を狙い撃ち的に生成できない音声生成AI(以下「汎用的音声生成AI」といいます)を作成するための「声」データの学習行為と、特定の人(特に俳優・声優・歌手等)の声を狙い撃ち的に生成できる音声生成AI(以下「特化型音声生成AI」といいます)のための追加学習なのかを分けて検討する必要があります。なお、本記事でいう「特化型音声生成AI」とは、特定の人物の「声」を狙い撃ちに生成できるAIのことを指しており、特定の既存著作物(メロディーや歌詞、セリフ等)や、特定の人物の実演を狙い撃ちに生成できるAIのことは意味していません。
 そして、特化型音声生成AI開発のための学習行為とは、具体的にはAI開発者が事前学習して公開した大規模な汎用型音声生成AIに、特定の人の声を用いて追加学習する行為です。
 当該追加学習行為をAI開発者以外のAIサービス提供者が行うこともあります(上図)し、AI利用者自身が行うこともあります(下図)。

ア 著作権

 著作物(メロディー・歌詞・セリフ等)が含まれている人の「声」データを利用して音声生成AIを開発する際には、当該著作物との関係で著作権侵害にならないかが問題となりますが、音声生成AIの開発は、著作権法30条の4第2号「情報解析」に該当するため、それに必要な著作物の利用行為は原則として適法です(著作権法30条の4)。
 しかし、著作権法30条の4は、学習対象著作物の利用に際して、当該著作物と表現上の本質的特徴を有するAI生成物を生成する目的(表現出力目的)がある場合には、享受目的が併存しているとして適用されません。
 したがって、音声生成AIモデルの作成に際しても、学習対象となっている特定の著作物(メロディー、歌詞、セリフ等)の表現上の本質的特徴を有するAI生成物を生成する目的(表現出力目的)がある場合には、著作権法30条の4は適用されません。
 一方、学習対象である特定の「著作物」を生成する音声生成AIモデルではなく、学習対象となった特定の「声」を生成するモデル(本記事に言う「特化型音声生成AI」)のための学習については、学習対象著作物の享受目的が併存しているとは言えず、著作権法30条の4は適用され、同条柱書但書にも該当しないと考えます。

イ 著作隣接権

 実演(歌唱・演技等)が含まれている人の「声」データを利用して音声生成AIを開発する行為が、当該実演との関係で著作隣接権侵害にならないかが問題となりますが、著作権法第102条により同30条の4が準用されるため、音声生成AIの開発のための実演の利用行為は著作隣接権侵害に該当しません。
 また、仮に特定の実演を再現する目的があったとしても、著作権のように、即30条の4が適用されないということにはならないと考えます。30条の4は「非享受目的」の著作物の法定利用行為について権利制限規定の対象とする規定ですが、実演の法定利用行為における「享受目的」「非享受目的」とは何かという問題があるからです4上野達弘・奥邨弘司編著『AIと著作権』(勁草書房、2024年)291頁~294頁
 さらに、この点をどのように解釈するとしても、学習対象である特定の「実演」を生成する音声生成AIモデルではなく、学習対象となった特定の「声」を生成するモデル(本記事に言う「特化型音声生成AI」)のための学習については、著作権法30条の4は適用され、同条柱書但書にも該当しないため、著作隣接権の侵害には該当しないと考えます。

ウ パブリシティ権

(ア) 汎用型音声生成AI開発のための利用行為

 汎用型音声生成AIを生成するために、著名人の声データ(歌声、演技音声等)を収集した上でAI学習に用いる行為は、ピンク最判が示した「侵害三類型」のいずれにも該当しないため、パブリシティ権侵害には該当しないと考えます。

(イ) 特化型音声生成AI開発のための利用行為

 著作権侵害においては、学習対象著作物と、表現上の本質的特徴が共通するAI生成物を生成する目的(表現出力目的)での学習については、著作権法30条の4が適用されず、他の権利制限規定が適用されない限り著作権侵害に該当しました。
 では、特定の著名人の「声」を生成できる特化型音声生成AIの開発を目的とした、当該特定著名人の声の利用行為はパブリシティ権侵害に該当するのでしょうか。
 後述するように、生成・利用段階において生成された特定の著名人の声データを「侵害三類型」で利用する行為は当該著名人のパブリシティ権侵害を構成しますが、生成・利用段階における当該パブリシティ権侵害行為とは別に、いわばその「上流」の行為である開発・学習フェーズにおける声データの利用行為が、独立してパブリシティ権侵害に該当するかが問題となります。
① パブリシティ権侵害の判断基準
 この点、ピンク最判は、前述のように、①パブリシティ権侵害に該当する行為として具体的な「侵害三類型」を示し、それに加えて②「・・・・など、専ら肖像等の有する顧客吸引力の利用を目的とするといえる場合」にはパブリシティ権侵害に該当すると判示しました。
 すなわち、同最判は、「侵害三類型」に該当する行為は、類型的に「専ら肖像等の有する顧客吸引力の利用を目的とするといえる場合」に該当するためパブリシティ権侵害に該当するとした上で、それ以外の行為(「など」)であっても、「専ら・・」に該当する場合はパブリシティ権侵害に該当することを示したといえます。
 そのため、ここでは著名人の声データの利用行為が「侵害三類型」に該当するかをまず検討し、該当しなければ、次に「など」(以下「など行為」という。)に該当するかを検討することとします。
 また、ピンク最判は、原審が採用した「総合考慮」説を採用せず、いわゆる「専ら」基準を採用し、具体的な3種類の侵害類型を示しました。
 ピンク最判が、総合考慮説ではなく、いわば三類型列挙説を採用したのは、「肖像等に顧客吸引力を有する者は、社会の耳目を集めるなどして、その肖像等を時事報道、論説、創作物等に使用されることもあるのであって、その使用を正当な表現行為等として受忍すべき場合もあるというべきである」とする判示部分からも明らかなように、表現の自由に対する過度な委縮効果をもたらさないように侵害成立の範囲を明確とするためです5奥邨弘司「パブリシティ権の法的性質と侵害の判断基準」ジュリ1453号(2013年)273頁、中島基至「判解」最判解民事篇平成24年度版38頁、ピンク最判の金築裁判官補足意見参照。
 したがって、ピンク最判が示した「侵害三類型」以外の侵害類型を安易に認めるべきではなく、同判決が「侵害三類型」に付け加えた「など行為」には、「侵害三類型」と違法性において実質的に同一である(「均等」)と評価されるような、極めて例外的な行為のみが該当すると考えるべきです6奥邨弘司「パブリシティ権の法的性質と侵害の判断基準」ジュリ1453号(2013年)273頁、中島基至「判解」最判解民事篇平成24年度版50頁、中島は「など行為」について「(ピンク最判最判時点では)予測できない、将来発生しうる肖像等の利用態様」とする
② 検討
 まず、開発・学習フェーズにおける著名人の声データの利用行為は、それがたとえ特定の著名人の声データを生成することを目的としていたとしても、当該利用行為そのものが「侵害三類型」に直接該当しないことは明らかです。
 問題は、当該利用行為が、「など行為」として「専ら声データの有する顧客吸引力の利用を目的とするといえる場合」に該当するかです。
 「肖像等の利用行為」によって、「当該肖像等の有する顧客吸引力の利用」が生じるためには、原則として当該肖像等を、肖像等の利用者(被侵害者)以外の第三者が知覚する必要があります。そのような第三者による肖像等の知覚がなければ、通常はそもそも「顧客吸引力の利用」が生じようがないからです。
 そして、開発・学習フェーズにおける声データの利用行為は、AI開発者の内部で行われる行為であり、当該利用行為によって、第三者が学習に用いられた特定の著名人の声データを知覚する機会はありません。
 確かに、後述のように、生成・利用段階において生成された特定の著名人の声データを「侵害三類型」で利用する行為は当該著名人のパブリシティ権侵害を構成しますがそれは、当該生成・利用段階における声データの利用行為そのものがパブリシティ権を侵害していることを意味しているに過ぎません。
 一方、当該利用行為と独立した、それ自体で顧客吸引力の利用が生じない開発・学習フェーズでの特定の著名人の声データの利用行為については、「侵害三類型」と違法性において実質的に同一である(「均等」)とまでは評価できず、「など行為」には該当しないと考えます。
 したがって、結論としては、特化型音声生成AI開発のための著名人の声データの利用行為であっても、パブリシティ権侵害に該当しないと考えます。

(3) 開発・学習パターン2(学習用データセットの販売・公開等)


 音声生成AI開発に用いられる学習用データセットの販売・公開行為です。
 このパターンも、汎用型音声生成AI生成に用いられるデータセットか、特化型音声生成AI生成に用いられるデータセットかに分けて考える必要があります。

ア 著作権

 学習用データセットの中には、収集対象になったデータがそのままの形式で、あるいは若干加工した形で含まれているため、当該データセットの公開や提供は、当該DSの中に含まれている著作物やその加工物(二次的著作物)の公衆送信行為や譲渡行為に該当します。したがって当該行為を元のデータ(著作物)の著作権者の承諾なく行うと原則として著作権侵害に該当します。
 しかし、著作権法30条の4は「情報解析(略)の用に供する場合」には「その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる」と定めているため、他人のために学習用データセットを作成することや、同データセッとの公開も同条により適法となります7 文化庁「デジタル化・ネットワーク化の進展に対応した柔軟な権利制限規定に関する基本的な考え方(著作権法30条の4,47条の4及び47条の5関係)」 問11
 これは、特化型音声生成AI開発のための学習用データセットの公開にも同じくあてはまり、そのようなデータセットについても販売や公開は著作権侵害には該当しません。
 本記事での特化型音声生成AIは、学習対象である「著作物」を生成するモデルではなく、学習対象となった「声」を生成するモデルであるため、学習対象著作物の享受目的が併存しているとは言えず、著作権法30条の4は適用されますし、同条柱書但書にも該当しないためです。
 もちろん、特定の著作物(歌詞・メロディー・セリフなど)を狙い撃ち的に生成することができるAI(たとえば、「既存楽曲の曲名」を指定すると、当該楽曲が生成されるAIなど)については、当該AI生成のための学習用データセットの公開については30条の4は適用されず、他の権利制限規定が適用されない限り著作権侵害に該当します。

イ 著作隣接権

 著作権法第102条により同30条の4が準用されるため、音声生成AI(特化型音声生成AIを含む)の開発のための学習用データセットの公開・販売行為は著作隣接権侵害に該当しません。

ウ パブリシティ権

(ア) 汎用型音声生成AI生成のための学習用データセットの販売

 学習用データセット中には、著名人の「声」が、そのまま視聴できる形式で含まれています。
 この点を重視し、多数の有名人の顔写真が含まれた写真集と同様に考えると、学習用データセットの販売行為についても、ピンク最判の侵害三類型のうち「肖像等それ自体を独立して鑑賞の対象となる商品等として使用」する場合に該当するとも考えられます。
 しかし、ピンク最判は「肖像等それ自体を独立して鑑賞の対象となる商品等として使用」(下線部筆者)としています。
 学習用データセットは、通常はAI生成のために利用されるに過ぎなく、確かにデータセット内の肖像や声を鑑賞しようと思えば鑑賞はできますが、通常は「独立した」鑑賞の対象とはなりません。
 したがって、汎用型音声生成AI生成のための、複数の著名人の肖像等を含んだ学習用データセットの販売・公開はパブリシティ権侵害には該当しないと考えます8 ただし、販売に際して著名人の「氏名」や「肖像」を広告宣伝に用いて販売した(例:「●●の肖像や声を生成するためのデータセットです」等)場合は、当該「氏名」や「肖像」の当該広告宣伝での利用行為がパブリシティ権侵害になる可能性があります

(イ) 特化型音声生成AI生成のための学習用データセットの販売

 一方、特定の著名人の「声」を生成することができる特化型音声生成AIを生成するための、当該特定著名人の「声」だけを収集した学習用データセットについては別の考慮が必要だと考えます。
 まず、学習用データセットに含まれる「声」の「鑑賞」態様は2種類あります。
 1つは、先ほど説明した、学習用データセットに含まれる「声」そのものを直接視聴する行為ですが、特定著名人の「声」だけを収集した学習用データセットについては、先ほどの(ア)と異なり、当該「声」を独立して鑑賞する目的で購入する可能性は十分考えられます。
 もう1つの「鑑賞」態様は、学習用データセットを購入した者が、当該データセットを用いて音声生成AIを生成して、当該モデルを利用して特定の著名人の「声」を生成して当該「声」を鑑賞する態様です。
 特化型音声生成AI生成のための学習用データセットはそのような態様での鑑賞目的のために利用されることも十分に考えられます。
 以上のことから、特化型音声生成AI生成のための学習用データセットの販売は、ピンク最判の侵害三類型のうち「肖像等それ自体を独立して鑑賞の対象となる商品等として使用」に該当し、パブリシティ権侵害に該当すると考えます9 例えば、特許権については、特定の特許発明について、「その物の生産にのみ用いる物」「その物の生産に用いる物」(物の発明に関する特許の場合)や、「その方法の使用にのみ用いる物」「その方法の使用に用いる物」(方法の発明に関する特許の場合)の精算・販売等が特許権侵害(間接侵害)になる旨の明文規定(特許法101条)があります。パブリシティ権侵害における「特化型モデル生成のための学習用データセット」や「特化型モデル」の販売行為は当該間接侵害類似の行為と言えます。

(4) 開発・学習パターン3(学習済みモデルの販売・公開等)


 音声生成AIそのものの販売・公開行為です。

ア 著作権

 学習用データセットと異なり、学習済みモデルの中に、学習に用いられたデータ(著作物)の創作的表現が残っていることは通常ありません。
 したがって、学習済みモデルは学習に用いられた著作物の二次的著作物とは評価できず、原則として、学習済みモデルの公開・譲渡行為そのものが著作権侵害に該当することはないと考えられます。
 これは、特化型音声生成AIの公開にも同じくあてはまり、そのようなAIの販売や公開は著作権侵害には該当しないと考えます。
 先ほど学習用データセットの部分で述べたように、本記事での特化型音声生成AIは、学習対象である「著作物」を生成するモデルではなく、学習対象となった「声」を生成するモデルであるため、学習対象著作物の享受目的が併存しているとは言えず、著作権法30条の4は適用されますし、同条柱書但書にも該当しないためです。
 もちろん、特定の著作物(歌詞・メロディー・セリフなど)を狙い撃ち的に生成することができるAI(たとえば、「既存楽曲の曲名」を指定すると、当該楽曲が生成されるAIなど)については、学習データである著作物の創作的表現が当該学習済モデルに残存しているとして、当該モデルが法的には学習データである著作物の複製物であると評価される場合も考えられます(考え方30頁)。
 その場合は、当該学習済みモデルの譲渡は、他の権利制限規定が適用されない限り著作権侵害に該当することとなります(表現出力目的があることから30条の4も適用されません)。

イ 著作隣接権(実演家の権利)

(ア)原則

 音声生成AIの中に、学習に用いられたデータ(実演)そのものが残っていることは通常ありません。
 したがって、音声生成AIの作成や公開は学習に用いられた実演の「録音」(著作権法2条1項13号)や「録音物」の譲渡(同法95条の2)には該当せず、学習済みモデルの公開・譲渡行為そのものが著作権隣接権侵害に該当することはないと考えられます。

(イ)例外

 では、特定の歌手の特定の実演に類似したAI実演を生成できるような特殊な学習が行われた場合はどうでしょうか。
 先ほど著作権については「当該学習済モデルが、学習データである著作物と類似性のある生成物を高確率で生成する状態にある等の場合」は「当該モデルが法的には学習データである著作物の複製物であると評価される場合も考えられます(考え方30頁)」としました。
 これを実演家の権利に引き直すと「当該学習済モデルが、学習データである実演データと類似性のある生成物(AI実演)を高確率で生成する状態にある等の場合」に、「当該モデルが法的に学習データである実演の録音物と言えるか」という問題となります。
 この問題は、そもそも、AI(学習済みモデル)によって新たにAI実演を作成することが、学習用データに用いられた実演の実演家の著作隣接権を侵害するか(当該学習済みモデルによってAI実演を作成することが学習用データである当該実演家の実演の「録音(法2条1項13号)」といえるか)」から考える必要があります。
 その点が否定されるのであれば、いくら当該学習済モデルが、学習データである実演データと類似性のある生成物を高確率で生成する状態にあったとしても、当該モデルは法的に学習データである実演の録音物とはいえないからです。
 この点については後ほど検討します。

ウ パブリシティ権

(ア) 汎用型音声生成AIの販売・公開等

 汎用型音声生成AIは、特定の著名人の声の生成を目的としないAIですから、当該AIの販売行為を、学習に用いられた各著名人の「肖像等」の「侵害三類型」行為に該当するとは評価できません。
したがって汎用型音声生成AIの販売・公開等は、各著名人のパブリシティ権侵害には該当しないと考えます。

(イ) 特化型音声生成AIの販売・公開等

 まず、特定の著名人の声を自由に高精度に生成できる特化型音声生成AI自体は、ピンク最判が言うところの「肖像等」に直接該当しないことは明らかです。この点は学習用データセットの販売と明確に異なる点です。
 したがって、特化型音声生成AIの販売・公開等は、侵害三類型に直接には該当しません。
 もっとも、特化型音声生成AIを販売・公開する際には、通常は当該特化型音声生成AIを利用して声を生成できる特定の著名人をアピールすることが通常と思われますし、かつ当該AIを利用すれば、実際に特定著名人の声を自由に生成できることからすると、まさに、当該AIの購入者は、特定著名人の声を鑑賞できることに惹かれて当該AIを購入していると言えるのであって、そのようなAIの販売行為は「専ら肖像等の有する顧客吸引力の利用を目的とする行為」にほかなりません。
 したがって、特化型音声生成AIの販売行為は、「侵害三類型」と違法性において実質的に同一(「均等」)である「など行為」に該当し、当該特定著名人のパブリシティ権侵害に該当すると考えます。
 ピンク最判がパブリシティ権侵害の成立要件について厳格な要件を示したのは、表現の自由に対する過度な委縮効果をもたらさないように侵害成立の範囲を明確とするためですが、その観点からも、特化型音声生成AIの販売についてパブリシティ権侵害に該当すると解したとしても、表現の自由(特定の著名人の肖像等を利用する自由)に対する過度な委縮効果をもたらす可能性は低いでしょう。
 なお、先ほど、パターン1において、特化型音声生成AIの開発・学習における特定著名人の声の利用行為は「など行為」に該当しないとしましたが、AI開発者内部における学習行為と、特化型音声生成AIの販売行為とでは、顧客吸引力の利用のされ方が異なることから、矛盾はありません。

5 まとめ

・ 人の「声」をAI開発や、AI実演として利用する場合は、①人の「声」に関する法的権利は何か、と②当該人の「声」が利用される場面を組み合わせて考える必要がある。
・ 人の「声」に関する法的権利は、著作権・著作隣接権・パブリシティ権の3つ。
・ 「開発・学習段階」における「声」の利用は3つのパターンに分けられるが、汎用型音声生成AIと特化型音声生成AIに分けて考えるのが重要。

歌手・声優の「声」と生成AI(2)に続く。

【脚注】

  • 1
    本記事で検討する設例においては、いずれも対象となるゲームデータや楽曲データの利用について当事者間に契約は存在しないものとします。
  • 2
    人の声の利用について個人情報保護法上の問題がないかとよく聞かれますが、そもそも、当該声によって当該声を発している特定の個人を識別することが出来ないことから、人の声は「個人情報」に該当しません。したがって、人の声の利用について個人情報保護法上の規制はかかりません。ただし、人の声の特徴量を抽出して特定の個人を識別できるように加工した特徴量データについては個人情報(個人識別符号)に該当します(個人情報保護法2条2項、個人情報施行規則1条1項ニ)。
  • 3
    荒岡 草馬. 篠田 詩織. 藤村 明子. 成原 慧「声の人格権に関する検討」情報ネットワーク・ローレビュー22巻(2023年)
  • 4
    上野達弘・奥邨弘司編著『AIと著作権』(勁草書房、2024年)291頁~294頁
  • 5
    奥邨弘司「パブリシティ権の法的性質と侵害の判断基準」ジュリ1453号(2013年)273頁、中島基至「判解」最判解民事篇平成24年度版38頁、ピンク最判の金築裁判官補足意見参照。
  • 6
    奥邨弘司「パブリシティ権の法的性質と侵害の判断基準」ジュリ1453号(2013年)273頁、中島基至「判解」最判解民事篇平成24年度版50頁、中島は「など行為」について「(ピンク最判最判時点では)予測できない、将来発生しうる肖像等の利用態様」とする
  • 7
    文化庁「デジタル化・ネットワーク化の進展に対応した柔軟な権利制限規定に関する基本的な考え方(著作権法30条の4,47条の4及び47条の5関係)」 問11
  • 8
    ただし、販売に際して著名人の「氏名」や「肖像」を広告宣伝に用いて販売した(例:「●●の肖像や声を生成するためのデータセットです」等)場合は、当該「氏名」や「肖像」の当該広告宣伝での利用行為がパブリシティ権侵害になる可能性があります
  • 9
    例えば、特許権については、特定の特許発明について、「その物の生産にのみ用いる物」「その物の生産に用いる物」(物の発明に関する特許の場合)や、「その方法の使用にのみ用いる物」「その方法の使用に用いる物」(方法の発明に関する特許の場合)の精算・販売等が特許権侵害(間接侵害)になる旨の明文規定(特許法101条)があります。パブリシティ権侵害における「特化型モデル生成のための学習用データセット」や「特化型モデル」の販売行為は当該間接侵害類似の行為と言えます。