人工知能(AI)、ビッグデータ法務 著作権
AIと著作権【第13回】RAG・ロングコンテクストLLMと著作権侵害(後編)
2025年7月にSTORIA法律事務所の柿沼・杉浦の共著で日本加除出版から書籍「AIと法 実務大全」を出版します。
本書は650頁超というボリュームでありながらも、AI開発や利活用に問題となる点を「網羅的」に解説するものではありません。あくまで、現場の方がAI開発や利活用を行う際に、法律的によく問題となる論点とその解決手法に照準を絞っています。その分個々の論点については、最先端の議論を下敷きにしつつ実務的に相当深掘りした記述となっています。
書籍の出版に先立ち、その一部である「第2章 生成AI開発・提供・利用と著作権」について日本加除出版からご了解を得て、ブログで連載記事として先行公開することとしました。
「一部」といっても記事合計13万字を越えるボリューム(ほぼ新書1冊分!)であり、ブログ公開を快諾いただいた日本加除出版には感謝しかありません。
この連載記事を読んで興味が湧いた方は是非書籍をお買い求めください!
連載「AIと著作権」全18回の目次を表示
- 第1回 プレイヤー・フェーズ・提供形態による法的整理
- 第2回 AI学習段階での著作物利用はどこまで許されるか?──著作権法第30条の4の射程
- 第3回 学習用データとして“何を使ってはいけないか”を見極める~学習対象の観点からの検討~
- 第4回 海賊版や学習禁止表示がされている著作物をAI学習に利用することができるか
- 第5回 開発・学習段階での著作権侵害行為が発生した場合、侵害者はどのような責任を負うか
- 第6回 生成・利用段階では何が問題になるのか?
- 第7回 類似AI生成物の「生成」における依拠性をどのように考えるか~複雑な論点を解きほぐす~
- 第8回 類似AI生成物の「生成」における行為主体性~ロクラクⅡ事件判決をベースに徹底的に考える~
- 第9回 生成された類似AI生成物を利用すると著作権侵害?
- 第10回 類似AI生成物の「送信」は誰の責任?──クラウド提供型AIにおける著作権侵害リスクを検証する
- 第11回 生成・利用段階で著作権侵害行為が認められた場合、権利者は何を請求できるのか
- 第12回 RAG・ロングコンテクストLLMと著作権侵害(前編)
- 第13回 RAG・ロングコンテクストLLMと著作権侵害(後編)
- 第14回 RAGシステムのための既存著作物の蓄積・入力などは著作権侵害になるのか
- 第15回 RAGとAI利用者の責任~入力・送信・出力のそれぞれで何が問われるか?~
- 第16回 AI生成物に著作権はあるのか?~著作物性と“創作的寄与”の最新実務論~
- 第17回 その行為に日本著作権法は適用されるか~準拠法の問題~
- 第18回 で、結局何に気をつければよいのか~AI開発者・AI提供者・AI利用者それぞれの注意事項~
🔊 音声で内容を復習する
この記事の内容を、対話形式の音声で聞くことができます。
▶ 対話形式で聞く
※ 対話形式の音声はNotebookLMを利用して自動的に作成したものです。正確な内容は記事本文をご参照ください。
Contents
(4) タイプ1

図72
ア 既存著作物の蓄積・入力行為
RAGにおける、既存著作物の蓄積・入力行為が適法化される根拠として現行法上考えられるのは、30条の4及び47条の5第2項です。もっとも、30条の4の方が適用要件が緩いため、まずは30条の4の適用可否を検討し、適用がない場合は47条の5の適用可否を検討することとなります。
(ア)行為主体性
タイプ1の場合、既存著作物の蓄積・入力行為を物理的に行っているのはAI提供者です。
したがって、既存著作物の蓄積・入力行為の行為主体はAI提供者であり、仮に当該蓄積・入力行為について法30条の4などの権利制限規定の適用がなければ、著作権侵害の責任を負うのはAI提供者自身です。
タイプ1における既存著作物の蓄積・入力行為について、AI利用者が著作権侵害の行為主体として責任を負うことはありません。
(イ) 権利制限規定
RAGにおける入力対象文書の解析及びAI生成物の生成行為は、「情報解析」(著作権法30条の4第2号)に該当するため1 RAG における入力対象文書の解析及びAI 生成物の生成行為は、いわゆるIn-Context Learning(ICL)であり、機械学習技術を用いて、AI のパラメータを物理的に更新する行為(いわゆる「学習」行為)ではない。もっとも、著作権法にいう「情報解析」(30 条の4第2号)が多種多様な情報処理を包含する広範な概念であること、また、ICL においては、モデル内のパラメータの物理的な更新行為は行われないが、見方を変えると、あたかもパラメータを変えて学習した場合と同様に、指示や今生成しているデータに合わせて、パラメータを一時的に更新し、モデルを急速に適応させているとみなすことができるとされていることからすると、ICL も「情報解析」に該当すると考えられる。、それらの情報解析に必要と認められる限度において、いずれの方法によるかを問わず、法30条の4により著作物を利用することができます230 条の4においては、権利制限の対象となる利用行為について「いずれの方法によるかを問わず、利用することができる。」と規定されていることから、他人による情報解析のためのデータセット作成行為や、情報解析目的で収集したデータセット等を情報解析に供する第三者に譲渡したり、公衆送信をすることも可能と解釈されている(松田政行編『著作権法コンメンタール別冊 平成30 年・令和2年改正解説』(勁草書房、2022)17 頁参照) 。
したがって、タイプ1のRAGのための著作物の蓄積・入力行為には法30条の4が適用され、原則として適法です3「考え方」21 頁〜22 頁 (図73)。

図73
(ウ) 例外
もっとも、著作権法30条の4は、既存著作物の享受目的がない行為を権利制限規定の対象行為とし、同条各号該当行為はそのような行為の典型的なものとして例示された行為です。そのため、すでに説明をしたとおり、同条に基づく著作物の利用行為において、非享受目的と同時に享受目的が併存する場合には同条は適用されません。
したがって、RAGにおいて、蓄積・入力された既存著作物の享受目的が併存する場合、具体的には、「蓄積・入力された既存著作物の創作的表現の全部又は一部を出力する目的がある場合」(表現出力目的がある場合)には著作権法30条の4を適法化根拠とすることができません。
RAGに関する、以上の原則と例外については、「考え方」21頁~において、以下のように明確化されました(強調部筆者)4 また、RAG に限らず、生成指示のための生成AI への著作物の入力についても同様に法30 条の4の適用が考えられる旨が「考え方」37 頁に記載されている。。
ウ 検索拡張生成(RAG)等について
○ 検索拡張生成(RAG)その他の、生成 AI によって著作物を含む対象データを検索し、その結果の要約等を行って回答を生成する手法(以下「RAG 等」という。)については、これを実装しようとする場合、開発・学習段階において、生成 AI 自体の開発に伴う学習のための著作物の複製等のほかに、既存のデータベースやインターネット上に掲載されたデータに含まれる著作物の内容をベクトルに変換したデータベースを作成する等の行為に伴う著作物の複製等が生じ得る(上記ア(ウ)・複製⑤)。
このような場合、既存のデータベースやインターネット上に掲載されたデータが著作物を含まないものであれば著作権法上の問題は生じない。また、既存のデータベースやインターネット上に掲載されたデータに著作物が含まれる場合でも、RAG 等に用いられるデータベースを作成する等の行為に伴う著作物の複製等が、回答の生成に際して、当該データベースの作成に用いられた既存の著作物の創作的表現を出力することを目的としないものである場合は、当該複製等について、非享受目的の利用行為として法第 30条の4が適用され得ると考えられる。
他方、既存のデータベースやインターネット上に掲載されたデータに著作物が含まれる場合であって、著作物の内容をベクトルに変換したデータベースの作成等に伴う著作物の複製等が、生成に際して、当該複製等に用いられた著作物の創作的表現の全部又は一部を出力することを目的としたものである場合には、当該複製等は、非享受目的の利用行為とはいえず、法第 30 条の4は適用されないと考えられる。
(エ) 「表現出力目的がない場合」とは
したがって、問題となるのは「蓄積・入力の対象となった既存著作物の創作的表現の全部又は一部を出力する目的(表現出力目的)があるか」です。表現出力目的の有無により、RAGの適法・違法が左右されますので、この点は非常に重要なポイントです。
RAGにおける表現出力目的の有無の問題は、一般化すると「情報解析」(30条の4第2号)の際に、情報解析対象著作物の享受目的があるかという問題ですから、開発・学習段階における「学習対象著作物の表現出力目的がある場合とはどういう場合か」とパラレルな問題です。
したがって、「学習目的による制限」において述べたことがそのままあてはまります5 ただし、生成・利用段階においては、開発・学習段階よりAI 生成物の生成に、より「近い」段階での行為であるため、既存著作物の入力行為に表現出力目的が推認されることが、より多くなるとする指摘もある(金子敏哉「生成AI とせいせいしない著作権法」法学セミナー828 号(2024)57 頁)。。
具体的には、以下の場合には表現出力目的がないと考えられます。
① そもそも蓄積・入力対象著作物と創作的表現が共通した生成物が生成されていない場合
② 蓄積・入力対象著作物と創作的表現が共通した生成物が生成されることがあるが、そのような事態が著しく頻発しない場合
③ AI提供者が侵害物の生成を抑止するための実効的な技術的手段(フィルタリング等)を講じている場合
以下具体的に検討します。
(ⅰ) そもそも蓄積・入力対象著作物と創作的表現が共通した生成物が生成されていない場合
当然のことではありますが、① そもそも蓄積・入力対象著作物と創作的表現が共通した生成物が生成されていない場合は「表現出力目的」がないことになります。
具体的には以下のようなケースです。
① 出力において、蓄積・入力された既存著作物の書誌情報(書籍の場合)やリンク(ウェブページの場合)しか表示されない場合
② 出力において、蓄積・入力された既存著作物内の事実やアイデア等のみが表示される場合
これらの場合はいずれも「蓄積・入力された既存著作物の創作的表現の全部又は一部を出力する目的がある場合」に該当しませんので、30条の4が適用され適法となります。
上記①は理解が容易だと思いますが、②は少し説明が必要でしょう。
RAGは、あらかじめ、検索・生成に必要となる外部知識を蓄積し、その中から必要としている事実や知識を検索し、それらを整理した出力物を生成することを目的としています。
そのためRAGにおいては、入力された既存著作物をそのまま出力する(蓄積された既存著作物の表現上の本質的特徴を持ったAI生成物を生成する)目的がある場合だけではなく、「要するにどういうことか」、言い換えれば入力された既存著作物内の事実やアイデアのみを引っこ抜いて利用する目的があるケースも相当存在します。
例えば、以下のような事例を考えてみましょう。
【事例1】
ソフトウェア開発会社のプロジェクトマネージャーである鈴木さんは、新規プロジェクトの企画立案に頭を悩ませていた。過去の類似プロジェクトの成功と失敗の要因を分析するため関連書籍や関連するWebページを読み込みたいが、一つ一つ目を通すのは現実的ではなかった。
そこで、鈴木さんは定評ある書籍や信頼性の高いWebページを厳選してデータベース化した上でRAGの仕組みを利用して「過去の類似プロジェクトの成功と失敗の要因をそれぞれ3つずつ教えて」と質問した。
出力結果として「成功要因は、明確な目標設定、チームメンバー間の密なコミュニケーション、リスク管理の徹底。失敗要因は、要件定義の曖昧さ、スケジュール管理の甘さ、顧客とのコミュニケーション不足」と表示された。
当該出力結果は、RAGにおいて鈴木さんが収集した書籍の記述の、ある部分とほぼ一致していた。
【事例2】
あるゼネコンの設計部門の山本さんは、新しい建材の使用を検討していた。しかし、その建材に関する詳細な情報や過去の使用事例を調べるには、膨大な量の仕様書や技術資料を読み込む必要があった。
そこで、山本さんは、それらの仕様書や技術資料をデータベース化した上でRAGの仕組みを利用して、「●●(ある建材)の特性、注意点、過去の使用事例を教えて」と質問した。
出力結果として「この建材は耐火性・耐久性に優れているが、施工時の温度管理に注意が必要。過去の事例では、商業施設やマンションの外壁に使用され、高い評価を得ている」と回答した。さらに、詳細な技術資料や過去の施工事例のリンクも出力された。
当該出力結果は、山本さんが収集したある資料内の記述とほぼ一致していた。
②の「出力において、蓄積・入力された既存著作物内の事実やアイデア等のみが表示される場合」とは具体的にはどのような意味なのでしょうか。
この具体的意味は、蓄積・入力された既存著作物に含まれている具体的表現と、表示・送信内容に含まれている具体的表現を比較した場合において、後者が前者の「複製」「翻案」に該当しないことを意味しています。
言語の著作物の「翻案」該当性の要件について判断したのは江差追分事件(最一小判平成13年6月28日民集55巻4号837頁)です。
同最高裁判決においては、「要旨2」として「既存の著作物に依拠して創作された著作物が、思想、感情若しくはアイデア、事実若しくは事件など表現それ自体でない部分又は表現上の創作性がない部分において、既存の著作物と同一性を有するにすぎない場合には、翻案には当たらないと解するのが相当である。」と判示されています。
つまり、たとえAI生成物がAIに入力された既存著作物に類似していたとしても、似ている部分が①思想、感情もしくはアイデア、②事実もしくは事件、③表現上の創作性がない部分(例:ありふれた表現)である場合は既存著作物の「翻案」には該当しない、ということです。
上記事例1、2においては、出力されているのは「過去の類似プロジェクトの成功・失敗要因」というアイデアあるいは事実(事例1)、及び「ある建材の特性、注意点、過去の使用事例」という事実(事例2)であり、その部分が仮に蓄積・入力された既存著作物内の表現と類似していたとしても、「そもそも蓄積・入力対象著作物と創作的表現が共通した生成物が生成されていない場合」に該当することとなります。
したがって、事例1,2における既存著作物の蓄積・入力行為には著作権法30条の4が適用され、適法となります。
(ⅱ) 蓄積・入力対象著作物と創作的表現が共通した生成物が生成されることがあるが、そのような事態が著しく頻発しない場合
「表現出力目的」というのは主観的な要素であることと、また、まだ生じていない表現出力行為を行う目的があったかを問題にするため、一般的にはその立証が難しいといえます。
そのため、実際には、「表現出力目的」の存在を推認させるような客観的な事実(間接事実)があるかを検討することになります6 「考え方」20 頁脚注23。なお、「考え方」の同部分の記載は「開発・学習段階」における情報解析に関する記載であるが、RAG のような「生成・利用段階」における情報解析についても同じく当てはまると考える(以下の脚注について同じ)。。
まず、RAGの出力段階において蓄積・入力対象著作物と創作的表現が共通した生成物が生成される事例があるという事実だけでは、開発・学習段階における享受目的の存在を推認することまではできません7「考え方」21 頁 。
生成AIの技術的な特質から、そのような事態を完全に防止することは困難であり、結果としてそのような事態が生じたとしても、「表現出力目的」がないこともあるからです。
一方、RAGの出力段階で「蓄積・入力された著作物と創作的表現が共通した生成物の生成が著しく頻発するといった事情」があれば、「表現上出力目的」が推認されます8「考え方」21 頁 。
(ⅲ) サービサーが侵害物の生成を抑止するための実効的な技術的手段(フィルタリング等)を講じている場合
また、AI提供者が、侵害物の生成を抑止するための実効的な技術的手段(フィルタリング等)を講じている場合、当該AI提供者の行う著作物利用行為が、非享受目的である(=表現出力目的がない)ことを推認させる事情となり得ます9「考え方」20 頁脚注22 。表現出力目的があるのであれば、そのような技術的手段を講じるはずがないからです。
(オ) 30条の4の各要件の充足性
表現出力目的がない場合は、30条の4の各要件を満たせば、既存著作物の蓄積・入力行為は適法となるため、特に問題となる要件に限定して検討します。
(ⅰ) 「その必要と認められる限度において」
「その必要と認められる限度において」とは、「情報解析等に客観的に必要と認められる範囲内」を意味し、ある既存著作物の利用が客観的に必要と認められる範囲内かどうかについては、当該利用の目的と利用態様に応じて個別具体的に判断されるものとされています10松田政行編『著作権法コンメンタール別冊 平成30 年・令和2年改正解説』(勁草書房、2022)29 頁 。
既存著作物の蓄積・入力行為のうち、「入力行為」を行わなければ情報解析は不可能であることから「入力行為」が「その必要と認められる限度において」に該当することは明らかです。
一方「蓄積行為」については、あらかじめ蓄積せず、検索のたびに既存著作物を電子データ化して利用することも一応可能であることからすると、当該蓄積行為は情報解析のために「必須」とまでは言えないでしょう。もっとも、既存著作物の蓄積を行わずにRAGを行うことはおよそ現実的ではないこと、条文の文言上も「(情報解析に)必要と認められる限度において」とされており「(情報解析に)必須」とまで限定されていないことからすると、RAGにおける既存著作物の「蓄積行為」についても「その必要と認められる限度において」の要件を満たすと考えます。
(ⅱ) 「いずれの方法によるかを問わず、利用することができる」
RAGにおいては、AI提供者が第三者であるAI利用者のために、既存著作物の蓄積・入力行為を行うことがありますが(タイプ1や7)、この点は問題ないのでしょうか。
30条の4によって権利制限の対象となる利用行為については「いずれの方法によるかを問わず、利用することができる」と規定されていることから、複製、公衆送信、譲渡といった行為はもちろん、翻訳・翻案等の二次的著作物の創作行為、創作された二次的著作物の利用行為も含めて、著作物を利用する行為は全て権利制限の対象となります。
また、他人による情報解析のためのデータセット作成行為や、情報解析目的で収集したデータセット等を情報解析に供する第三者に譲渡したり、公衆送信をすることも可能です。
したがって、RAGにおいてAI提供者が第三者であるAI利用者のために、既存著作物の蓄積・入力行為を行う場合であっても、法30条の4が適用されると考えます。
(ⅲ) まとめ
以上から、表現出力目的がない場合には30条の4の他の要件も満たし、タイプ1における既存著作物の蓄積・入力行為は適法となります。
具体的には、最終的な出力において、蓄積・入力した既存著作物と創作的表現が共通した生成物が生成されない、またはそのような生成物が生成されることがあったとしても、そのような事態が著しく頻発しなかったり、サービサーが侵害物の生成を抑止するための実効的な技術的手段(フィルタリング等)を講じている場合は、30条の4が適用されタイプ1における既存著作物の蓄積・入力行為は適法となります。
(カ) 表現出力目的がある場合
一方、「最終的な出力において、蓄積・入力した既存著作物と創作的表現が共通した生成物が生成される事態が著しく頻発する」といった事情が存在する場合には、表現出力目的が肯定され、既存著作物の蓄積・入力行為に30条の4は適用されません。
この場合は、30条の4以外の権利制限規定の適用を検討することとなります。
具体的には、個人や教育機関であれば、私的使用目的の複製(法第 30 条第1項)、学校その他の教育機関における複製等(法第 35 条)が適用される可能性があります。また、企業・団体等の内部においては、検討過程における利用(法第 30 条の 3)の適用が考えられます11「考え方」38 頁 。
また、47条の5第2項が適用される場合もあります。
RAGにおける既存著作物の蓄積・入力行為や同一・類似のAI生成物の生成・利用に法30条の4が適用されない場合に47条の5の適用があり得る点については、考え方22頁に以下のとおり明記されています。
○ 法第 30 条の 4 が適用されない場合でも、RAG 等による回答の生成に際して既存の著作物を利用することについては、法第 47 条の5第1項第1号又は第2号の適用があることが考えられる。
ただし、この点に関しては、法第 47 条の5第1項に基づく既存の著作物の利用は、当該著作物の「利用に供される部分の占める割合、その利用に供される部分の量、その利用に供される際の表示の精度その他の要素に照らし軽微なもの」(軽微利用)に限って認められることに留意する必要がある。また、同項に基づく既存の著作物の利用は、同項各号に掲げる行為に「付随して」行われるものであることが必要とされているように、既存の著作物の創作的表現の提供を主たる目的とする場合は同項に基づく権利制限の対象となるものではない、ということにも留意する必要がある。
そのため、RAG 等による生成に際して、「軽微利用」の程度を超えて既存の著作物を利用するような場合は、法第 47 条の5第1項は適用されず、原則として著作権者の許諾を得て利用する必要があると考えられる。
○ また、RAG 等のために行うベクトルに変換したデータベースの作成等に伴う、既存の著作物の複製又は公衆送信については、同条第2項に定める準備行為として、権利制限規定の適用を受けることが考えられる。
まず、RAGにおける出力結果の提供は、47条の5第1号(「所在検索及びその結果提供」)または同2号(「情報解析及びその結果提供」)に該当し得ます。
そして、「所在検索及びその結果提供」又は「情報解析及びその結果提供」における最終的な著作物の利用行為について享受目的が存在する場合であっても、当該最終的な利用行為が「軽微利用」等、47条の5第1項の要件を満たせば、軽微利用に先立っての既存著作物の利用行為(複製・蓄積等)は47条の5第2項によって適法化されます。
したがって、RAGの場合でも、出力行為が47条の5第1項の要件を満たせば、それに先立つ既存著作物の蓄積・入力行為についても、47条の5第2項により適法化される余地があることになります。
この点については後ほど検討します。
イ 入力された既存著作物と同一・類似のAI生成物の生成・利用行為
タイプ1の場合、既存著作物と同一・類似のAI生成物の生成・利用行為は行われていませんので、この点は問題になりません。
脚注一覧
- 1RAG における入力対象文書の解析及びAI 生成物の生成行為は、いわゆるIn-Context Learning(ICL)であり、機械学習技術を用いて、AI のパラメータを物理的に更新する行為(いわゆる「学習」行為)ではない。もっとも、著作権法にいう「情報解析」(30 条の4第2号)が多種多様な情報処理を包含する広範な概念であること、また、ICL においては、モデル内のパラメータの物理的な更新行為は行われないが、見方を変えると、あたかもパラメータを変えて学習した場合と同様に、指示や今生成しているデータに合わせて、パラメータを一時的に更新し、モデルを急速に適応させているとみなすことができるとされていることからすると、ICL も「情報解析」に該当すると考えられる。
- 230 条の4においては、権利制限の対象となる利用行為について「いずれの方法によるかを問わず、利用することができる。」と規定されていることから、他人による情報解析のためのデータセット作成行為や、情報解析目的で収集したデータセット等を情報解析に供する第三者に譲渡したり、公衆送信をすることも可能と解釈されている(松田政行編『著作権法コンメンタール別冊 平成30 年・令和2年改正解説』(勁草書房、2022)17 頁参照)
- 3「考え方」21 頁〜22 頁
- 4また、RAG に限らず、生成指示のための生成AI への著作物の入力についても同様に法30 条の4の適用が考えられる旨が「考え方」37 頁に記載されている。
- 5ただし、生成・利用段階においては、開発・学習段階よりAI 生成物の生成に、より「近い」段階での行為であるため、既存著作物の入力行為に表現出力目的が推認されることが、より多くなるとする指摘もある(金子敏哉「生成AI とせいせいしない著作権法」法学セミナー828 号(2024)57 頁)。
- 6「考え方」20 頁脚注23。なお、「考え方」の同部分の記載は「開発・学習段階」における情報解析に関する記載であるが、RAG のような「生成・利用段階」における情報解析についても同じく当てはまると考える(以下の脚注について同じ)。
- 7「考え方」21 頁
- 8「考え方」21 頁
- 9「考え方」20 頁脚注22
- 10松田政行編『著作権法コンメンタール別冊 平成30 年・令和2年改正解説』(勁草書房、2022)29 頁
- 11「考え方」38 頁
この記事の内容を、対話形式の音声で聞くことができます。
▶ 対話形式で聞く
※ 対話形式の音声はNotebookLMを利用して自動的に作成したものです。正確な内容は記事本文をご参照ください。