在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。
美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。
與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。
但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。
美國著作權局發布AI著作權報告第三部分:生成式AI訓練-AI訓練是否構成合理使用? 資訊工業策進會科技法律研究所 2025年06月04日 美國著作權局於2025年5月發布著作權與AI第三部分報告之預出版本 (Copyright and Artificial Intelligence Part 3: Generative AI Training pre-publication version)[1],該報告重點為生成式AI訓練資料與著作權之關係,彙整各方意見並分析現行法制之挑戰及修改方向,目前發布之版本為預出版本,該報告說明將於近期發布最終確認版,預期其結論與實質內容並不會有修改。 壹、事件摘要 美國著作權局自2023年起即開始對AI所引發之著作權法律及政策問題進行研究,同年8月著作權局發布著作權及AI諮詢通知(Comments on Artificial Intelligence Notice of Inquiry, NOI),徵集各界對AI著作權議題之意見,著作權局亦針對相關議題舉辦多場公聽會及研討會協助意見之蒐集[2]。NOI發布後蒐集到之意見經著作權局整理分析,於2024年7月起發布AI著作權報告,第一部分為數位仿造,第二部分於2025年1月發布為就AI作品之著作可保護性之分析,而同年5月所發布之第三部分則聚焦於生成式AI之訓練。 生成式AI於訓練過程可能大量使用受著作權保護之作品,此份報告針對訓練過程可能涉及之著作權問題進行分析,主要說明AI模型訓練過程中使用受著作權保護作品是否可構成合理使用。 貳、重點說明 一、生成式AI模型訓練及模型權重對重製權之侵害 使用受著作權保護作品進行AI模型訓練涉及著作權中之重製,除非開發者能提出授權或其他合理抗辯如合理使用等,否則可能對一項或多項著作權利構成初步侵權(Prima Facie Infringement)。AI開發者於模型訓練階段會進行多次作品複製,包含下載作品、於儲存媒介間轉換、將作品進行格式化或製作副本等[3],模型訓練過程中暫時複製之作品亦有可能因其存在於時間足夠而構成重製權之侵害[4]。 在特定情形下,模型權重(model weights)[5]之複製亦可能構成重製權之侵害。訓練過程可能使模型權重包含著作權作品,而若第三方複製了包含著作權作品之模型權重,即便其未參與模型之訓練,亦可能構成初步侵權[6]。若模型能在未經外部輸入之情形下產出與訓練範例相似之內容時,表示此範例必以某種形式存在於模型權重中,故此模型權重之複製極有可能侵犯著作重製權[7]。換言之,不僅開發者有可能因模型權重之複製侵害著作權人之權利,部署、使用等第三方若複製模型權重亦有可能構成對重製權之侵害。 著作權局指出,模型權重究竟是否會構成重製權或甚至衍生作品之侵權,須判斷該模型權重是否保留與作品受權利保護部分實質相似之內容,僅有在實質相似之情形下,模型權重之複製才可能構成侵權[8]。 二、合理使用 對著作權作品之合理使用可做為作品重製權的抗辯,著作權局於報告中就不同因素分析AI使用著作權作品進行訓練是否得主張合理使用。AI於訓練過程中會有多次複製行為,惟在判斷AI模型訓練是否為對作品之合理使用,仍須視整體使用情境進行判斷[9]。 (1) 作品轉化性須視模型目的及佈署判斷 報告中分析作品之轉化性(transformativeness)[10],AI訓練使用作品是否具有轉化性並非絕對,而是依據模型最終之功能及佈署有程度上之區別,須依個案判斷。若模型之訓練目的為用於研究或封閉系統,則該模型具高轉化性;若其目的是生成與訓練用作品實質相似之結果時,不具轉化性。多數模型之轉化程度會落在前述兩極端之中間,如模型使用特定類型之作品進行訓練,用以生成使用目的與原作相同之內容時,即便其生成內容未有實質相似,頂多僅為有限度之轉化(modestly transformative)[11]。AI開發商得於其系統設置防護措施,限制模型複製受著作權保護作品之節錄內容,使生成內容之目的與原作品不同,此措施能使模型訓練更具轉化性[12]。 有論者認為,使用受著作權保護作品進行AI模型訓練並非出於表達目的,且近似人類學習,因此實質上應是具有轉化性的,著作權局否定了前述兩種說法。報告中說明,語言模型於訓練時所吸收的內容包含文句、段落及文件之排列選擇,並非單純僅吸收其單字含意,且所生成之模型是被用作創造表達性內容,故不得謂AI模型為非表達性目的[13]。其次,針對人類學習觀點,報告首先闡明,學生基於學習目的亦不得以合理使用為由複製整本著作,因此人類學習並不得直接作為合理使用之抗辯。生成式AI之訓練能迅速分析並生成完美之作品,此非如同人類經學習後會產出具個別人格特質之結果,故著作權局不同意AI模型之訓練為與人類學習相同具有轉化性之論點[14]。 (2) 受著作權保護作品之表達性 AI訓練所使用之受著作權保護作品若具較高創作或表達性,如小說、電影等,其著作權比其他作品如電腦編碼等功能性作品更接近著作權之保護核心。而AI模型訓練來源多元,因此判斷上仍須視個案模型及作品而定。 (3) 使用作品之合理比例 AI模型訓練需大量複製受著作權保護作品,於判斷其複製比例是否合理時,係判斷模型訓練所複製之部分對於受著作權保護作品之數量及重要性使否合理[15]。作品使用之合理性,須考量重要性以及數量,若模型僅使用小部分作品做訓練,但該部分為著作權作品之核心部分,此使用並不一定合理。 在使用完整作品層面,生成式AI較一般搜尋引擎更不具合理性,生成式AI所提供之資訊並非僅限於其訓練資料庫中所複製作品資料。然而,許多生成式AI之訓練方式必須使用完整作品進行訓練,因此,著作權局指出,雖開發者使用完整作品進行訓練與合理使用相悖,但若其訓練具有轉化性目的(transformative purpose),並且有必要透過大量作品之訓練以提升模型效能時,則使用整部作品進行訓練可能被認為合理[16]。換言之,使用完整作品進行訓練合理與否須連同其使用必要性及訓練目的一併考量。 (4) 影響原作品之潛在市場或價值 報告中點出三項生成式AI訓練可能造成的市場危害。 A 銷售損失(lose sale):權利人因潛在消費者選擇AI複製創作取代原作,而失去收入。 B 市場稀釋 (market dilution):AI生成內容之速度以及規模對訓練資料中同類作品之市場造成稀釋風險,原作者將更難銷售其作品亦將使消費者更難找到真人創作之作品[17]。AI所生成風格相似之作品亦會導致市場稀釋,風格非為著作權所保障之方為,惟若AI生成與作品風格相似之內容,即便未有實質相似,但消費者可能因此難以分辨AI創作與真人作者,將使AI作品與原作者之作品於市場上直接競爭而影響原市場[18]。 C 喪失授權收入機會 (lost licensing opportunities):權利人本可就其作品於市場上有授權收入之機會,但因AI未經授權使用作品進行訓練而喪失該部分收入[19]。 三、 授權使用 對於AI自願授權之情形於近年越來越普遍,報告亦肯認自願授權之可行性,雖自願授權可行,且已有開發商開始實施,惟對於完全滿足AI產業之需求仍存有疑義[20]。該報告認為,即便現階段自願性授權仍為發展中之制度,但該制度確實能避免使用著作權作品之不確定性。著作權局認為應讓自願性授權制度於授權市場於無政府干預情形下繼續發展,若未來於特定類型作品中出現失靈情形時,再考慮進行擴大集體授權等干預措施[21]。 參、事件評析 AI訓練使用著作權保護作品是否可以合理使用作為抗辯為近年AI發展下著作權高度討論問題之一。目前美國各地法院中有40多件相關案件正在進行審理,然就此報告之結論觀之,其並未對AI訓練是否可作為合理使用給予統一解答,合理使用與否仍須視個案而定。如同報告結論所提及,AI訓練過程中,使用受著作權保護作品可能具有轉化性,但是否足以構成合理使用,仍須視其所使用之作品、來源以及目的等個案因素而定[22]。AI訓練於著作權仍存在一定程度之不確定性。 值得注意的是,雖報告並未明示AI訓練使否為合理使用著作權作品,惟其立場似乎更偏向有利於著作權利人。例如報告中於轉化性認定具有灰色地帶,開發商是否能主張合理使用仍需於後續由法院個案認定。此外,報告中提及市場稀釋理論,目前尚未有法院採用,對合理使用之認定較為嚴格,即使未有實質相似之生成內容亦有可能因影響市場競爭被視為非合理使用,可見該理論對著作權利人之權利保障。 同時著作權局亦正向看待產業界透過自願性授權進行作品訓練之方法,雖該制度於AI訓練上尚未為一完善制度,但確實地授權制度能同時促進產業發展並保護著作權[23]。目前實務上亦是以此種作法解決合理使用之困境,但授權制度仍有待市場持續發展完善制度以確保能符合AI訓練之需求。 美國著作權局之報告雖對AI使用著作權保護作品進行訓練進行分析及說明,惟其結論仍是認為判斷上需依照個案分析。目前國際上尚未有對AI合理使用之實際定論,自願性授權仍為產業界所使用之方法。我國著作權法亦未對AI訓練之合理使用有說明,國際上將會如何發展仍有待觀察。 資策會科法所創智中心致力於著作權相關科技法律研究,本中心將持續關注相關議題並更新動態。 本文為資策會科法所創智中心完成之著作,非經同意或授權,不得為轉載、公開播送、公開傳輸、改作或重製等利用行為。 [1]U.S. Copyright Office Copyright and Artificial Intelligence, Part 3: Generative AI Training pre-publication version, https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-3-Generative-AI-Training-Report-Pre-Publication-Version.pdf [2]U.S. Copyright Office, Copyright Office Issues Notice of Inquiry on Copyright and Artificial Intelligence, https://www.copyright.gov/newsnet/2023/1017.html (last viewed: 2025/05/19) [3]supra note 1, at 26. [4]Id. at 27. [5]AI模型之建立仰賴神經網,主要功能為將輸入資料轉換為輸出資料。神經網路之運作方式係透過大量於訓練過程中產生之參數進行運案,而該些參數即為「權重」(weights)。 [6]Id. at 28. [7]Id. [8]Id. at 30. [9]Id. at 36-37. [10]轉化性係指新作品加入新元素,具有與原作不同目的或性質,且以新表達、意義或訊息改造原作。並且新作品於市場上較不會取代原作。 [11]Id. at 46. [12]Id. [13]Id. at 47. [14]Id. at 48. [15]Id. at 54. [16]Id. at 60. [17]Id. at 65. [18]Id. at 65-66. [19]Id. at 66-67. [20]Id. at 85. [21]Id. at 106. [22]Id. at 107. [23]Id. 本文同步刊登於TIPS網站(https://www.tips.org.tw)
歐盟將修正公部門資訊再利用(PSI)指令2019年1月22日,歐盟執委會(European Commission)、歐洲議會(European Parliament)與歐盟理事會(Council of the EU)就修正「公部門資訊再利用指令」(The Directive on the re-use of public sector information,PSI Directive)的提案達成協議。歐洲議會則於4月4日通過提案,待歐盟理事會簽署正式的指令。 PSI Directive經過2003年制定(Directive 2003/98/EC)、2013年修正(Directive 2013/37/EU),於2017年為了履行指令規定的定期審查義務,召開了公眾線上諮詢,之後歐盟執委會根據諮詢結果及對指令的影響評估,於2018年4月25日通過修訂指令的提案,並於2019年1月達成協議。 此次修正將該指令更名為「開放資料與公部門資訊指令」(The Directive on the Open Data and Public Sector Information,以下稱新指令),預計能排除目前仍存在的公部門資訊取得障礙,並且要求將政府資助研究所產出的研究資料(publicly funded research data)也開放給公眾。此次修正的重點內容如下: 1、所有依據國家取用文件規定(national access to documents rules)下可取用的公部門資訊,原則上可以免費再利用,或者公部門可以收取為了提供、傳播資料所產出的費用,但該費用以不超過邊際成本(marginal costs)為限。這項改變,將使更多的中小企業和新成立公司能順利進入資料經濟市場。 2、新指令特別指出統計資料或地理空間資料屬於高價值資料集(high-value datasets),這些資料集具有高商業潛力,可以加速各種資訊產品或增值服務的產出,例如人工智慧。而新指令特別要求這些資料集應免費提供、使機器可讀,且透過應用程式介面(APIs)使他人能取用。但經評估後發現免費提供會造成市場競爭扭曲時,則不在此限。 3、關於公營事業及公共運輸所產生的有價值資料,不在現行PSI Directive規範範圍內,而各國對於是否必須提供資料有著不同的規定,但現在都必須依照新指令的規定使公眾可以免費再利用,不過仍可設定合理規費來收回相關行政費用。 4、有些公部門與私人企業制定了複雜的資料協定,導致公部門資訊被壟斷,新指令則要求各會員國應落實資訊透明,以及限制公部門與私部門訂立排除其他人可再利用公部門資訊的協定。 5、促進公部門資訊以動態即時資料方式發布,並透過使用者介面(APIs)使更多動態即時資料能被使用。而這也將使企業發展創新產品或服務,例如行動APP。 6、關於政府資助的研究,新指令將促進「政府資助研究而產出的研究資料」能更容易的被再利用,故各成員國被要求建立一致的再利用政策,使這些研究資料能透過資料庫(repository)被開放取用(open access),包含先前已經存入該資料庫的資料。 總而言之,本次修正將能夠降低中小企業進入市場的障礙,並增加公部門資訊的透明度和即時流通,也使公營事業資訊及政府出資研究所產出的研究資料能納入開放資料的範疇。
歐盟發布孤兒著作指令(2012/28/EU),期促進成員國數位典藏之流通運用為促進歐盟境內各成員國的典藏機構(圖書館、資料館、博物館等)之典藏數位化以及數位作品的流通,歐盟於2012年10月28日頒布Directive 2012/28/EU(俗稱孤兒著作指令),本指令允許典藏機構基於「公益」目的利用孤兒著作從事營利之商業行為,並要求各成員國應於2014年10月29日前完成國內法的轉換程序,本指令有以下特色: (一)界定適用之機構與標的:適用之機構包括各成員國境內為公共利益所建立的公有典藏機構,包括公共圖書館、教育機構、博物館、資料館、電影與錄音典藏單位、公共電視台等。適用標的亦限制在前述機構數位典藏之作品,包括傳統出版品之書籍與報刊雜誌,以及電影、影音與錄音作品等。此外,指令同樣適用於附著在其他作品或構成他作品一部分(如書中的一張照片)的著作物,以及未出版之作品,例如書信、手稿等。 (二)明確定義「勤勉尋找」(diligent search)之最低標準:根據指令第3條第2項規定,所謂「勤勉尋找」之標準可由各會員國自行界定,但至少要包括本指令附件所載之各類資料庫、法定送存處(legal deposit)、以及相關著作權集體管理組織等。 (三)確立孤兒著作狀態相互承認機制:當一項著作在特定會員國被視為孤兒著作時,該效力便及於整個歐盟。另外,本指令第3條第6項亦規定歐盟各成員國應當將孤兒著作之狀態回報給歐盟內部市場調何局(Office for Harmonization in the Internal Market)。 (四)得基於公益性質(public-interest missions)將孤兒著作為商業授權之利用:典藏機構得基於公益性質將孤兒著作為商業授權之利用,特別是為保存或復原典藏物、或提供文化或教育上之近用等,可與其他公、私部門共同利用孤兒著作從事商業授權行為,並將收益彌補因前述典藏數位化所耗費的成本。 從歐盟孤兒著作指令的立法緣由與內容來看,其主要目的係在於釋放公有數位典藏的能量,以便可以達到歐盟在2010年所設定之活絡數位單一市場之目標。另本指令為加速典藏機構針對孤兒著作釋出的配套措施,例如明確定義勤勉搜尋的範圍,以及典藏機構得基於公益性質而將孤兒著作為商業授權之利用等,亦值得我國借鏡。
德國訂定租戶電力促進法並修正相關再生能源法,以鼓勵太陽能發電直供為鼓勵出租人利用屋頂型太陽能裝置直接提供承租戶用電,並鼓勵推動民眾參與能源轉型,德國制訂「租戶電力促進法」(Gesetz zur Förderung von Mieterstrom)及修正相關再生能源法,並於2017年7月已正式生效。 所謂「租戶電力」(Mieterstrom)係指來自建築物本身裝設或周遭區域裝置的太陽能設備生產之電力,未循傳統利用方式將電力饋入一般電網中,而直接就地(Vor Ort)提供給終端用戶(主要為建築物承租戶)電力使用。但查現行太陽能電力之利用狀況,發電設備所有人(同時也是出租人)多數仍選擇將發電饋入電網,以取得依再生能源法規定之相當報酬。新法制訂後,未來出租人將電力提供給承租人後仍可獲得同樣報酬,而原先承租人負擔許多自電網中購電必須支付的電網費、網路端分配費、電力稅及其他雜費,以及未來可能會產生的附加費等,也可節省下來。 因此,透過本法將可提升發展與使用太陽能的經濟誘因。一方面促使出租人將太陽能發電直供承租人使用,依據其太陽能裝置及太陽能板鋪設大小,出租人約可獲得3.8歐分/kWh~2.75歐分/kWh之間的報酬,此外,並限制補助太陽能裝置為每年500MW以下,以確保發電容量符合用電發展。而依據德國經濟與能源部委託相關研究報告顯示,有高達380萬的家庭戶具備開發此種直接向租戶供電的潛力。另一方面,該法亦包含租戶電力契約的存續期間,及承租人將保有電力供應商的選擇權,並設定其租戶電力費用上限(修正能源經濟法§42a),以確保租戶電力費用具市場競爭力。