在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。
美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。
與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。
但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。
日本文化廳發布《人工智慧著作權檢核清單和指引》 資訊工業策進會科技法律研究所 2024年08月21日 日本文化廳為降低生成式人工智慧所產生的著作權風險,保護和行使著作權人權利,於2024年7月31日以文化廳3月發布的《人工智慧與著作權的思考》、內閣府5月發布的《人工智慧時代知識產權研究小組中期報告》,以及總務省和經濟產業省4月份發布的《人工智慧事業指引(1.0版)》的資料為基礎,制訂發布《人工智慧著作權檢核清單和指引》[1]。 壹、事件摘要 日本文化廳的《人工智慧著作權檢核清單和指引》主要分成兩部分,第一部分是「人工智慧開發、提供和使用清單」,依循總務省和經濟產業省4月份發布的《人工智慧事業指引(1.0版)》的區分方式,分為「AI開發者」、「AI提供者」、「AI(業務)使用者(事業利用人)」和「業務外利用者(一般利用人)」四個利害關係人,依不同的身份分別說明如何降低人工智慧開發前後的資料處理和學習等智慧財產權侵權風險的措施,以及提供和使用人工智慧系統和服務時,安全、適當地使用人工智慧的技術訣竅。 第二部分則是針對著作權人及依著作權法享有權利的其他權利人(例如表演人)的權益保護,從權利人的思考角度,建議正確理解生成式AI可能會出現什麼樣的(著作權)法律上利用行為[2]。其次,說明近似侵權的判斷要件、要件的證明、防止與賠償等可主張的法律上請求、可向誰主張侵權、權利主張的限制;於事先或發現後可採取的防止人工智慧侵權學習的可能措施;最後對侵權因應建議權利人可發出著作權侵權警告、進行訴訟、調解等糾紛解決,並提供可用的法律諮詢窗口資訊。 貳、重點說明 日本文化廳於此指引中,針對不同的角色提出生成式AI與著作權之間的關係,除更具體的對「AI開發者」、「AI提供者」、「AI(事業與一般利用人)」,提醒其應注意的侵權風險樣態、可能的合法使用範圍,並提供如何降低風險的對策。同時,從權利人角度提供如何保護權益的指引,並提供可用的法律諮詢窗口資訊。重點說明如下: 一、不符合「非享受目的」的非法AI訓練 日本著作權法第30條之4規定適用於以收集人工智慧學習資料等為目的而進行的著作權作品的複製,無需獲得權利人的授權,但是,該指引特別明確指出「為了輸出AI學習資料中包含的既有作品的內容,而進行額外學習;為讓AI產出學習資料庫中所包含的既有作品的創作表現;對特定創作者的少量著作權作品進行額外個別學習」,這三個情況係同時存有「享受」著作目的,不適用無須授權的規定[3]。 二、不能「不當損害著作權人利益」 從已經採取的措施和過去的銷售紀錄可以推斷,資料庫著作權作品計劃有償作為人工智慧學習的資料集。在這種情況下,未經授權以人工智慧學習為目的進行複製時,屬於「不當損害著作權人利益」的要求,將不適用(日本)著作權法第30條之4規定[4]。在明知某個網站發布盜版或其他侵害著作權的情況下收集學習資料,則使用該學習資料開發的人工智慧也會造成著作權侵權,人工智慧開發者也可能被追究著作權責任[5]。不應使用以原樣輸出作為學習資料的著作權作品的學習方法,如果該已訓練模型處於高概率生成與學習資料中的著作物相似的生成結果的狀態等情況下,則該已訓練模型可能被評價為「學習資料中著作物的複製物」, 對銷毀該模型的請求即有可能會被同意[6]。 三、使用生成式AI即可能被認定為可能有接觸被侵害著作[7] 權利人不一定必須證明「生成所用生成AI的學習資料中包含權利人的作品。如有下述AI使用者認識到權利人的作品的情況之一,權利人亦可透過主張和證明符合「依賴性(依拠性)」要件,例如:AI使用者將現有的著作物本身輸入生成AI、輸入了現有著作物的題名(標題)或其他特定的固有名詞、AI生成物與現有著作物高度類似等。 四、開發與提供者也可能是侵權責任主體[8] 該指引指出,除利用人外,開發或提供者亦有負侵權責任的可能,特別是--人工智慧頻繁產生侵權結果,或已意識到人工智慧很有可能產生侵權結果,但沒有採取措施阻止。於其應負侵權責任時,可能被請求從訓練資料集中刪除現有的著作權作品,甚至是刪除造成侵權的人工智慧學習創建的訓練模型。即便人工智慧學習創建的訓練模型一般並非訓練資料的重製物,不過如果訓練後的模型處於產生與作為訓練資料的著作權作品相似的產品的機率很高的狀態,該指引認為可能會被同意[9]。 參、事件評析 人工智慧(AI)科技迎來契機,其生成內容隨著科技發展日新月異,時常可以看見民眾在網路上分享AI技術生成的圖像和影音。是否能將AI生成的圖案用在馬克杯或衣服販售,或是將Chat GPT內容當作補習班教材,均成為日常生活中的訓練AI的資料與運用AI的產出疑義。 各國固然就存有人類的「創造性貢獻」是人工智慧生成結果是否受著作權法保護、可受著作權保護的條件,單純機械性的AI自動生成,基本上欠缺「人的創造性」,非著作權保護對象,已有明確的共識。如何以明確的法令規範降低AI開發過程的侵權風險或處理成本?賦予AI訓練合法使用既有著作,應有的界限?衡平(賦予)既有著作的著作權人權益?AI服務提供者應負那些共通義務?是否合理課予AI服務提供者應負之侵權損害責任?AI使用者之侵權責任是否須推定符合「接觸」要件?等等諸此進一步的疑義,則仍在各國討論、形成共識中。 而從日本文化廳的《人工智慧著作權檢核清單和指引》,我們可以清楚的看出,在樹立成為AI大國的國家發展政策下,其著作權法雖已賦予AI訓練資料合法的重製,但在指引是明列已屬「享受」目的訓練行為、不合理損害著作權利用的情況、明示開發服務者應負的揭露義務與可能承擔侵權責任,彰顯其對權利人權益平衡保護的努力。值得於我國將來推動落實AI基本法草案中維護著作權人權益原則時,做為完善相關法令機制的重要參考。 本文為資策會科法所創智中心完成之著作,非經同意或授權,不得為轉載、公開播送、公開傳輸、改作或重製等利用行為。 本文同步刊登於TIPS網站(https://www.tips.org.tw) [1] 文化庁著作権課,「AI著作権チェックリスト&ガイダンス」,令和6年7月31日,https://www.bunka.go.jp/seisaku/bunkashingikai/chosakuken/seisaku/r06_02/pdf/94089701_05.pdf,最後閱覽日:2024/08/20。 [2] 詳見前註,頁31。 [3] 詳見前註,頁7。 [4] 詳見前註,頁8。 [5] 詳見前註,頁9。 [6] 詳見前註,頁9。 [7] 詳見前註,頁35。 [8] 詳見前註,頁36。 [9] 詳見前註,頁42。
美國擬制訂私人通聯記錄保護法案美國國會能源及商業委員會( Energy and Commerce Committee )於 2006 年 3 月 8 日 透過匿名表決的方式,通過「防止詐欺取得通聯記錄法」草案( Prevention of Fraudulent Access to Phone Records Act ),希望透過立法的方式保障消費者之隱私權,並要求電信公司加強保護消費者之通聯記錄。由於各黨派對本法案已有共識,故預計於近期排入國會議程後,順利完成立法。 根據美國國會議員 Joe Barton 表示,美國目前對於電話通聯記錄的取得並未進行規範,任何人均可輕易的透過網路購得相關資料。由於通聯記錄中往往包含許多個人之隱私或是敏感性資料,部分不肖之徒(如身份竊盜者、非法的個人資料販賣商)會藉此故意取得個人通聯記錄,以窺探隱私,甚或以此進行犯罪行為。 有鑑於此,美國計畫透過本法案,嚴格禁止以詐騙方式取得電話記錄的情形,並賦予聯邦公平交易委員會( Federal Trade Commission )有權對違反本法規定者進行民事處罰。此外,本法案亦要求電信業者必須符合本法規定之資料安全保護的要求,若違反本法之規定而造成損害,單一案件得處以最高 30 萬元之罰鍰,若為多重案件,則得處以 10 萬元以上 300 萬元以下之罰鍰。
IBM Watson Health與FDA合作研究區塊鏈技術之醫療運用根據專利資料庫公司IFI CLAIMS公佈2016年美國專利統計報告,IBM以8,088件專利再度蟬聯冠軍,其中多著重在人工智慧(artificial intelligence)、認知運算(cognitive computing)、及雲端(cloud)等技術領域,也有健康醫療相關專利。 近期IBM Health與美國食品藥品管理局(U.S. Food and Drug Administration)展開兩年期之合作研究,透過區塊鏈技術(blockchain)以安全且去中心化的方式進行數據共享,如:交換電子病歷、臨床試驗、基因數據、甚至過去難以取得的病患行動與穿戴裝置數據及物聯網(Internet of Things)數據等。 傳統上病患的病歷資訊存放於各診療單位或醫療機構,造成資訊管理效率及互通性較低,在區塊鏈技術的架構下,有效率的將大量且多樣的醫療數據進行彙整,並藉審查追蹤紀錄以防止竄改,提升病歷數據傳輸管理的可靠性及安全性。在如此多元化的醫療數據共享環境下,有助於醫療診斷、更將能促進產業發展。 此外,過去病患穿戴裝置所測得的日常生理數據,不管在數據取得、或將該些數據應用至臨床診斷上皆存有許多問題,如今區塊鏈技術將能提高物聯網數據資訊之整合性。依調查顯示,預計有80%新創組織採用區塊鏈技術於物聯網數據管理與應用上。 其他應用商機更包括居家監控、慢性疾病管理、藥物整合(medication reconciliation)及供應鏈管理等。IBM預估,至2017年底將會有16%的健康醫療機構採用以區塊鏈技術為架構的管理工具,並預測十年內採用比例將達72%。 本文同步刊登於TIPS網站(https://www.tips.org.tw)」
暴雪公司告《刀塔傳奇》遭駁回,修正訴狀後再提告2015年3月,暴雪公司(BLizzard Entertainment)在官網上公開宣稱,手機遊戲《刀塔傳奇》並未經過其授權,而其角色場景均涉嫌抄襲「魔獸爭霸」與「魔獸世界」多項重要角色,其後在美國、大陸台灣等地對《刀塔傳奇》開發商莉莉斯公司提出告訴。而 Courthouse News Service近來指出,美國地方法院於2015年12月17日駁回暴風公司對莉莉斯公司的訴訟。 美國的著作權法不保護虛擬角色,但仍有例外。依據上訴法院在1978年的Halicki Films訴Sanderson Sales and Marketing一案標準,若該虛擬角色具有特別特色(especially distinctive)則可例外予以保護,而特別特色需要有相當證據證明設計者為原告且具有獨特的特徵,方得予以主張。美國地院目前認為而暴雪公司目前提出角色姓名、服裝、武器、背景設定等證據資料,尚無法說明暴雪公司所創角色具有獨特性,故予以駁回。而暴雪公司則於12月22日發出正式聲明,認為現階段並非侵權主張不成立,而是訴訟資料不齊全,並著手提交更詳盡的證據清單,暴雪公司會於修正訴狀後,再提起訴訟。 雖然暴雪公司在美國對莉莉斯訴訟遭受駁回,但其在中國大陸對《刀塔傳奇》代理商與莉莉斯公司所提告訴,已讓蘋果公司(Apple, Inc.)讓《刀塔傳奇》從App store下架;而美國法院判決是否使蘋果公司在中國大陸重新上架《刀塔傳奇》,則有待觀察。