法國國家資訊自由委員會(CNIL)於2023年10月16日至11月16日進行「人工智慧操作指引」(AI how-to sheets)(下稱本指引)公眾諮詢,並宣布將於2024年初提出正式版本。本指引主要說明AI系統資料集建立與利用符合歐盟一般資料保護規則(GDPR)之作法,以期在支持人工智慧專業人士創新之外,同時能兼顧民眾權利。
人工智慧操作指引主要內容整理如下:
1.指引涵蓋範圍:本指引限於AI開發階段(development phase),不包含應用階段(deployment phase)。開發階段進一步可分為三階段,包括AI系統設計、資料蒐集與資料庫建立,以及AI系統學習與訓練。
2.法律適用:當資料處理過程中包含個人資料時,人工智慧系統的開發與設計都必須確定其適用的法律規範為何。
3.定義利用目的:CNIL強調蒐集及處理個資時應該遵守「明確」、「合法」、「易懂」之原則,由於資料應該是基於特定且合法的目的而蒐集的,因此不得以與最初目的不相符的方式進一步處理資料。故明確界定人工智慧系統之目的為何,方能決定GDPR與其他原則之適用。
4.系統提供者的身分:可能會是GDPR中的為資料控管者(data controller)、共同控管者(joint controller)以及資料處理者(data processor)。
5.確保資料處理之合法性:建立AI系統的組織使用的資料集若包含個人資料,必須確保資料分析與處理操作符合GDPR規定。
6.必要時進行資料保護影響評估(DIPA)。
7.在系統設計時將資料保護納入考慮:包含建立系統主要目標、技術架構、識別資料來源與嚴格篩選使用…等等。
8.資料蒐集與管理時皆須考慮資料保護:具體作法包含資料蒐集須符合GDPR、糾正錯誤、解決缺失值、整合個資保護措施、監控所蒐集之資料、蒐集之目的,以及設定明確的資料保留期限,實施適當的技術和組織措施以確保資料安全等。
對於AI相關產業從事人員來說,更新AI相關規範知識非常重要,CNIL的人工智慧操作指引將可協助增強AI產業對於個資處理複雜法律問題的理解。
2014年6月26日歐盟執委會提出電信網路層級服務協議標準化指導原則(Cloud Service Level Agreement Standardisation Guidelines)。網路服務提供業者通常會與消費者簽訂契約,內容約定有服務之等級,稱之為電信服務層級契約(SLAs),在雲端運算服務中,通常橫跨不同的管轄領域,適用的法律要件亦產生變化,而在雲端部分所儲存的個人資料保護部分尤其重要。不同的雲端服務與模式所需要的協議約定亦不同,這些都增加訂定的複雜性。 指導原則之提出將幫助專業的雲端服務業者在契約訂定時應該注意的內容,其中主要相關項目包括: 1.雲端服務的可利用性與真實性 2.從雲端服務提供業者中可取得服務的品質 3.安全層級 4.在雲端中如何妥善管理資料 指導原則首先明定原則,以做為雲端運算服務契約之參考。並同時針對不同的名詞定義解是,亦針對不同的契約與法律議題說明,包括業者在依據所訂定的契約中處理個人資料時,應符合歐盟資料保護之規範。 在指導原則提出之後,執委會將與雲端使用者,特別是一些小型企業進行檢視,後續並朝向通過國際ISO之認證。
由歐盟數位單一市場著作權指令觀察國際數位內容智慧財產權保障趨勢由歐盟數位單一市場著作權指令觀察國際數位內容智慧財產權保障趨勢 資策會科技法律研究所 許椀婷 法律研究員 2019年1月17日 壹、背景說明 考量互聯網跨境傳輸,以及各國間著作權制度差異所帶來的影響,歐盟早於2015年即提出立法草案,討論至今預定於今年(2019)1月進行最終表決的「歐盟數位單一市場著作權指令草案(Directive on Copyright in the Digital Single Market, COD)」,其中第13條規定:「線上內容共享服務提供商和權利人應真誠合作,以確保排除未經授權的受保護作品或其他主題服務。」[1],對線上內容共享服務提供商在提供權利人的權利保障上義務進行規範,引發許多有大量轉載用戶的大型數位內容平台(如google)的抗議。 以我國現況而言,著作權法敘明網路服務提供者之民事免責事由,並在第90-4條規範網路服務提供者應以契約、電子傳輸、自動偵測系統等方式,告知使用者其著作權或製版權保護措施,並確實履行該保護措施。並在告知累計三次侵權情事下,終止其提供的全部或部分服務。上述保護措施經主管機關核可,網路服務提供者應配合執行。[2]國家通訊傳播委員會更於2017年提出「數位通訊傳播法草案[3]」,賦予數位通訊平台業者(如:Facebook)概念相同之避風港條款:若平台提供者接獲有人檢舉平台內容侵權,業者將侵權內容下架就能免責,相對歐盟的立法方向,是以提供誘因以協助保障智慧財產權為核心作法。本文將對COD第13條所引發的爭議進行討論,做為我國後續相關修法之借鏡。 貳、侵權行為的刪除 COD第13條爭議之一,為該條款賦予線上內容共享服務提供商應刪除侵權內容之義務,但各界對應如何識別和刪除尚未達成共識。該指令過往版本中的「內容識別技術(content recognition technologies)」,普遍被解讀為要求平台使用自動化過濾器來掃描每一段上傳內容,阻止任何可能侵害著作權的行為。該識別技術讓人聯想到YouTube行之有年的Content ID[4],其對影片和音訊進行侵權比對,標記平台內重複的內容,權利人經系統通知可透過下述方式維護權利,包括封鎖內容或追蹤、獲取觀看者資訊,作為行銷分析之用;或直接於影片中插入廣告增加收入。此外,權利人還能在Content ID無法檢測到重覆內容下進行手動聲明。Content ID在實務運作上飽受抨擊,原因包括配合「數位千禧年著作權法(Digital Millennium Copyright Act, DMCA)」的通知與刪除制度,增加平台業者封鎖或復原影片的負擔;Content ID的比對更有因自動化產生錯誤、資料庫既存錯誤、或惡意舉報等風險。[5]Youtube雖已在技術開發上耗費6,000萬美元[6],且尚需負擔Content ID每日檢查大量數位內容的傳輸成本,結果仍然不是人人滿意,可見為何大眾會對內容識別技術的要求如此擔憂。由Content ID的案例可觀察出,辨識原始內容就遭遇如此多的困難,更不用說要準確辨識現在時下流行的二次創作,如對擷取新聞、電影畫面進行評論,或將圖片進行創意、詼諧嘲諷的改作等影片利用是否合法了。未來COD草案該條款的施行,恐對二次創作的流通產生一定程度的限制。 回顧我國目前著作權、及數位通訊傳播法草案等法規,針對網路服務提供者[7]、數位通訊傳播服務提供者[8]避風港,對業者的歸責較COD相對輕。而在業者需提供的技術上,經濟部智慧局已對著作權法第90條內提及之「通用辨識或保護技術措施」提出解釋,用以辨識(identify)或保護(protect)著作權或製版權之相關措施,如過濾網路侵權資訊、監測網路流量之技術等,均屬之,且強調該條款並非課予網路服務提供者負有發展該等技術措施之義務,智慧局將徵詢網路服務提供者、權利人及相關技術專家意見,並考量負擔成本等因素[9]。 參、結論與建議 在COD的進展上,目前COD的最新修訂草案已移除了內容識別技術的用詞,並補充例外應特別考慮基本權利,以例外和限制確保中小企業的負擔仍然適當,並避免自動封鎖內容[10]。回應大眾對於無法負擔技術成本的抗議,避免一些小規模網站可能無法負擔聘用人員監管成本的問題。此外,歐盟更釋出新聞稿說明指令草案並未具體說明需要以哪些工具來實踐目標,故自動化過濾器僅為一種可能的解決方案之一。[11] COD草案若通過,歐盟各成員國將被要求於2年內修改國內法規,以符合該指令之規定。若屆時該指令所產生的成本負擔,在業者評估下仍過於沉重,許多平台可能選擇避開歐盟市場,造成歐盟成員國民眾可獲取的內容驟減。 在內容創作者越來越重視自身權益的年代,針對數位平台與創作者間的權利與義務不斷被拿出來討論,不管是著作權法或是數位通訊傳播法草案,都有可能被要求配合國際趨勢和科技發展進行調整。未來若考量進一步導入如歐盟COD的審核機制,提供數位內容平台通知下架以外的義務,以促進著作權的合法授權及合理分配,應同理審慎評估我國實際可執行的技術能力範疇為何,估計產業可能需負擔的成本,降低對產業產生的衝擊,並檢視實施此類機制所能帶來的效益程度,作為增添此義務之佐證依據。 [1] European Parliament,Copyright in the Digital Single Market(2018), http://www.europarl.europa.eu/sides/getDoc.do?pubRef=-//EP//NONSGML+TA+P8-TA-2018-0337+0+DOC+PDF+V0//EN (last visited Jan. 15, 2019 [2]《著作權法》第90-4條:「符合下列規定之網路服務提供者,適用第九十條之五至第九十條之八之規定:一、以契約、電子傳輸、自動偵測系統或其他方式,告知使用者其著作權或製版權保護措施,並確實履行該保護措施。二、以契約、電子傳輸、自動偵測系統或其他方式,告知使用者若有三次涉有侵權情事,應終止全部或部分服務。三、公告接收通知文件之聯繫窗口資訊。四、執行第三項之通用辨識或保護技術措施。連線服務提供者於接獲著作權人或製版權人就其使用者所為涉有侵權行為之通知後,將該通知以電子郵件轉送該使用者,視為符合前項第一款規定。著作權人或製版權人已提供為保護著作權或製版權之通用辨識或保護技術措施,經主管機關核可者,網路服務提供者應配合執行之。」 [3] 行政院,《數位通訊傳播草案》(2017) [4] Youtube,Content ID 的運作方式(2019),https://support.google.com/youtube/answer/2797370?hl=zh-Hant [5] PlagiarismToday,(2019), YouTube’s Copyright Insanityhttps://www.plagiarismtoday.com/2019/01/10/youtubes-copyright-insanity/ (last visited Jan. 15, 2019) [6] Google,How Google Fights Piracy 2016(2016), https://drive.google.com/file/d/0BwxyRPFduTN2cl91LXJ0YjlYSjA/view (last visited Jan. 15, 2019) [7] 指提供下列服務者:(一)連線服務提供者:透過所控制或營運之系統或網路,以有線或無線方式,提供資訊傳輸、發送、接收,或於前開過程中之中介及短暫儲存之服務者。(二)快速存取服務提供者:應使用者之要求傳輸資訊後,透過所控制或營運之系統或網路,將該資訊為中介及暫時儲存,以供其後要求傳輸該資訊之使用者加速進入該資訊之服務者。(三)資訊儲存服務提供者:透過所控制或營運之系統或網路,應使用者之要求提供資訊儲存之服務者。(四)搜尋服務提供者:提供使用者有關網路資訊之索引、參考或連結之搜尋或連結之服務者。 [8] 指提供使用者數位通訊傳播服務(指提供公眾或他人使用數位通訊傳播-以有線、無線、衛星或其他電子傳輸設施傳送數位格式之聲音、影像、文字、數據或其他訊息之服務)之自然人、商號、法人或團體。 [9] 經濟部智慧財產局,著作權法網路服務提供者ISP民事免責事由Q&A(2013),https://www.tipo.gov.tw/ct.asp?xItem=207034&ctNode=7193&mp=1 [10] Special account shall be taken of fundamental rights, the use of exceptions and limitations as well as ensuring that the burden on SMEs remains appropriate and that automated blocking of content is avoided. [11] European Parliament, Q and A on the draft digital copyright directive(2019), http://www.europarl.europa.eu/news/en/press-room/20190111IPR23225/q-and-a-on-the-draft-digital-copyright-directive (last visited Jan. 15, 2019)
合成資料(synthetic data)「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。 在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。 英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。 技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。
從歐洲法院實務看資料保護在智慧聯網時代下發展-以資料保存指令無效案和西班牙Google案為例