經濟合作與發展組織(Organisation for Economic Co-operation and Development, OECD)於2025年2月9日發布《抓取資料以訓練AI所衍生的智慧財產問題》報告(Intellectual property issues in artificial intelligence trained on scraped data),探討AI訓練過程中「資料抓取」對智慧財產之影響,並提出政策建議,協助決策者保障智財權的同時推動AI創新。 資料抓取是獲取AI大型語言模型訓練資料之主要方法,OECD將其定義為「透過自動化方式,從第三方網站、資料庫或社群媒體平臺提取資訊」。而未經同意或未支付相應報酬的抓取行為,可能侵害作品之創作者與權利人包括著作權、資料庫權(database rights)等智慧財產及相關權利。對此,報告分析各國政策法律的因應措施,提出四項關鍵政策建議: 一、 訂定自願性「資料抓取行為準則」 訂定適用於AI生態系的準則,明確AI資料彙整者(aggregators)與使用者的角色,統一術語以確保共識。此外,準則可建立監督機制(如登記制度),提供透明度與文件管理建議,並納入標準契約條款。 二、 提供標準化技術工具 標準化技術工具可保護智財權及協助權利人管理,包括存取控制、自動化契約監控及直接支付授權金機制,同時簡化企業合規流程。 三、 使用標準化契約條款 由利害關係人協作訂定,可解決資料抓取的法律與營運問題,並可依非營利研究或商業應用等情境調整。 四、 提升法律意識與教育 應提升對資料抓取及其法律影響的認知,協助權利人理解保護機制,教育AI系統使用者負責任地運用資料,並確保生態系內各方明確瞭解自身角色與責任。
加拿大提供App開發供應商指導方針解決因隱私保護所引發之問題。App已成為多數人每日不可或缺之夥伴,其應用層面廣及食、衣、住、行、育、樂等生活領域;不過用戶可能多未意識到,在App程式的下載及安裝過程中,開發供應商會記錄或接觸使用者手機中如電話簿、照片、影音檔案、簡訊、密碼記錄等其他資訊之可能。根據華爾街日報報導,56%的應用程式在用戶不知情的情況下,手機ID會發送給廠商;47%的應用程式會透露用戶的所處位置,使得個人隱私蕩然無存。 加拿大當地的隱私法規要求企業在追求創新及企業精神時必須將隱私保護納入考量;而在行動裝置應用環境中,無論是開發商、服務供應商、應用平台或是廣告商,只要有接觸用戶個人資訊之可能,就有遵守法規之義務。但考量App這樣一個嶄新又快速發展的科技生態,在實踐隱私保護精神之初可能會面臨到新的衝擊與挑戰。因此,加拿大隱私權主管機關(Office of the Privacy Commissioner of Canada,簡稱OPC)乃會同加拿大境內的阿爾伯特及不列顛哥倫比亞兩省各自之地方主管機關(其分別為Office of the Information & Privacy Commissioner of Alberta及Office of the Information & Privacy Commissioner for British Columbia)撰寫指導文件,希望能提供當地App開發供應商建議方案。 該項建議方案促使行動軟體開發供應商在設計與開發App應用程式時必須顧及使用者隱私之保護,並提供協助方式與預防原則,提高使用者隱私受保護之程度;除必須使用清晰且易懂之方式告知用戶的個人資料將進行何種用途外,在使用者下載前亦應告知被蒐集之資料類別及原因、資料儲存位置或地點、資料分享之可能及其原因、資料保存之期限、及其他可能影響用戶隱私之事件;倘若廠商必須變更隱私政策與規定,則應使用明確易懂之方式事先通知所有使用者了解進行何項變更,以強化用戶隱私與個人資料保護意識。
合成資料(synthetic data)「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。 在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。 英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。 技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。
歐盟將開發一套適用於全歐盟的權利登記系統,促使數位館藏的授權可以在一個透明且價格合理的機制下進行德國總理Angela Merkel在日前舉辦的法蘭克福書展中強調,反對在google在未釐清相關權利與建置對應的配套機制下,擅自將圖書典藏掃描數位化的作法。而不只德國反對Google的數位圖書計畫,歐盟執委會也在10月19日通過提案,要求歐盟正視圖書館藏數位化的智慧財產權議題,提案委員也督促歐盟應儘快採取行動,配合歐盟著作權法體系,發展更具競爭力的歐盟館藏數位化方案。 然在館藏書籍數位化的過程中,有必要先解決孤兒著作(verwaiste Werke)因著作人不明而無法進行數位化及授權的困境。據估計,英國圖書館館藏就有40%屬於孤兒著作。為找出一套簡易的授權機制,並建立歐盟各國針對孤兒著作共通的認定標準,歐盟在eContent Plus計畫架構下,於2008年11月便開始所謂「ARROW行動方案(Accessible Registries of Rights Information and Orphan Works)」,希望透過各國圖書館、著作權集體管理團體、出版商間的參與,整合歐盟境內不同的權利登記機制,共同開發出一套適用於全歐盟的權利登記系統,清楚顯示歐盟境內各種著作的權利狀態,促使數位館藏的授權可以在一個透明且價格合理的機制下進行,同時確保著作人可以得到適當的報酬。 有關歐盟針對圖書數位化的政策與討論,以及google數位圖書協議後續協商的結果,仍有待持續追蹤觀察。