合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2025/12/10)
引註此篇文章
你可能還會想看
日本農林省研議農業AI契約指引

  日本為提高農產品品質及附加價值,近年積極推動智慧農業,鼓勵利用AI等新技術研發農業產品和相關服務,惟技術研發需要使用大量資料訓練AI模型,部分農業工作者擔心自身經驗及知識等資料在研發過程中外洩,為避免上述狀況發生,農林水產省於2019年7月9日召開「農業AI利用契約指引檢討會」(農業分野におけるAIの利用に関する契約ガイドライン検討会),研議「農業AI利用契約指引」,防止在進行AI相關應用研發時,農業工作者提供之資料不慎外洩或遭到不當利用,導致其權益受損。   「農業AI利用契約指引檢討會」於2019年12月19日舉辦第3次會議,公布農業AI利用契約指引草案,草案內容包括(1)總論︰說明本指引之制定目的、農業與AI的關係,以及本指引與其他類似指引之差異和適用範圍;(2)農業AI產品、服務契約基本事項︰說明利用AI研發之農業產品和服務相關之智慧財產權,契約要件(契約目的及契約當事人等)及農業AI模型研發流程等基本概念;(3)農業AI產品、服務契約注意事項︰說明AI產品和服務契約之特徵和注意事項,以及利用AI等新技術進行研發之當事人訂定契約時應注意的問題,如農業工作者所提供之資料的重要性、以及個人資料的處理方式等;(4)契約範本︰針對農業AI研發契約、農業AI產品和服務利用契約,以及向第三方提供農業資料之契約,說明契約內容重點及提供範本供作參考。

歐盟對於「被遺忘權」公布指導方針與實施準則

  歐盟資料保護主管機關(European Union Data Protection Authorities, EU DPAs,以下簡稱DPAs)所組成的第二十九條資料保護工作小組(The Article 29 Working Party,以下簡稱WP29) ,於2014年11月26日宣布將適用5月13日Google西班牙案(C-131/12)判決結果之指導方針(guideline)。該項宣示確立了被遺忘權效力所及之範圍,以及各國DPAs受理資料主體(data subject)所提出訴訟之標準。   WP29表示,一如該判決所示,將連結於搜尋結果清單中移除,必須以全球網域為範圍,才能使資料主體權利受到完整、有效之保護,並且所依據歐盟資料保護指令95/46/EC才不至於受到規避。因此,儘管搜尋引擎營運者如Google認為,該項指令效力僅限制於歐洲,以及全球網域中低於5%歐洲網路使用戶,所以他們只需要將具爭議的連結,從歐盟網域的用戶搜尋結果中移除即可。但WP29則強調,倘若判決僅以歐盟網域為限制範圍,對於欲為歐盟公民隱私保護的立意來說,可能將無法全面保護。鑑此,歐洲隱私監管機構(Europe’s privacy regulators)亦於2014年11月26日表示,搜尋引擎營運者如Google公司,將連結於搜尋結果清單中移除,必須以全球網域為範圍,而非只是僅以歐盟境內網域為資料主體得要求實行被遺忘權(right to be forgotten)的範圍,以符合歐洲法院判決的要求結果。   自該判決所確立之資料保護權利主張,以資料主體發現某一搜尋係以其姓名為基礎,而搜尋結果的清單顯示通往含有該個人資訊網頁之連結,則資料主體得直接與搜尋引擎營運者聯絡(approach);次之,若搜尋引擎營運者不允其要求,資料主體則得轉向各國DPAs,在特定情形下,要求將該連結從搜尋結果清單之移除 。係該判決以歐盟資料保護指令95/46/EC為法規依據,經由釐清相關爭點、樹立指導方針及準則(criteria),謹分別列出如下: (一)搜尋結果是否連結至個人資訊,並且包含資料主體之姓名、筆名或暱稱; (二)是否資料主體在公領域居有重要角色或具公眾形象,以及是否公眾應具有取得前述資料之法益; (三)是否資料主體為少數例子,(意即顯見DPAs可能要求移除該搜尋結果) (四)是否資料具正確性; (五)是否資料具關聯性且不過份,並(a)連結至資料主體之工作生活;(b)搜尋結果(the search result)連結至據稱對訴訟者為憎恨、評論、毀謗、汙辱或具侵犯性資訊;(c)資料清楚反映為個人意見,或顯然受過驗證為事實。 (六)是否根據資料保護指令第8條,該資料具敏感性如個人健康狀況、性向或宗教信仰; (七)是否該資料已經過時,或是對於資料處理目的來說,其存在已為冗贅; (八)是否該資料處理已足生對資料主體之偏見,並且對其隱私已具有不對等的負面影響; (九)是否搜尋結果與資料連結,已造成資料主體暴露於危險威脅,例如竊取身分或受到跟蹤; (十)是否資料主體(a)自願使公眾知悉其資訊內容,或(b)可合理據知其所資訊內容將使公眾所知悉,或(c)意圖使公眾知悉其資訊內容; (十一)原有資訊是否以新聞目的為出版,而該項標準不得單獨為拒絕請求移除之基礎; (十二)資訊之出版者是否具有法律依據或義務,使該個人資料得公諸於世; (十三)是否該資料涉及刑事犯罪,而應由DPAs以公權力使犯罪者資訊公諸於世,原則上DPAs可能考慮對犯罪發生年代相對久遠、犯行較輕者,為搜尋結果之移除;而較不可能對近期發生、犯行嚴重者,為搜尋結果之移除。   以上13項準則皆立基於大眾取得資料權之法益為衡量,供各國依個案判斷是否受理資料主體所提出訴訟,以俾利未來各國DPAs處理相關爭訟之遵循依據。

FCC將電力線寬頻上網(BPL, Broadband over Power Line)服務分類為資訊服務

  FCC經過討論與投票,正式發佈命令將電力線寬頻上網服務分類為跨州資訊服務(interstate information service),而非電信服務,其他寬頻上網科技包括DSL、有線電纜線數據機寬頻上網亦被FCC分類為資訊服務。   過去幾年來,FCC一直大力支持電力線寬頻上網服務,期望電力線寬頻上網服務可以進入寬頻服務市場,與DSL和有線電視纜線數據機寬頻上網服務競爭,以增加寬頻服務市場之競爭,提高美國之寬頻普及率。而就此次所發佈之命令,FCC認為,將電力線寬頻上網分類為資訊服務將可使電力線寬頻上網服務受到較低的管制,有助於達成隨時隨地提供所有美國民眾寬頻接取之目標。其次,FCC在數位匯流時代之管制乃是期望能對於各種不同技術之寬頻接取平台給予一致的管制措施,並且對於相同之服務採取相同的管制方式。基於上述原因,FCC此次將電力線寬頻上網分類為資訊服務並不讓人感到意外。   FCC主席Kevin J. Martin進一步在其聲明中表示,雖然目前電力線寬頻上網人口並不多,然在2005年其成長率卻將近200%,顯見電力線寬頻上網服務之市場潛力不容忽視,將可幫助達成美國總統定下於2007年底前隨時隨地提供全國民眾寬頻網路接取之目標。

美國羅德島州通過《羅德島資料透明度與隱私保護法》,保護個人資料不被濫用,該法案將於2026年1月1日生效

隨著網路蓬勃發展,個人資料之蒐集、處理及利用越來越普遍,同時也造成資料洩漏和濫用的問題日益嚴重,進而對隱私和個人資料構成侵害與威脅,為保障人民隱私和增強資料透明度,羅德島州州議會於2024年通過了一項具有里程碑意義的法律—《羅德島資料透明度與隱私保護法》(Rhode Island Data Transparency and Privacy Protection Act)。其核心內容包括以下幾個方面: 一、 適用對象:於羅德島州州內經營商業之營利組織(下簡稱企業),或主要生產製造商品、提供服務予該州居民之企業,且: 1. 在前一年度控制或處理超過三萬五千筆個人資料(personally identifiable information)者,但單純為完成付款交易之資料除外。 2. 控制或處理超過一萬筆個人資料,且總營收超過百分之二十係源自於銷售個人資料者。 二、 資料蒐集企業與資料當事人權利義務: 1. 選擇同意與退出權:前開適用對象應賦予資料當事人即消費者就其個人資料之蒐集、處理,行使選擇同意權(opt in)與退出權(opt out)。 2. 資料蒐集與利用透明度:要求企業蒐集個資前,須明確告知資料當事人蒐集目的、利用範圍以及可能的資料共享對象,並取得其同意。 3. 控制權:資料當事人有權向企業請求查詢、修改及刪除自己的資料,企業在接到請求後,必須即時處理該請求,並於45天之法定期限內准駁其請求;必要時得於通知當事人合理事由後,展延一次。 4. 安全維護措施:企業必須採取適當之安全維護措施來保護個人資料不受未經授權的近用、洩漏、竄改或毀損。前述措施,包括但不限於資料加密、權限管控等技術上管控措施。 5. 資料保護評估:企業須就「對消費者傷害風險較高」活動進行評估並保存文件化紀錄,包括: (1) 為精準行銷之目的(Targeted Advertising); (2) 銷售個人資料; (3) 為資料剖析之目的處理個人資料,且具合理可預見的風險將可能對消費者之財務、身體或名譽造成不公平或欺騙性的待遇,或非法的衝擊影響。 《羅德島資料透明度與隱私保護法》強化企業對資料隱私保護之責任,並督促其遵守法律要求。預計施行後將能加強對資料主體個人資料知情權、控制權、透明度及資料安全之保障。

TOP