合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2025/12/06)
引註此篇文章
你可能還會想看
加拿大隱私專員呼籲提升加拿大人在美國之隱私保護

  加拿大隱私專員表示,其國人在美國雖享有一些隱私保護,但該保護主要係依賴不具法律效力之行政協議,因而相當脆弱。   隱私專員Daniel Therrien在一封致加拿大司法部長、公共安全部長及國防部長的公開信中,請求加拿大政府官員們向其對口之美國政府部門,要求藉由將加拿大列入美國國會去(2016)年通過之「司法賠償法案(Judicial Redress Act of 2015)」指定國家清單,以強化對其國人之隱私保護。隱私專員並表示,國人關切並請加拿大隱私專員辦公室(OPC)針對美國總統唐納.川普(Donald John Trump)所發布之行政命令進行影響評估,因其將排除非美國公民及合法永久居民隱私權法中關於個人可資識別資料之保護。   倘若加拿大能如同歐洲聯盟(European Union)及26個歐洲國家一般,於今年初時被列入前述指定清單,則其公民即可透過美國法院之強制執行,獲得隱私保障。此外亦可同時強化行政協議,如:美加邊境安全行動計劃(Canada-U.S. Beyond the Border Action Plan)及其聯合隱私聲明原則(Joint Statement of Privacy Principles)給予加拿大人之保護。   聯合隱私聲明原則涵括12項,其重要者有: 1.善盡一切合理努力,確保個人資料之正確性,以及後續請求查閱及更正錯誤之權利。 2.個人資料適當安全維護措施。 3.蒐集個人資料之相關性及必要性。 4.當事人認為其隱私受侵害時,得受繼有國家當局之賠償。 5.公務機關之有效監督。   縱算美國隱私權法自始即從未適用於加拿大人,且前開行政命令亦未改變現況,該命令仍突顯出「在南邊境上對加拿大人個人資料保護的顯著差距」。 「作為一個長期盟友以及密切的貿易夥伴,加拿大應要求被給予和那些經指定列入清單之歐洲國家相同程度之保護。」

我國生物與遺傳資源權利歸屬及管理思維初探

英國提出因應GDPR自動化決策與資料剖析規定之細部指導文件

  2018年5月,英國資訊專員辦公室(Information Commissioner’s Office, ICO)針對歐盟GDPR有關資料自動化決策與資料剖析之規定,公布了細部指導文件(detailed guidance on automated decision-making and profiling),供企業、組織參考。   在人工智慧與大數據分析潮流下,越來越多企業、組織透過完全自動化方式,廣泛蒐集個人資料並進行剖析,預測個人偏好或做出決策,使個人難以察覺或期待。為確保個人權利和自由,GDPR第22條規定資料當事人應有權免受會產生法律或相類重大效果的單純自動化處理決策(a decision based solely on automated processing)之影響,包括對個人的資料剖析(profiling),僅得於三種例外情況下進行單純自動化決策: 為簽訂或履行契約所必要; 歐盟或會員國法律所授權; 基於個人明示同意。   英國2018年新通過之資料保護法(Data Protection Act 2018)亦配合GDPR第22條規定,制定相應國內規範,改變1998年資料保護法原則上容許資料自動化決策而僅於重大影響時通知當事人之規定。   根據指導文件,企業、組織為因應GDPR而需特別留意或做出改變的事項有: 記錄資料處理活動,以幫助確認資料處理是否符合GDPR第22(1)條單純自動化決策之定義。 倘資料處理涉及資料剖析或重大自動化決策,應進行資料保護影響評估(Data Protection Impact Assessment, DPIA),判斷是否有GDPR第22條之適用,並及早了解相關風險以便因應處理。 提供給資料當事人的隱私權資訊(privacy information),必須包含自動化決策之資訊。 應確保組織有相關程序能接受資料當事人的申訴或異議,並有獨立審查機制。   指導文件並解釋所謂「單純自動化決策」、「資料剖析」、「有法律效果或相類重大影響」之意義,另就可進行單純自動化決策的三種例外情況簡單舉例。此外,縱使符合例外情況得進行單純自動化決策,資料控制者(data controller)仍必須提供重要資訊(meaningful information)給資料當事人,包括使用個人資料與自動化決策邏輯上的關聯性、對資料當事人可能產生的結果。指導文件亦針對如何向資料當事人解釋自動化決策處理及提供資訊較佳的方式舉例說明。

美國白宮發佈「AI應用監管指南」十項原則

  美國白宮科技政策辦公室(Science and Technology Policy, OSTP)在2020年1月6日公布了「人工智慧應用監管指南(Guidance for Regulation of Artificial Intelligence Applications)」,提出人工智慧(AI)監管的十項原則,此份指南以聯邦機構備忘錄(Memorandum for the Heads of Executive Departments and Agencies)的形式呈現,要求政府機關未來在起草AI監管相關法案時,必須遵守這些原則。此舉是根據美國總統川普在去(2019)年所簽署的行政命令「美國AI倡議」(American AI Initiative)所啟動的AI國家戰略之一,旨在防止過度監管,以免扼殺AI創新發展,並且提倡「可信賴AI」。   這十項原則分別為:公眾對AI的信任;公眾參與;科學誠信與資訊品質;風險評估與管理;效益與成本分析;靈活性;公平與非歧視;揭露與透明;安全保障;跨部門協調。旨在實現三個目標: 一、增加公眾參與:政府機關在AI規範制定過程中,應提供公眾參與之機會。 二、限制監管範圍:任何AI監管法規實施前,應進行成本效益分析,且機關間應溝通合作,建立靈活的監管框架,避免重複規範導致限制監管範圍擴大。 三、推廣可信賴的AI:應考慮公平性、非歧視性、透明性、安全性之要求,促進可信賴的AI。   這份指南在發佈後有60天公開評論期,之後將正式公布實施。白宮表示,這是全球第一份AI監管指南,以確保自由、人權、民主等價值。

TOP