合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/05/06)
引註此篇文章
你可能還會想看
歐盟執委會發布「2016-2020年e政府行動計畫」並展開公眾諮詢

  歐盟執委會先前自2015年10月30日到2016年1月22日,針對其2016-2020年e政府行動計畫(eGovernment Action Plan)進行了公眾諮詢程序。執委會依據其公眾意見諮詢之初步分析,於2016年2月23日說明其2016-2020年的e政府行動計畫政策,將藉由公共行政管理措施(包含司法部分)的e化,實現歐盟數位單一市場的目標,提高跨境的互通性以及促進歐盟公民間的便捷交流。   歐盟執委會就該計畫目前有以下四項目標: (1) 透過資通訊之技術促進公共管理措施的現代化。 (2) 藉由數位化的公共服務提高跨境行動(cross-border mobility)的可能。 (3) 加強行政單位與歐盟公民及企業間的數位互動交流(digital interaction)。 (4) 推動數位化的關鍵措施。   相關監測及措施期程的指標,執委會將於未來幾個月內再為詳細之說明。而所有e政府行動計畫均應依循下列原則進行: (1) 數位化設定(digital-by-default):若其他可傳送服務之管道能選擇中斷服務或必須中斷服務時,行動措施應給予服務線上傳輸的特權。 (2) 跨境設定(cross-border by default):行動措施不應於歐盟內部市場製造新的跨境障礙。 (3) 一次性原則(once-only principle):行動措施應僅得於行政單位從未持有數據或資訊時,要求歐盟公民或企業提供該數據或資訊。 (4) 內含設定(inclusive by default):行動措施應促進所有歐盟公民或企業與公共行政單位的互動交流。 (5) 不保留原則(no legacy principle):超過15年的基礎設施或應用服務不再維護保留。 (6) 隱私及資料保護(privacy & data protection):所有數位化的公共服務皆應就個人資料之基本權利為完善的保護。 (7) 開放及透明化設定(open & transparency by default):行動措施應就重複使用及透明化為開放之設定。

因應綠色採購 環保標章實驗室認證問題有待解決

  近年來,國際企業強調「綠色商機」,綠色競爭力更成為台灣企業進軍國際市場的指標之一。政府配合綠色風潮,鼓勵國內綠色生產及綠色消費,在政府採購法增列綠色採購條款,並通過「機關優先採購環境保護產品辦法」。然而這些美意,卻可能因為環保標章實驗室認證問題,大打折扣。   造成上述結果的主要原因是,我國因相關環保法令不周全,環保管理、監督單位權責不一,形成三不管局面,影響廠商競爭力。舉例而言,現在環保署嚴格把關環保標章實驗室,檢查近 20 家實驗室,最後只認定三家有合格檢測能力,廠商要取得環保標章,一定要找這三家業者,形成供需嚴重失衡局面,廠商耗時、浪費金錢,還是拿不到環保標章。   另外,環保標章實驗室的管理單位,應該是環保署還是經濟部標準檢驗局;發生爭議事件,環保署和標準局各有說詞。環保標章是環保署核發,但實驗室檢測、管理則由標檢局負責,故而出現三不管的局面。   今年 7 月 1 日 ,歐盟全面執行 RoHS (無鉛製程)環保措施,明年,歐盟開始執行 WEEE (廢棄電機電子產品回收)環保措施,由於台灣資訊大廠 98% 為出口導向,這兩個規定使我國資訊廠商不得不審慎因應之,然而, RoHS 及 WEEE 僅是一個開端,未來歐盟一旦通過 REACH 規則,因環保要求而受影響的產業將更多,可見環保標章實驗室認證問題,必須嚴格看待並儘速解決。

川普簽署行政命令以促進美國AI領域的發展

  美國總統川普於2019年2月11日簽署一項行政命令,發布「美國AI倡議」(American AI Initiative),旨在確保美國在AI領域的領導地位,川普並說道:「美國在AI領域的領導地位對於維護美國的經濟和國家安全至關重要」。「美國AI倡議」從五大方面來促進美國在AI領域的領導地位,包括: (一) 投資AI的開發   指示聯邦機構在研發任務及編排預算時,將AI作為優先投資項,確保美國對於AI基礎研發的長遠重視,此外,政府機構並應說明如何將預算用於AI研發開支,以增進對於AI投資的評估。 (二) 數據和資源共享   將聯邦政府中所擁有的統計數據資料、運算模型及運算資源提供給AI研發人員,促進交通和醫療保健等領域的AI發展。 (三) 建立政府標準及監管   白宮科技政策辦公室和美國國家與技術研究院(NIST)制定標準,以提升AI系統的「可靠、穩健、值得信賴、安全、可移轉和具協同性」。透過為不同技術和產業的AI制定使用指南,確保AI的使用安全和適當監管。 (四) 人才培訓   要求各機構為AI進步形成的就業市場變化做好準備,並考慮透過技能培訓課程、獎學金和學徒制度,因應市場人力產生之變化。 (五) 國際參與   與其他國家制定合作策略,協同AI技術的開發,同時確保AI領域之開發符合和不損及美國人的價值觀和利益。   此項倡議雖提及許多面向之發展,但仍然缺少發展細節,亦未提及計畫新資金的投入,因此,許多人對此倡議皆提出質疑。曾協助歐巴馬政府制定AI報告的哈佛大學教授Jason Furman即表示,此「倡議」雖令人鼓舞,但僅是邁出第一步,關鍵的考驗將在於是否能以強而有力的方式確實貫徹執行倡議中的內容,此倡議仍欠缺細節及執行面之部分。

英國提出因應GDPR自動化決策與資料剖析規定之細部指導文件

  2018年5月,英國資訊專員辦公室(Information Commissioner’s Office, ICO)針對歐盟GDPR有關資料自動化決策與資料剖析之規定,公布了細部指導文件(detailed guidance on automated decision-making and profiling),供企業、組織參考。   在人工智慧與大數據分析潮流下,越來越多企業、組織透過完全自動化方式,廣泛蒐集個人資料並進行剖析,預測個人偏好或做出決策,使個人難以察覺或期待。為確保個人權利和自由,GDPR第22條規定資料當事人應有權免受會產生法律或相類重大效果的單純自動化處理決策(a decision based solely on automated processing)之影響,包括對個人的資料剖析(profiling),僅得於三種例外情況下進行單純自動化決策: 為簽訂或履行契約所必要; 歐盟或會員國法律所授權; 基於個人明示同意。   英國2018年新通過之資料保護法(Data Protection Act 2018)亦配合GDPR第22條規定,制定相應國內規範,改變1998年資料保護法原則上容許資料自動化決策而僅於重大影響時通知當事人之規定。   根據指導文件,企業、組織為因應GDPR而需特別留意或做出改變的事項有: 記錄資料處理活動,以幫助確認資料處理是否符合GDPR第22(1)條單純自動化決策之定義。 倘資料處理涉及資料剖析或重大自動化決策,應進行資料保護影響評估(Data Protection Impact Assessment, DPIA),判斷是否有GDPR第22條之適用,並及早了解相關風險以便因應處理。 提供給資料當事人的隱私權資訊(privacy information),必須包含自動化決策之資訊。 應確保組織有相關程序能接受資料當事人的申訴或異議,並有獨立審查機制。   指導文件並解釋所謂「單純自動化決策」、「資料剖析」、「有法律效果或相類重大影響」之意義,另就可進行單純自動化決策的三種例外情況簡單舉例。此外,縱使符合例外情況得進行單純自動化決策,資料控制者(data controller)仍必須提供重要資訊(meaningful information)給資料當事人,包括使用個人資料與自動化決策邏輯上的關聯性、對資料當事人可能產生的結果。指導文件亦針對如何向資料當事人解釋自動化決策處理及提供資訊較佳的方式舉例說明。

TOP