合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/03/13)
引註此篇文章
你可能還會想看
美國健康保險制度下的個人資料安全保護隱憂

  為降低美國人民在醫療保險費用的支出,同時加強管理現有的保險產業,同時提供美國人民一更易負擔的醫療保險制度,美國總統歐巴馬自上任以來遂特別加強推動美國健康保險制度,與相關現有醫療保險制度的建置與改革,並於2010年3月23日通過「病患保護與平價醫療法案」(The Patient Protection and Affordable Care Act,本法暱稱Obamacare),並計劃於今(2013)年10月正式啟動上路。   為集中且便利相關機構快速讀取單一個人之相關資訊,Obamacare計畫透過聯邦數據服務樞紐(The Federal Data Services Hub)的建置,彙整目前美國各單一政府單位所保有之全民個人資料,該類資料涵蓋個人醫療、教育、和財務等相關資訊,提供各州政府單位機關有需求時得以讀取。然而,儘管該服務樞紐的用意係為提供更完整的個人資料,然而其卻也因其本身具集中單一個人資料於一身的特性而受到各界的質疑。反對人士認為,由於該服務樞紐彙整龐大單一個人資料,因此若其未建立完善資訊安全機制,而遭受到不肖駭客入侵竊取個人資料的話,所造成的後果將影響甚遠,再加上未來將管理服務樞紐的美國衛生及公共服務部(The Department of Health and Human Services, HHS),遲遲未能讓外界信服其已建立充分的資訊安全保全系統來保障全美國人民的個人資料,因此反對人士對於該服務樞紐對於個人資料安全與隱私的保全能力感到堪慮。   根據美國隱私法(Privacy Act of 1974),美國政府需提供適當的隱私保全機制來保障美國人民的個人資料,同時,美國聯邦資訊安全管理法(Federal Information Security Management Act of 2002)亦要求美國政府需確保美國人民的個人資料不被濫用,故在該二法案的明文要求下,歐巴馬政府於推行Obamacare之際,相關資訊安全保全系統機制仍須符合標準始得合法運作。Obamacare上路在即,歐巴馬政府與相關部會該如何解決個人資料保護問題,其後續發展實值得觀察。

華盛頓橄欖球隊(D.C. NFL)新商標命名充滿變數

  華盛頓橄欖球隊(Washington Football Team,簡稱D.C. NFL)原名為華盛頓紅皮隊(Washington Redskins),其名稱”Redskins”因具有種族歧視含意,一直以來都充滿爭議,雖然在漫長的法律程序中,成功的維護了他們的”Redskins”商標,然最終仍不敵輿論的壓力,在2020年7月放棄了這個已使用87年之久的商標。   如何為球隊重新命名一個品牌名稱以替代那悠久且著名的原品牌名稱,且新名稱要能夠讓球迷具有認同感,對球隊來說本就不是件容易的事,何況還需要考慮到9月即將開始的NFL(The National Football League)賽季,這更名時程看來就顯得更加緊迫。除了考量到NFL為全球性的賽事,商標命名時所需考量的市場變成全球市場而使這任務更顯艱鉅之外,現在球隊將因為其球迷的行為,使得其新品牌的命名橫添變數。   自1980年來即是球隊粉絲的菲利浦•馬丁•麥考利(Philip Martin McCaulay),已經留意到球隊更名的可能性,近年將可能的名稱先申請商標,除了華盛頓勇士隊(Washington Warriors)外,還包含華盛頓紅狼(Washington Red Wolves)、華盛頓紀念碑(Washington Monuments)、華盛頓熊貓(Washington Pandas)等多達40個商標,而且從美國專利商標局(United States Patent and Trademark Office)資料,麥考利顯然不是唯一一位這樣做的人,究竟是要取得他人的授權,或是經過漫長的命名流程,面對9月就要到來的賽季,已經沒有太多時間留給球隊考慮。   隨著時間變遷,商標法中妨害公序良俗的認定亦會改變,因此品牌長期經營亦須時時檢視該商標在當下的涵義,及早變更因應的方向。 「本文同步刊登於TIPS網站(https://www.tips.org.tw )」

跨平台應用程式的開發探討-以資料流動因應措施為中心

日本政府將於東京都及愛知縣成立「自駕車實證一站式中心」

  日本政府於2017年9月4日所召開之國家戰略特區區域會議(下稱戰略區域會議),決定由政府、東京都及愛知縣,共同成立「自駕車實證一站式中心」,協助企業及大學之自駕車相關實證研究。在自動駕駛實驗開始前,中心接受道路交通法等各程序相關諮詢,必要時可將相關程序以其他方式置換,將複數程序整合為一,推動相關實驗。   戰略區域會議並決定將窗口設置於東京都及愛知縣,欲進行實驗之企業可至前述窗口諮詢,東京都及愛知縣應與相關省廳及所管轄之警察、交通部門進行協調,並將所需之資訊彙整後回覆予企業,如此一來,企業可減輕實驗前繁瑣程序所帶來之負擔,進而降低啟動實驗之門檻。   東京都小池百合子知事於會後向記者們表示「自駕系統於汽車產業中,已是國家間之競爭」,且東京都將致力於「沙盒特區」體制之推動,於必要時可暫時停止相關現行法規之限制。愛知縣大村秀章知事則期待「透過實證實驗累積技術,促使愛知縣能維持引領世界汽車產業聚集地之地位」。   針對上述特區的設置,未來實際落實情況以及法規排除作法與範圍,值得我國持續投入關注。

TOP