合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/04/23)
引註此篇文章
你可能還會想看
物聯網時代的資料保護防線-以歐盟GDPR為中心

日本與歐盟間個人資料之國際傳輸

  歐盟委員會(European Commission)原則上禁止將歐盟境內的個人資料傳輸至境外,只有經歐盟委員會認定其個人資料保護機制達到歐盟認可標準的國家或地區例外,例如:瑞士、加拿大、以色列等。而日本未能進入前揭國家之列的主要原因,係日本之個人資料保護法未將政府部門納入規範對象。但是基於經濟全球化的需求,日本與歐盟自2017年第一季開始加速進行雙邊合意協商。   日本個人資料保護委員會公布,於2017年5月修正施行的個人資料保護法,已符合歐盟資料保護規則中准許進行境外傳輸的標準。其中包括以獨立的個人資料保護機關來確保必要的保全機制能確實執行等五點(新設立個人資料保護委員會、個人資料定義的明確化、個人料去識別化、非法販賣個人資料之處罰、其他)。    歐盟對此表示,雙邊對於個人資料保護之標準的差異性已經漸漸縮小,利於日本與歐盟間個人資料國際傳輸的環境也已經逐漸形成。目前於歐盟境內設立子公司或是設立法人的日本企業,預期2018年即能自由就歐盟境內雇員或顧客的個人資料,進行日本與歐盟間的國際傳輸。    由於歐盟關於個人資料之保護,為歐洲聯盟基本權利憲章(Charter of Fundamental Rights of the European Union)所明定,企業若非法進行個人資料境外傳輸,會被處以高額罰金,金額約相當於該企業一年內全球營業額總額的4%或2000萬歐元,兩者取其高者為上限;股東甚至也可能面臨被提起訴訟的風險。日本此次修法,對日本在歐盟境內的企業經營將帶來莫大的裨益。

德國隱私保護機構指稱Facebook實名制違法

  Facebook之實名制政策禁止用戶使用假名,此一行為已遭德國隱私保護機構禁止。德國Schleswig-Holstein邦的資料保護中心組織(Office of the Data Protection Commissioner,簡稱ULD)控訴臉書「實名制」已違反德國電信媒體法(Telemediengesetz)。依據德國「電信媒體法」規定,只要匿名的使用具有技術上之合理性及可行性時,服務供應商必須允許用戶採用假名,惟Facebook的實名制政策卻禁止用戶使用假名。資料保護中心表示,Facebook要求用戶註冊時須填入真實姓名,違反德國電信媒體法第13條第6項。ULD表示,為確保網路用戶權利及遵守網路保護法,臉書應立即終止實名制的執行。Facebook發言人則對ULD指控不以為然,主張「服務供應商有權在現行法律下自行決定所採取之匿名政策」,並表示Facebook採取實名制係為保護社群安全,若發現用戶使用假名將刪除帳號。Facebook發言人認為「這只是在浪費德國納稅人的金錢!此法律之指控毫無意義,同時我們也將據理力爭。」Facebook認為,實名制是該網站經營之重要機制,除了能與其他社群網站做出明顯的市場區隔外,更能積極保護用戶的個人資料。

大倫敦政府推動城市資料市集,期尋求資料利用及隱私保護間之平衡,建立民眾對資料市集之信賴

  資料利用之層面越來越廣,且無論是基於商業或公益目的,產生越來越多難題。穿戴式裝置及物聯網的發展,亦使得資料之蒐集利用及界線等問題更顯其重要性。有鑑於此,大倫敦政府(Greater London Authority, GLA)在今(2016)年3月公布「倫敦城市資料策略」(London City Data Strategy),積極推動「城市資料市集」(City Data Market),期將倫敦打造成世界首屈一指的智慧城市。   增加大眾對資料市集之信賴並減少疑慮乃「倫敦城市資料策略」之一環,近年在英國有一系列新法上路,除新的歐盟資料保護規範(GDPR)外,英國國內有關「開放銀行」(open banking)之新規範,以及已有能源及電信公司參與之MiData initiative等,上述機制均為促使個人更容易掌握其個資被利用之狀況。   大倫敦政府亦推動「倫敦資料交易」(London Data Exchange),大眾可利用此一機制掌握其個資流向。其中有關建置新的數位符號(digital tokens of proof),使民眾未來可利用此等符號證明符合特定資格,例如在道路受檢時,毋須拿出駕照說明個人姓名、地址、出生年月日等資料,利用該等符號,便可判定符合駕駛年齡。   近期,大倫敦政府透過資料科學合作夥伴(Data Science Partnership)推動資料科學倫理架構(Framework for Data Science Ethics),著手研究民眾對資料交易新機制的反應,試圖在資料利用與法律和道德問題間尋求平衡。

TOP