合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2025/12/19)
引註此篇文章
你可能還會想看
普利司通公司就安裝在美國汽車中之零組件價格壟斷乙案認罪,並同意支付4億2仟5佰萬美元刑事罰金

  美國司法部宣布日商普利司通(Bridgestone Corp.)股份有限公司,就其共謀操縱安裝於汽車中並銷售至美國及其他國家之汽車防震橡膠零組件價格乙案認罪,並同意支付4億2仟5佰萬美元之刑事罰金。   根據俄亥俄州(Ohio)地方法院所提起的一項重罪控訴,該公司於美國及其他國家共謀參與分配銷售、操縱報價及壟斷、提高並維持其出售予豐田(Toyota)、日產(Nissan)汽車公司、富士重工業(Fuji Heavy Industries)公司、鈴木(Suzuki Motor)公司、五十鈴(Isuzu Motors)汽車公司及其某些子公司、加盟和供應商之汽車防震橡膠零組件價格。除了刑事罰金外,普利司通公司並同意配合司法部進行後續之汽車零組件案調查。本認罪協議(plea agreement),業經法院批准。   在2011年10月,普利司通公司即因「海洋軟管」(marine hose)乙案涉嫌壟斷價格及違反「海外貪污防治法」(Foreign Corrupt Practices Act)而遭控訴,經認罪協議並支付2仟8佰萬美元罰金。但於是案答辯中,該公司並未就其同時涉及防震橡膠零組件共謀操縱價格乙情,主動為揭露。該公司未主動揭露上情,乃是本次罰金高達4億2仟5佰萬美元原因之一。   美國司法部副助理部長Brent Snyder表示:「美國司法部反托拉斯署將針對屢犯卻未主動揭露其他反競爭行為者,採取強硬態度。本案之鉅額罰金,即重申該署致力於令企業就其傷害美國消費者之行為,負起責任。」普利司通公司遭指控因價格壟斷違反謝爾曼法案,依法最重可處1億美元之刑事罰金。如企業因犯罪所獲利益之兩倍數額,或犯罪被害人所受損失之兩倍數額,其一逾前開法定最高罰金時,得加重至該數額。

聯網自動駕駛車(CAV)

  聯網自動駕駛車(Connected and Autonomous Vehicles, CAV)是一種自動化聯網載具,係自動駕駛車以及互聯汽車兩種科技的集合,而CAV僅須符合其一即可稱之。按英國交通部的定義,自動駕駛車係為「無須稱職的駕駛者管理各種道路、交通與天候條件之下,能安全完成旅程的車輛。」目前上市產品中已可見部份自動駕駛車的身影,諸如自動路邊停車系統、先進輔助駕駛系統、自動緊急煞車系統等等。   互聯車輛科技允許車輛之間的互相溝通以及更廣泛聯網,目前已有的互聯車輛科技如動態導航系統、緊急求救系統(eCall)等,特別是歐盟欲規範未來新車都必備eCall系統,該系統可偵測事故發生並自動開啟安全氣囊、撥打求救電話並開啟全球定位系統(GPS),以利醫護人員快速救援。目前有三種正在發展中,用以支援互聯車輛的科技:V2V(車輛之間互聯)、V2I(車輛與交通設備互聯)、V2X(車輛與任何適當的科技互聯)。而發展CAV有六種益處,包括提升行車安全、減少交通阻塞、減少碳排放、更多自由時間可運用、任何人都可平等地使用CAV以及改良道路之設計。   我國刻正實施行政院於2014年5月核定之第2階段「智慧電動車輛發展策略與行動方案」,推動智慧電動車整車及零組件性能提升,協助廠商提升製程及資訊應用功能;研析國際驗證及測試規範,完善智慧電動車產業價值鏈。

Google提供免費專利給新創公司

  Google於2015年7月24日發布專利創客專案(Patent Starter Program),提供參加專案的新創公司免費授權使用兩項專利。此計畫是奠基於License on Transfer (LOT) Network專利授權聯盟的運作,該聯盟是2014年由Google、Dropbox、SAP、Canon、Asana及NewEgg等六家公司共同成立,目的透過聯盟成員間專利交叉授權協議,以對抗專利流氓(patent troll)的濫訴行為。   專利創客專案計畫開放50家於2014年收入介於50萬至20億美元間的新創公司得免繳會費參與LOT聯盟兩年,並依據新創公司業務範圍,提供3至5項專利清單,新創公司可從中選出兩項予以免費使用。另外,這些新創公司有機會瀏覽GOOGLE非專屬授權資料庫,找尋所需專利並詢問GOOGLE出售意願。需要注意的是,在專案期間內,參與成員對於透過專案獲授權之專利,僅得為防禦使用,違反時Google有權終止並予以處罰。同時參與成員亦必須於專案期間遵守聯盟專利交叉授權協議之規範。   整體來說,由於Google提供給新創公司的免費專利清單項目有限,新創公司未必能得到真正有需求的專利,但考量加入專案後,得受到LOT成員間專利交叉授權協議的保護,對於新創公司而言,仍可一定程度避免受到專利流氓危害,而具有正面意義。

美國健康保險制度下的個人資料安全保護隱憂

  為降低美國人民在醫療保險費用的支出,同時加強管理現有的保險產業,同時提供美國人民一更易負擔的醫療保險制度,美國總統歐巴馬自上任以來遂特別加強推動美國健康保險制度,與相關現有醫療保險制度的建置與改革,並於2010年3月23日通過「病患保護與平價醫療法案」(The Patient Protection and Affordable Care Act,本法暱稱Obamacare),並計劃於今(2013)年10月正式啟動上路。   為集中且便利相關機構快速讀取單一個人之相關資訊,Obamacare計畫透過聯邦數據服務樞紐(The Federal Data Services Hub)的建置,彙整目前美國各單一政府單位所保有之全民個人資料,該類資料涵蓋個人醫療、教育、和財務等相關資訊,提供各州政府單位機關有需求時得以讀取。然而,儘管該服務樞紐的用意係為提供更完整的個人資料,然而其卻也因其本身具集中單一個人資料於一身的特性而受到各界的質疑。反對人士認為,由於該服務樞紐彙整龐大單一個人資料,因此若其未建立完善資訊安全機制,而遭受到不肖駭客入侵竊取個人資料的話,所造成的後果將影響甚遠,再加上未來將管理服務樞紐的美國衛生及公共服務部(The Department of Health and Human Services, HHS),遲遲未能讓外界信服其已建立充分的資訊安全保全系統來保障全美國人民的個人資料,因此反對人士對於該服務樞紐對於個人資料安全與隱私的保全能力感到堪慮。   根據美國隱私法(Privacy Act of 1974),美國政府需提供適當的隱私保全機制來保障美國人民的個人資料,同時,美國聯邦資訊安全管理法(Federal Information Security Management Act of 2002)亦要求美國政府需確保美國人民的個人資料不被濫用,故在該二法案的明文要求下,歐巴馬政府於推行Obamacare之際,相關資訊安全保全系統機制仍須符合標準始得合法運作。Obamacare上路在即,歐巴馬政府與相關部會該如何解決個人資料保護問題,其後續發展實值得觀察。

TOP