合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/06/02)
引註此篇文章
你可能還會想看
歐盟孤兒著作指令(Directive 2012/28/EU)立法評析

美國4州及司法部指控資料處理商(Agri Stats)的資料共享行為涉及聯合行為

美國明尼蘇達州、加州、北卡羅萊納州及田納西州之檢察總長於2023年11月加入「美國司法部(U.S. Department of Justice, DOJ)在同年9月對於肉品產業資料提供者(Agri Stats, Inc.,以下簡稱Agri Stats)提起的反壟斷訴訟」中,主張Agri Stats透過報告方式將肉品數據資料分享給訂閱服務之肉類加工商,此類資料共享行為削弱了市場競爭關係造成聯合行為,違反了休曼法(Sherman Act)。以下先就此案背景進行說明,以釐清此案象徵意義。 於2023年2月,美國司法部反壟斷部門撤回3項與資訊共享相關的聲明,該3聲明是為了醫療保健產業而發布,其中就資料分享之安全使用方式亦可讓其他產業的資料提供業者評估其資料分享行為是否造成反壟斷行為,惟在目前AI/演算法技術變革之下,利用共享所得之資料反推競爭對手之競爭策略具有可行性,因此當年認為有助於促進競爭之資料共享行為,現在反而有造成聯合行為之可能,故廢棄該3項已過時的聲明。 於2023年9月28日,美國司法部反壟斷部門於明尼蘇達州指控Agri Stats違反休曼法。Agri Stats為專門彙整、分析美國豬肉與家禽(肉雞、火雞)相關商業資料的資料處理商,並將其分析報告提供給具競爭關係的肉品加工商,肉品加工商可透過將Agri Stats分析報告反推以監控/預測出競爭對手之價格、供應量、營運計畫等,並依分析報告建議進行價格調高與減產的行為,而被美國司法部認定為聯合行為。 該訴訟所涉及的肉品加工商占了全美家禽(肉雞與火雞)銷售量的9成以上,豬肉銷售量的8成以上。目前已有前述4州加入該訴訟,法院後續會如何認定,將影響產業間的資料交換作法,也顯現出資料商業化前須先做好資料管理,確保在合規的範圍內進行資料利用,國內廠商可參資策會科法所公布之《重要數位資料治理暨管理制度規範(EDGS)》對自身資料管理機制進行檢視。 本文同步刊登於TIPS網站(https://www.tips.org.tw/)

日本擬讓司法機關偵查時利用GPS定位取得位置資訊無須事先告知,僅須取得法院令狀

  日本電信事業個人資料保護指針(電気通信事業における個人情報保護に関するガイドライン)自2011年修訂後至今即未有任何改變。然而,隨著現代行動通信軟硬設備技術的進步,智慧型手機中已有許多應用程式可透過GPS衛星定位功能準確獲取使用者之位置資訊,倘若司法機關也能於搜查辦案過程即時取得此定位資訊,將可提高偵查效率並縮短破案時程。   為此,日本總務省擬將原先須事先通知行動設備使用人與獲得法院令狀後,方得利用GPS衛星定位獲取位置資訊之電信事業個人資料保護指針第26條修訂為司法機關取得法院令狀後,即可利用GPS衛星定位獲取行動設備使用人位置訊息。   然此項修訂除將可能造成行動通訊業者營運上的額外負擔之外,亦有侵害設備使用者之個人隱私與個人資料疑慮。因此,為了抑止濫為偵查,法院令狀之發出須有其必要性,搜查機關亦必須向行動通訊業者為必要性之說明。   再者,此項利用GPS衛星定位獲取位置訊息之方式也僅限於使用Android系統設備且將定位功能開啟之使用者,對於使用Apple iOS系統設備之使用者則不但須使用者開啟定位功能,還須經過美商蘋果公司同意方能取得亦是一項難題。   日本總務省已於2015年4月17日發布此項法令修訂訊息並徵詢公眾意見,預計於6月完成修法並公布之。

新加坡科技與研究局針對未來工廠提出研究規劃及方向

  新加坡科技與研究局(Agency for Science, Technology and Research)於2017年7月26日提出未來工廠(Toward the factories of the future)概念及相關研究方向,自動化(Automation)、機器人(robotics)、先進電腦輔助設計(advanced computer-aided design)、感測和診斷技術(sensing and diagnostic technologies)將徹底改變現代工廠,可製造的產品範圍廣泛,從微型車乃至於飛機皆可生產。積層製造(Additive Manufacturing),又稱3D列印(3D printing),可使用單一的高科技生產線來創造許多不同的產品項目,而不需要傳統大規模生產的設計限制和成本,伴隨未來高效能電腦和感測技術之進步,積層製造速度也會隨之加快。而智慧工廠(smart factories)將與物聯網(IOT)、雲端計算(cloud computing)、先進機器人(advanced robotics)、即時分析(real-time analytics)與機器學習(machine learning)等技術與積層製造技術結合,將大為提升生產速度及產量。   為加速及改善積層製造的製程,最重要的方法之一,是使用材料物理學的基本原理來模擬製造過程,而近期更引進跨學科之研究,「模擬」最終產品化學成分和機械性能的微觀結構。因積層製造是一個複雜又困難的過程,透過變化既有規則之模擬(Game-Changing simulations),若建立完成模型且模擬成功,將成為積層製造的殺手級技術。在未來的五到十年,我們將看到更多的零件從積層製造技術生產出來,而且這種技術有機會成為未來工廠的生產基礎。由於現行材料及製造流程與機器必須配合一致,些許的差異皆會生產出不同品質之產品,故未來積層製造工廠的結果穩定重現性(repeatability)和標準化(standardization),將是產品商業化的主要障礙與挑戰。

TOP