合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/03/09)
引註此篇文章
你可能還會想看
英國「數位紅利」頻譜管理政策簡介

美國國家標準暨技術研究院規劃建立「人工智慧風險管理框架」,並徵詢公眾對於該框架之意見

  美國國家標準暨技術研究院(National Institute of Standards and Technology, NIST)為管理人工智慧對於個人、組織以及社會所帶來之風險,於2021年7月29日提出將建立「人工智慧風險管理框架」(Artificial Intelligence Risk Management Framework, AI RMF)之規畫並徵詢公眾意見,截止日為9月15日,並預計於10月發布正式報告。   依照NIST說明,公眾所建議之人工智慧風險管理框架,可促進人工智慧之可信賴性,其中包含如何應對並解決人工智慧於設計、發展及使用過程中所遭遇之「精確度」(accuracy)、「可解釋性」(explainability)、「偏見」(bias)等議題。此外,上開管理框架預計為非強制性、供企業自願性使用於人工智慧設計、發展、使用、衡量及評估之人工智慧標準。   依現有公眾意見徵詢結果,其中DeepMind公司建議於人工智慧設計初期,必須預先構思整體系統之假設是否符合真正社會因果關係。舉例言之,當設計一套可預測民眾健保需求程度之系統時,如輸入參數僅考量民眾於醫療上的花費,將使僅有可負擔較高醫療費用之民眾被歸類為健保需求程度較高者,從而導致健保制度排擠經濟負擔程度較差之公民,故在設計系統時,應從預先設定之假設事實反面(counter-factual)思考並驗證是否會產生誤差或公平性之問題(例如預先思考並驗證「醫療費用支出較低之民眾是否即可被正確歸類為健保需求度低之民眾」)。惟進行上述驗證需要大量社會資料,因此DeepMind也建議NIST應建立相關機制,使這些社會資料可以被蒐集、使用。   此外,亦有民眾建議管理框架應有明確之衡量方法以及數值指標,以供工程界遵循。同時鑒於人工智慧發展極為快速,未來可能有不同於以往之人工智慧類型出現,故亦建議NIST應思考如何在「建構一套完整且詳細之人工智慧治理框架」與「保持人工智慧治理框架之彈性與靈活性」之間取得平衡。   最後,目前也有許多徵詢意見指出,許多人工智慧治理之目標會相互衝突。舉例言之,當NIST要求人工智慧系統應符合可解釋性,則人工智慧公司勢必需要經常抽取人工智慧系統中之「數據軌跡」(audit logs),惟數據軌跡可能被認為是使用者之個人資料,因此如何平衡或完善不同治理框架下之目標,為未來應持續關注之議題。

中國大陸通過《中華人民共和國電子商務法》 針對「電子商務平台經營者」制定專節

  中國大陸於2018年8月31日第13屆全國人大常務委員會表決通過了《中華人民共和國電子商務法》(以下簡稱《電商法》),並將於2019年1月1日實施 。《電商法》首條揭示了「保障電子商務各方主體合法權益、規範電子商務行為、維護市場秩序」之意旨,除以「電子商務經營者」為主要規範對象外,亦涵蓋了法律行為、支付與物流、爭議解決等各個交易層面。   有鑑於電子商務平台對市場的主導作用,《電商法》特別針對「電子商務平台經營者」(以下簡稱「平台」)制定專節,要求其審核平台內經營者之資質資格,並課予其保障智慧財產權及消費者人身、財產安全之義務。分述如下: 為因應電子商務平台上仿冒偽劣品氾濫之窘境,《電商法》規定平台於接收權利人所發送之侵權通知後,須採取刪除、屏蔽、斷開鏈接、終止交易和服務等行動,否則需就損害擴大之部分,與平台內經營者負連帶責任。此外,平台「明知」或「可得而知」平台內經營者已侵害智慧財產權,而未採取必要措施者,亦須與侵權行為人承擔連帶責任。 如商品或服務涉及消費者之生命、健康,則平台負有:(1) 對平台內經營者資質資格之審核義務;以及(2) 對消費者之安全保障義務。如因未履行上開義務而造成消費者損害,需與該平台內經營者承擔「相應的責任」;換言之,平台是否踐履相關義務應依實際個案認定。同時增加行政罰規定,違者由市場監督管理部門責令限期改正,最重並得課處200萬元之罰款 。

美國能源部展開離岸風力能源計畫

  由於能源價格、供給不穩定、以及環境考量等因素,使美國思考潔淨及再生能源的開發。美國能源部在2008年公布了一份報告「20% Wind Energy by 2030: Increasing Wind Energy’s Contribution to U.S. Electricity Supply」,檢視風能利用的可行性,希望在2030年達到風能發電占全國20%的需求。   美國在2010年因為金融海嘯後期的影響,對於能源的需求及價格降低,導致風能的發展減緩。而面臨一些新興的市場,例如拉丁美洲、非洲、亞洲陸續加入風能的開發領域,尤其中國大陸,自2005年後,幾乎每年呈倍數成長,2010年所累積的風能更超越美國,美國再度投入相關的計畫研發,在今年(2012)美國能源部宣布展開一項投入1.8億、長達六年的離岸風力能源計畫。   此計畫的第一步將於今年投入二千萬於全美四處離岸地區導入風力能源,這些風力能源計畫將能加速風力科技的重大發展,並能協助美國能源的多樣性規劃、提升經濟發展。離岸風力是美國相當具有潛力的能源,估計可以提供超過4000GW的能量,可以緩和美國的能源危機及經濟和環境的挑戰,而且能夠提供大部分人民居住的沿海城市的能源和電力。   此一計畫之申請者,希望是能在能源開發、設備提供、研究機構、海洋裝置專家等領域組成世界級的團隊。其目的是為了促進美國離岸風力的發展,並協助下一代風力能源科技的設計與示範。這個試驗計畫能協助瞭解導入離岸渦輪機、連接渦輪機與電網的主要挑戰。投入這個新興的產業,政府的補助可協助降低成本並加速美國沿海風力能源科技的發展,而且在實際的沿海環境測試能提供有價值的資訊。   在積極發展風能的同時,美國參議院於2012年3月,否決了風能業者延長租稅優惠的提案,此租稅優惠方案將於年底屆至。此優惠是針對風能發電製造成本的補貼,相關業者紛紛表示,終止此補貼將會影響美國風能的發展,因此他們將會繼續爭取。

TOP