合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/01/02)
引註此篇文章
你可能還會想看
政府推動跨部會生質柴油發展計畫,台北縣環保局率先試行生質柴油

  因應國際油價高漲、石油減產危機、京都議定書生效等衝擊,經濟部能源局將整合環保署、農委會,成立跨部會生質柴油發展計畫,計劃2010年達成國內生質柴油產量10萬公秉,替代國內車用柴油使用量約6%。   「生質柴油」乃是指動植物油或廢食用油經過轉化技術後所產生的酯類,直接使用或混合柴油可以作為燃料,為一再生清潔能源;目前台北縣環保局已結合五家客運業者、一家貨運業者、四個公所清潔隊及八里掩埋場,推動四十八輛客運車等添加柴油試運行,以實際了解生質柴油的效益。   試行時間預定至明年二月底止,預計試行車輛行走公里數為 四十四萬八千公里以上,重型機具運轉三百二十六小時以上。台北縣環保局還將安排試行車輛到台北縣林口柴油車動力計檢測站進行綜合排氣檢測,以瞭解車輛使用質柴油的所產生的污染減量成效。

美國聯邦上訴法院維持地方法院之原判,判定暢銷藥物Plavix 所基於的關鍵專利為有效

  繼美國紐約南區地方法院於2007年6月判定暢銷藥物Plavix所基於的專利為有效後,美國聯邦上訴法院於2008年12月再次認定Plavix之專利為有效。此判決有助於阻止Plavix學名藥進入美國市場直至該專利於2011年到期。   Plavix為一降低血液黏稠度之藥物,乃Bristol-Myers Squibb Co. 公司最銷售之產品及Sanofi-Aventis公司第二銷售之產品。加拿大Apotex公司宣稱Plavix之專利為無效,於2006年開始在美國販售Plavix 之學名藥。Bristol-Myers Squibb 與Sanofi-Aventis於贏得訴訟後表示將要求Apotex Inc.支付於販售學名藥期間對兩家藥商所造成的損失。   澳美國聯邦上訴法院法官表示地方法院已徹底的討論Apotex 所提出的專利無效論點,否決Apotex所提出的該專利並未包含新發明及Sanofi-Aventis之科學家使用已知研究方法及已知化合物製成Plavix 之主要組成物。上訴法院法官表示於判斷非顯而易見上,使用「後見之明」(hindsight)是不適合的。   針對此判決,Apotex公司表示他們認為上訴法院之決定為錯誤的並將持續努力尋求於美國銷售有品質的且一般大眾負擔得起的Plavix 學名藥。

英國提出因應GDPR自動化決策與資料剖析規定之細部指導文件

  2018年5月,英國資訊專員辦公室(Information Commissioner’s Office, ICO)針對歐盟GDPR有關資料自動化決策與資料剖析之規定,公布了細部指導文件(detailed guidance on automated decision-making and profiling),供企業、組織參考。   在人工智慧與大數據分析潮流下,越來越多企業、組織透過完全自動化方式,廣泛蒐集個人資料並進行剖析,預測個人偏好或做出決策,使個人難以察覺或期待。為確保個人權利和自由,GDPR第22條規定資料當事人應有權免受會產生法律或相類重大效果的單純自動化處理決策(a decision based solely on automated processing)之影響,包括對個人的資料剖析(profiling),僅得於三種例外情況下進行單純自動化決策: 為簽訂或履行契約所必要; 歐盟或會員國法律所授權; 基於個人明示同意。   英國2018年新通過之資料保護法(Data Protection Act 2018)亦配合GDPR第22條規定,制定相應國內規範,改變1998年資料保護法原則上容許資料自動化決策而僅於重大影響時通知當事人之規定。   根據指導文件,企業、組織為因應GDPR而需特別留意或做出改變的事項有: 記錄資料處理活動,以幫助確認資料處理是否符合GDPR第22(1)條單純自動化決策之定義。 倘資料處理涉及資料剖析或重大自動化決策,應進行資料保護影響評估(Data Protection Impact Assessment, DPIA),判斷是否有GDPR第22條之適用,並及早了解相關風險以便因應處理。 提供給資料當事人的隱私權資訊(privacy information),必須包含自動化決策之資訊。 應確保組織有相關程序能接受資料當事人的申訴或異議,並有獨立審查機制。   指導文件並解釋所謂「單純自動化決策」、「資料剖析」、「有法律效果或相類重大影響」之意義,另就可進行單純自動化決策的三種例外情況簡單舉例。此外,縱使符合例外情況得進行單純自動化決策,資料控制者(data controller)仍必須提供重要資訊(meaningful information)給資料當事人,包括使用個人資料與自動化決策邏輯上的關聯性、對資料當事人可能產生的結果。指導文件亦針對如何向資料當事人解釋自動化決策處理及提供資訊較佳的方式舉例說明。

KCC提出Giga Internet計畫

  南韓通訊傳播委員會(Korea Communications Commission, KCC)與國家資訊社會局(National Information Society Agency, NIA) 於2009年7月24日共同宣佈「Giga網路促進計劃」的開展,預計在2012年開始提供商轉服務。Giga網路可在十秒鐘內下載一部DVD影片,較既有的光纖區域網路快上十倍。 南韓政府選定Giga網路作為國家型計畫乃係為了在「寬頻匯流網路」(BcN)計畫後,能繼續提供世界上一流的廣播通訊基礎建設。另一目的是希望藉此能有效利用高品質、大容量與匯流之資訊。 為了發展與Giga網路相關的技術、設備及服務,「Giga網路促進計劃」的參與者包括南韓的資通訊大型企業,包括一類、二類電信業者、相關軟業體、終端設備商與研究機構。藉此以全面且有體系性地逐步於未來四年內推行此計劃。該計畫預計於在2012年底,提供3D與多角度IPTV、HD家庭閉路電視(CCTV)與電視多媒體訊息服務給2,000家戶 。   KCC常委Tae-Gun Hyung預測:該計畫不將止是促進產業發展,也增加了全球資通訊匯流的科技競爭力,提供了新的市場進入領域,改變人們生活型態,並且帶給社會極大的催化效力。 南韓未來四年推動Giga網路取代BcN的成效,相當值得資通訊產業與發展型態屬性相近的台灣參考,作為我國推動數位匯流的重要借鏡。

TOP