合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw//article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2025/12/28)
引註此篇文章
你可能還會想看
英國提出通訊資料法之草案

  英國內政部於2012年6月提出「通訊資料法」之草案(Draft Communications Data Bill),並將於10月舉行公聽會討論。   所謂通訊資料,非指通訊內容本身之資料,而係指通訊過程中所留下的相關紀錄性資料,包括通訊帳號所有人之資料、通訊之時間、長度、來源、位置等。而目前蒐集通訊資料之用途,多半為犯罪之偵防、避免緊急危難或反恐怖活動。其所牽涉之議題重點則為向提供通訊服務之公司調閱相關資料時,該公司是否有提供之義務,及調閱機關是否有相關權限或對資料之應用是否符合調閱之目的。   此次所提出之草案,主要可分為三大部分:第一部分賦予公務機關調閱資料之權限,並規定使用該等資料過程中,相關的安全保護措施與法定程序要求。第二部分規定調閱資料所必須的法定審查流程,包括主管機關內具備權限的高階主管,應依據比例原則,決定是否可調閱資料,並在一定情況下,須經司法機關審查。另外,國務大臣應建立一定審查機制,審核各主管機關之調閱目的與調閱程序恰當與否。最後,第三部分則是有關提升審查制度運作可能性之規定,諸如明訂各個機關所享有之調閱權,以及提供郵務及電信業務經營者相當之資源以配合機關調閱資料之需求。

美國猶他州針對未成年人使用社群媒體之新禁令

美國猶他州州長柯克斯(Spencer Cox)於2023年3月23日簽署參議院152號法案(社群媒體規則修正案,Social Media Regulation Amendments)與眾議院311號法案(社群媒體使用修正案,Social Media Usage Amendments)等兩項法案,此舉是為了因應美國青少年日益沉迷社群媒體的問題,降低網路霸凌、剝削與未成年人個資外洩之風險。新法預計於2024年3月1日生效,兩項法案所提列之重點如下: 一、參議院152號法案針對社群媒體業者,要求其對於社群媒體應用程式之用戶,應採取以下措施: 1. 對於想要創設或持有社群媒體帳號之猶他州居民,須驗證其年齡。 2. 未滿18歲的用戶,須獲得父母或監護人的同意。 3. 允許家長有查看未滿18歲子女帳號內容之權限。 4. 訂定宵禁機制,於夜間(晚上10:30至早上6:30)禁止未成年登入使用帳號,但家長可視情形調整。 5. 禁止未成年用戶,向未曾關注或加好友的陌生人直接發送訊息。 6. 須於搜尋引擎中隱藏未成年人帳號。 7. 若違反上述內容,每項違反處以業者2,500美元之民事罰款。 二、眾議院311號法案針對「有使用導致未成年人成癮(Addiction)於社群媒體之設計或功能」之業者,訂定以下相關裁罰: 1. 經證明會導致未成年人對社群媒體成癮之行為、設計或功能,針對每項行為、設計或功能,處以業者25萬美元之民事罰款。 2. 若使未成年人接觸而致其成癮者,依未成年人數計算,每位最高可罰款2,500美元。 3. 允許父母得以其未成年子女因成癮致其身體、情感與財產上之損害為由,起訴社群媒體業者。 4. 若為未滿16歲之用戶依本法請求損害賠償者,媒體業者將推定過失責任,亦即由業者負舉證責任。 兩項法案皆是為保護美國18歲以下的未成年人,要求IG、TikTok、Twitter、Facebook等社群媒體一定作為與不作為之義務,若有違反情形,猶他州商務部消費者保護司(DCP)有權限對其違規行為處以民事罰款。上述美國法案針對未成年之保護,以透過規定使平臺業者設計出更優質、更完善的程式介面之觀點,可作為我國未來針對社群媒體監管措施之借鏡與觀察。

聯邦貿易委員會公布授權學名藥報告,並展開調查及處罰裁決

  美國聯邦貿易委員會(Federal Trade Commission,FTC)鑒於近期授權學名藥(Authorized Generic,指由原專利藥廠於專利到期後自行或授權所推出之學名藥)上市申請頻率遽增,且授權學名藥專利和解協議日多之現況,自今(2009)年起,即積極展開一系列調查行動,先後於3月首度對授權學名藥和解協議案件祭出處罰裁決,並於6月公佈一份有關授權學名藥報告(Authorized Generic: An Interim Report)。   在美國授權學名藥法規(即Hatch-Waxman Act)架構下,首次提出簡易新藥審查申請取得學名藥上市許可之第一申請者(first-filer),得享有180日之市場專屬保護期間,除授權學名藥外,保護期間內其他藥廠一概不得推出相仿學名藥。   美國學名藥市場專屬保護期間之設計,原是希望藉此加速學名藥研發與上市,達到降低藥品取得價格之效,但根據FTC調查顯示,由於授權學名藥在市場專屬保護期間內依法得進入市場,於受到授權學名藥介入競爭之壓力下,第一申請者學名藥零售價格會比原先下降4.2%,經銷價格會下降6.5%,並減少該第一申請者藥廠47-51%的收入。在此背景下,越來越多第一申請者藥廠傾向採擬與原專利品牌藥廠達成延遲學名藥上市協議之策略,藉此互為其利。根據FTC統計,2004-2008年間約有25%的專利和解案件涉及授權學名藥條款,76%的對造為第一申請者學名藥藥廠,其中有25%的和解,是由授權學名藥藥廠與第一申請者藥廠就於一定期間(平均約為34.7月)不進入市場互為承諾。   FTC目前唯一的監管機制,係依據醫療照護現代化法(The Medicare Prescription Drug, Improvement, and Modernization Act of 2003,MMA),要求專利藥廠若與學名藥廠做成任何專利訴訟和解協議或相關協議時,應於協議生效10日內向FTC通報,以供FTC決定是否展開反競爭調查。FTC對於此類協議之審查上,終於今年3月有所進展,宣布必治妥(Bristol-Myers Squibb,BMS)應就其與Apotex公司間所達成專利訴訟和解協議繳交210萬美元。

美國寬頻業者推動網路傳輸流量上限管理方案

  有鑑於網路使用人口中,不同使用者族群所消耗的傳輸量比例相差懸殊,美國寬頻業者於近來積極推動網路傳輸流量上限管理計畫,且繼Comcast與Time Warner等業者的初步嘗試後,美國最重要的網路服務提供者—AT&T,也宣布將開始進行客戶網路流量管理計畫。   這項嘗試計畫將以限制新的DSL用戶為起點,其所規定的每月下載與上傳流量上限,係依據客戶申請的寬頻方案有所不同,分別被限制在20G至150G (gigabytes)不定。超過的部分則將持續向使用者警告兩個月後,依每超過1G加收一美元的費用,向使用者收費。   至於提出此項管理方案的理由,據AT&T發言人表示,是因為網路頻寬的使用分佈過於不平均,高達46%的頻寬是5%的使用者在使用,而21%的頻寬更是只為極少數的1%用戶所使用,顯然太過集中。根據AT&T的傳輸上限規定,購買傳輸速度3M (megabits)的寬頻使用者,日後每月的傳輸量上限是60G,這大約等於是下載30部DVD畫質電影的傳輸量。   不過,也有分析師指出,現階段欲全面滿足使用者的頻寬需求,對網路服務提供者而言尚非極大的財務負擔,且管制流量上限的作法,可能對既有以「吃到飽」費率方案為基礎,所發展出來的網路應用服務模式,造成極大的衝擊,此亦也可能引發後續有關網路中立性的政策辯論。

TOP