合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/03/09)
引註此篇文章
你可能還會想看
美國網紅控訴前員工竊取其成功經營社群媒體之機密計算公式

美國J. Cathell公司於2022年12月21日以《保護營業秘密法》(Defend Trade Secrets Act of 2016)、《喬治亞州營業秘密法》(The Georgia Trade Secrets Act)控訴前員工Martin侵害其營業秘密「設計社群媒體發文及服裝策畫計算公式」。   J. Cathell公司是知名引領潮流、設計與旅遊的網紅兼部落客Jess Cathell所成立,其個別社群媒體皆有上千、萬名之追蹤者。其所經營之J. Cathell公司透過Instagram(@j.cathell)與網站(www.jcathell.com)提供前往特定目的地旅遊而設計的服裝,亦融合特定風格與特殊活動,同時提供販售連結。另有經營Facebook(J. Cathell Facebook)、Pinterest(J. Cathell Pinterest)、Like To Know It(下簡稱LTK)(J. Cathell LTK)等社群媒體。該服裝與風格設計是由Jess Cathell針對其客群研析出專屬、非公開之計算公式(營業秘密)所得出之結果。   被告Martin自2020年9月起任職於J. Cathell公司、擔任Jess Cathell的助理。Jess Cathell主張其提供Martin專屬計算公式之使用權限,並投注大量成本教導如何運用計算公式詮釋服裝策畫結果、設計社群媒體發文內容。前述資訊對J. Cathell公司皆具有獨立之實際或潛在經濟價值、他人亦可因被揭露之資訊,或使用該資訊而獲利。   Jess Cathell主張僅有自己、Martin能接觸專屬計算公式,並運用該公式產出設計社群媒體發文及服裝策畫結果。Jess Cathell為了保密,不曾以紙本記錄留存專屬計算公式相關資訊;用於追蹤銷售與其他績效指標的系統,皆以帳號、密碼保護。而Martin知悉該密碼,且於Martin任職期間多有提醒前述資訊之秘密性,Martin針對這些資訊具有保密義務。   Jess Cathell於2022年4月左右,發現WEAR TO WANDER公司(下簡稱WTW公司)成立Instagram、Pinterest、Facebook、LTK等帳號與WTW公司網站,於前述社群媒體發文的格式及概念,與J. Cathell公司於社群媒體發布的內容幾乎相同,並於同年8月發現Martin是WTW公司的創立者。Jess Cathell主張因Martin、WTW公司不當使用其營業秘密「設計社群媒體發文及服裝策畫計算公式」,在短短11個月內,WTW公司的Instagram即獲得近9萬名追蹤者,造成J. Cathell公司之財務與競爭損害,遂於同年12月向法院提出營業秘密侵害訴訟。   本案為首件社群媒體經營產業相關之營業秘密訴訟案件,後續判定將值得關注。   本文同步刊登於TIPS網站(https://www.tips.org.tw)

藥品監管機構負責人組織與歐洲藥品管理局聯合巨量資料指導小組發布2021-2023年工作計畫,提高巨量資料於監管中之效用

  藥品監管機構負責人組織(Heads of Medicines Agencies, HMA)與歐洲藥品管理局(European Medicines Agency, EMA)聯合巨量資料指導小組(HMA-EMA joint Big Data Steering Group, BDSG)於2021年8月27日發布「巨量資料指導小組2021-2023年工作計畫」(Big Data Steering Group Workplan 2021-2023),將採以患者為焦點(patient-focused)之方法,將巨量資料整合至公衛、藥物開發與監管方法中,以提高巨量資料於監管中之效用。指導小組將利用「資料分析和真實世界訊問網路」(Data Analysis and Real World Interrogation Network, DARWIN EU)作為將真實世界資料整合至監管工作之關鍵手段; DARWIN EU諮詢委員會(Advisory Board)已於2021年建立,DARWIN EU協調中心(Coordination Centre)亦將於2022年初開始運作。   為確保資料品質與代表性,未來工作計畫將與「邁向歐洲健康資料空間–TEHDAS」(Towards A European Health Data Space – TEHDAS)合作,關注資料品質之技術與科學層面,並將於2022年提出第一版「歐洲監管網路資料品質框架」(data quality framework for the EU Regulatory Network)、「真實世界資料來源選擇標準」(criteria for the selection of RWD sources)、「詮釋資料優良規範指引」(metadata good practice guide)、「歐盟真實世界資料公用目錄」(public catalogue of European RWD)等規範。   此外,工作計畫將於2021年底舉辦「學習計劃」(learnings initiative)研討會,討論包括EMA人用藥品委員會(Committee for Medicinal Products for Human Use, CHMP)對於真實世界證據於藥品上市許可申請(Marketing Authorization Application, MAA)、適應症擴張(extensions of indications)之審查,以及過去真實世界資料分析試點於委員會之決策等議題,以利後續指引之修正。   最後,工作計畫預計於2021年底完成「健康照護資料二次使用之資料保護問與答文件」(question and answer document on data protection in the context of secondary use of healthcare data),以指導利益相關者與促進公共衛生研究,並發布由歐盟監管網路(EU Regulatory Network)同意之對於藥品監管(包括巨量資料)之資料標準化戰略。

德國科隆行政法院判決Google公司所提供之Gmail電子郵件服務為德國電信法「電信服務」定義下之規範對象

  德國科隆行政法院於2015年11月11日判決美商Google公司所提供之Gmail電子郵件服務為德國電信法「電信服務」定義下之規範對象,依據德國電信法第3條24之規定。因此,以該服務之提供者Google公司得依據德國電信法第6條第1項履行其「通報義務」。繼德國聯邦網路局(Bundesnetzagentur)於2012年7月透過正式通知美商Google Inc.需履行德國電信法第6條第1項之「通報義務」。   Google公司指出Gmail不是電信服務,因為Google本身所提供之服務目的不是在於電子信號的傳送。   德國聯邦網路局則指出,因為Google公司的伺服器,以專業術語來說,依據OSI模型(開放式系統互聯通訊參考模型,Open System Interconnection Reference Model, ISO/IEC 7498-1)定義,係有信號傳送服務提供的事實。Google透過獨特的傳送技術傳送數據信號,且針對其所傳輸的有所管控能力。此外,亦應更宏觀的來以電信法立法的宗旨與角度去審視是否此服務應受規範。德國聯邦網路局並不企圖於規範網路世界的一切。但是,像是Gmail或其他OTT服務業者應需要如同傳統電信服務業者般的,重視並履行其資料保護(Datenschutz)、消費者保護(Kundenschutz)、資訊安全(Sicherheit)上的義務。   德國聯邦科隆行政法院判決支持德國聯邦網路局的見解,Google公司因其所提供之Gmail服務應履行德國電信法之通報義務。在定義上是否電信服務,並不是完全以技術面去做認知,更為重要的在於電信法的立法價值初衷。德國聯邦科隆法院已准許透過飛躍上訴(Sprungrevision)的方式將該案送於德國聯邦最高行政法院(Bundesverwaltungsgericht),此案將可能有最高行政法院的判決。若Gmail被認定為係屬「電信服務」,此判決將會針對全德國的OTT服務規範有所影響,需被德國聯邦網路局所監管。

問題在號碼?(下)---談網路電話服務(VoIP)號碼核配與網路互連管制問題

TOP