合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/01/15)
引註此篇文章
你可能還會想看
歐盟修正重型車輛碳排放規定,擴大適用範圍並提高減排目標

歐盟於2024年4月26日通過重型車輛二氧化碳排放性能標準(Regulation (EU)2019/1242)修正案,加速交通運輸部門的脫碳進程,以實現2050年淨零排放目標。修法重點如下: (1)擴大適用範圍:除了現有的卡車外,亦納入市區公車、長途巴士(7.5噸以上)、拖車等車型,如垃圾車等特種車輛也將從2035年起納入管制。而歐盟執委會將於2027年評估是否將5噸以下小型貨車也納入規範。 (2)明確減排目標:要重型車輛的二氧化碳排放量在2030年、2035年和2040年分別較2019年減少45%、65%和90%。求2030年起,90%的新售市區公車必須為零排放車輛,並在2035年達到100%零排放。 (3)技術中立原則:允許製造商選擇電動化、氫燃料電池或氫內燃機等不同技術路線來達成減排目標。 (4)豁免及彈性條款:針對礦業、林業和農業用車,以及軍用、緊急救災和醫療用途車輛等特殊用途車輛,或年產量低於100輛的小型製造商,新法將不強制納管。且為確保產業公正轉型,歐盟也提供相關培訓和資金援助,協助產業轉型和勞工技能提升。 歐盟執委會將於2027年評估這項規範的實施成效,並考慮納入更多車型、制定全生命週期碳排放計算方法,以及評估可再生燃料在交通運輸部門脫碳進程中的作用。

美國聯邦通訊委員會通過「數位機會資料蒐集計畫附加規則」,將改善美國境內寬頻網路布建差距之辨識

  美國聯邦通訊委員會(Federal Communication Commission, FCC)於2021年1月19日通過「數位機會資料蒐集計畫」附加規則(Digital Opportunity Data Collection additional rules),將幫助FCC蒐集更精確與準確的網路寬頻布建資訊(broadband deployment data),以完成美國境內寬頻網路布建差距之辨識任務。該規則規範了需向主管機關報告關於網路近用性和/或網路覆蓋率相關資訊的報告主體,使需要報告的固網和行動寬頻服務供應商範圍更加明確。另外該規則亦有針對網路服務供應商提出關於固網速度與網路延遲相關報告時,所應遵守事項作規範。   該規則亦針對蒐集各州、地方與部落網路寬頻布建資訊的對應實體(mapping entities)、聯邦政府機構,與第三方單位,制定此三方進行辨識寬頻網路布建差距作業時所應遵守之注意事項,並為網路服務供應商提交固網和行動寬頻覆蓋率地圖資料時,設置其提交流程所應遵守之相關規範。該規則要求行動式網路服務供應商提交依據實際情況的相關基礎設施資訊或現場測試資料,作為FCC對行動式網路覆蓋範圍調查和驗證的資料,這些資料還將應用於擴大某些特定區域行動式網路寬頻覆蓋範圍的相關作業上,以增加該區域居民的使用數位機會。   「數位機會資料蒐集計畫」附加規則將使FCC確切知道寬頻網的可近用服務位置和不可近用服務位置,以及更了解美國的寬頻網路需求,以確保將來每位美國公民都能使使用高速網路服務,這同時也是「數位機會資料蒐集計畫」的目的。

多層次營銷公司即使向數千名人員發布屬於其營業秘密之培訓教材,仍能主張已採取合理保密措施

  2022年3月7日華盛頓西區地方法院針對原告多層次營銷(直銷)美容公司Tori Belle Cosmetics LLC(下稱原告)向數千名人員發布屬於營業秘密之培訓教材,能主張有採取合理保密措施做出結論。原告行銷Belle Cosmetics產品之方式是以銷售人員的個人 Facebook 帳號來販售化妝品和假睫毛產品,並將公司培訓教材上傳到由數千名成員組成的 Facebook 群組“Team Lash Out”中,且設定帳號公開權限維護其所提供之培訓教材、銷售人員及客戶之聯繫清單,故華盛頓西區地方法院仍認定其主張有理由。   被告(Belle Cosmetics的五名前網路銷售人員)雖主張銷售人員因持有Facebook個人帳號之所有權,認為與個人帳號有關之銷售人員及客戶的聯繫清單皆屬被告所有。並且,由於每個被告的 Facebook 朋友都可以看到他們的朋友清單,而主張聯繫清單不具秘密性。法院不採納被告之主張,認為原告已有設定權限限制Facebook 群組中的朋友僅可以看到其他朋友的姓名和頭像,涉及電話及地址等聯繫資訊則設定不公開,故銷售人員及客戶之聯繫清單仍具秘密性。   此外,被告亦主張原告將培訓教材上傳至「世界最大社交媒體網站Facebook」,並向數千名銷售人員公開,應判定該培訓教材已不具秘密性。法院則駁回指出Facebook之用戶可以設定權限,指定特定人加入群組中讀取培訓教材,故認為仍培訓教材具有秘密性。   本案最值得關注的是後續法院會以何種方式評估上傳至Facebook群組之培訓教材有採取合理保密措施,例如法院如何評估原告與銷售人員間的合約有約定針對教材內容具有保密義務、群組管理員如何驗證請求加入群組之用戶是該公司之網路銷售人員,或法院如何判定在營業秘密解密前Facebook 群組中有多少用戶不具備網絡銷售人員身分。 本文同步刊登於TIPS網站(https://www.tips.org.tw)

美國通過《地理空間資料法》,明確化地理空間資料管理

  美國於2018年10月5日,通過《2018年地理空間資料法》(Geospatial Data Act of 2018,下稱《GDA 2018》),並編列入《2018年美國聯邦航空總署重新授權法案》(Federal Aviation Administration Reauthorization Act of 2018)。該法是接續《2017年地理空間資料法》(Geospatial Data Act of 2017,下稱《GDA 2017》),做出進一步的調整。   《GDA 2017》的核心目標就是要根本性地重整管轄權,以順利發展「國家空間資料基礎建設」(National Spatial Data Infrastructure)。要點如下: 原先美國有許多管轄的地理空間資料旁枝機構,工作重疊性高、權責不清,《GDA 2017》指定「聯邦地理空間資料委員會」(Federal Geographic Data Committee, FGDC)作為權責機關,並管理國家空間資料資產(National Geospatial Data Asset)。 指定「國家地理空間資料諮詢委員會」(National Geospatial Advisory Committee, NGAC),提供FGDC建議並進行監督。 擴充「地理空間資料」的定義,把所有量測(Survey)和製圖(Mapping)成果解釋成地理空間資料(Geospatial Data)。   《GDA 2018》進一步提出規範,明確化地理空間資料管理: 回饋報告 要求執行與地理空間相關計畫的聯邦單位,提供年度報告;並要求聯邦地理空間資料委員會(FGDC)按《GDA 2017》所列的職責,對於所有相關單位進行評估報告。這些評估報告會提交給國家地理空間資料諮詢委員會(NGAC)寫成報告,在兩年內提供給國會。 國家空間資料基礎建設 明確設立兩個目標:第一個目標是地理空間資料的隱私管理和安全性保障;第二個目標則是建置全球空間資料基礎建設。 國家空間資料資產 希望FGDC會能夠就各個主題指定專責機構進行管理。

TOP