合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/05/05)
引註此篇文章
你可能還會想看
日本新型態旅宿模式下誕生的民泊新法

  隨著以網路平台經營仲介事業的Airbnb服務開始流行,鎖定國外觀光客的個人住宅和投資型不動產出租產生一種新型態的商機,加上近年旅日遊客增加及2020東京奧運即將來臨,日本政府預期將會有短暫性遊客人數激增。為解決訪日旅客居住設施問題以及特定期間過後旅館閒置造成之資源浪費或倒產問題,日本將在明年(2018)六月施行住宅宿泊事業法(民泊新法)採取鬆綁民宿短期經營之法規限制。該法變革重點包含: 行政程序:原先依據旅館業法採取許可制,民泊新法施行後為申報制。 營業日數:層級化區分旅館與民泊限制年營業180日。 宿泊日數:解除住宿日限制(例如大阪民泊條例須三天兩夜以上)。 建物用途:原本必須為許可旅館,施行後住宅、公寓及招待所皆可。 營業地區:限制在住居專用地營業。   本法施行後將可明顯區分旅館業與民泊業強化管理,並且呼應日本政府的經濟振興計畫,帶動兼業、副業及提供自營作業者從事經濟活動的管道。另外,因新法施行後合法民泊增加產生的新型態商機成為吸引大型平台或企業投入政府經濟再興計畫之誘因,進而提供協助個人民泊經營者申報、環境改善、及代理管理等業務,有利於政府推動相關社會安全網建置。

USPTO 宣佈將加速綠色科技專利案件審查

  美國專利商標局USPTO日前宣佈一項專為綠色科技(Green Technologies)而設的前導計劃(Pilot Program),透過這項計劃期望能將相關溫室氣體排減、節約能源等申請案加速其審查、公開及訴願程序,至少縮短流程一年。目前平均來說從申請至最終結果出爐需耗時40個月。這項消息係由美國商務部長駱家輝(Gary Locke)所宣佈,普遍被認為是為了呼應於哥本哈根舉行的聯合國氣候變化框架公約第15次締約方會議。   符合條件的申請案必須於2009年12月8日前送件,而且必須是尚未收到第一次官方通知(First Office Action,包括限縮專利範圍的通知),另外申請人還必須於2010年12月8日前以電子檔提交「特別審查程序」(petition to make special)並符合下列要求: ●必須是正式發明申請案(non provisional utility application),不適用於再領證(reissue) 與再審查(re-examine) 專利 ●必須是上述前導計劃中所包括的約79項專利項目之一 ●申請案必須不包含超過3個獨立項與20個專利申請範圍 ●如欲提早公告需附上申請書 (petition) ●如果USPTO判定為超過一項的發明,申請人必須同意用電話做出選擇   雖然USPTO預估目前有25,000件審核中的專利符合加速審理的資格,但他們預計只受理最初的3000件申請以評估這項計劃的效益與工作量。至於有意提出申請者則需要審慎評估快速審查之外的其他利弊,例如提早公告,限縮的運用範圍與專利申請範圍等。這項計劃公佈的同時USPTO的局長 David Kappos 亦承諾將定期對外更新該計劃的進度,並將成立一個網上的交流平台讓大眾可以對此計劃提出意見。

2022年日本公布平台資料處理規則實務指引1.0版

  日本數位廳(デジタル庁)與內閣府智慧財產戰略推進事務局(内閣府知的財産戦略推進事務局)於2022年3月4日公布「平台資料處理規則實務指引1.0版」(プラットフォームにおけるデータ取扱いルールの実装ガイダンス ver1.0,簡稱本指引)。建構整合資料提供服務的平台,將可活用各種資料,並創造新價值(如提供個人化的進階服務、分析衡量政策效果等),為使平台充分發揮功能,本指引提出平台實施資料處理規則的六大步驟: 識別資料應用價值創造流程與確認平台角色:掌握從產生資料,到分析資料創造使用價值,再進一步提供解決方案的資料應用價值創造流程,以確認平台在此流程中扮演的角色。 識別風險:掌握利害關係人(如資料提供者與使用者等)顧慮的風險(如資料未妥適處理、遭到目的外使用等疑慮)。 決定風險應對方針:針對掌握的風險,決定規避、降低、轉嫁與包容等應對方針。 設定平台資料處理政策與對利害關係人說明之責任(アカウンタビリティ):考量資料處理政策定位,擬定內容,並向利害關係人進行說明。 設計平台使用條款:依據「PDCA循環」重複執行規則設計、運作與評估,設計平台使用條款。 持續進行環境分析與更新規則:持續分析內部與外部因素可能面臨的新風險,並更新平台資料處理規則。

歐盟電信改革:歐盟委員會持續對三份研究做評論

  歐盟委員會在 2006 年 8 月 25 日公布之三份獨立學術性研究,被認為是對現正持續進行之 2002 年歐盟電信規則的檢討具深遠的影響。稍早在 6 月 29 日 ,歐盟委員會發佈了針對電子通訊法規架構的檢視訊息、促進就業文件和一份影響評估( IP/06/874 ),在這些文件中含括多項有關有效率利用頻譜資源、促進歐盟市場競爭、建立無線通訊服務單一市場等的政策性提案。而在 2006 年 8 月 25 日出版的研究報告,目的則在處理歐盟電子通訊檢討過程中的主要議題:歐盟電子通訊部的成長和投資、電子通訊市場的法規變革及競爭狀態。雖然這三份研究報告對歐盟委員會並無拘束力,不過對即將在十月份截止之歐盟電信規則的公眾諮詢意見書上,將有助益。   歐盟資訊社會和媒體委員 Viviane Reding 女士認為,對 2006 歐盟電信規則的重新檢視,是歐洲競爭力、投資和成長是重要的關鍵。如果想要促進一個具競爭性、以知識為主的歐盟經濟體系,完備電子通訊內在市場、擴大跨界經營的競爭,以及提升無線通訊頻譜利用的最大效益,均需最優先考量。

TOP