合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2025/12/14)
引註此篇文章
你可能還會想看
網路數位內容權利保護,牽涉各方角力

  iPod的成功,塑造了網路數位內容傳播的新商業模式,但對著作人權利保護團體來說,新科技與新產品對著作權人的權利會造成怎樣的影響,則是他們所高度關心的。   目前,著作權權利團體包括「美國唱片協會」(RIAA)與「美國電影協會」(MPAA)正在美國推動一項立法,希望透過法律的規定,限制未來數位媒體接收設備的若干科技發展。依法案推動者目前的構想,任何設備如能對於從數位網路上接收或下載的數位內容做任意的修改,便可能構成違法。共和黨籍參議員史密斯(Senator Gordon Smith)已表明支持此項立法。   此一立法運動,已引起各界高度的關注,包括科技廠商及民間組織在內,也表示質疑的態度。如何在保護著作權人權利與促進新科技發展之間,取得一個適當的平衡點,會是一個愈來愈重要的議題。

美國司法部發布「防止受關注國家或個人近用美國敏感個人資料與政府相關資料」之最終規則,以因應國家安全威脅

美國司法部(Department of Justice, DOJ)於2025年1月8日發布「防止受關注國家或個人近用美國敏感個人資料與政府相關資料」(Preventing Access to U.S. Sensitive Personal Data and Government-Related Data by Countries of Concern or Covered Persons)之最終規則。該規則旨在避免特定國家或個人獲取大量國民敏感個人資料及政府相關資料,以降低國安威脅。 最終規則指出,去識別化敏感個人資料若經大量蒐集,仍可能被重新識別,因此原則上禁止或限制任何美國人在知情的情況下,與受關注的國家或個人進行該等資料的大量交易。其將敏感個人資料定義為社會安全碼、精確地理位置、車輛遙測資訊(vehicle telemetry information)、基因組以及個人健康、財務資料或其他足資識別個人之資料,並定義禁止及限制交易的型態。同時,最終規則除設有若干豁免交易類型外,也定有一般及特別許可交易規定,並授權司法部得核發、修改或撤銷前述許可。一般許可交易的類型將由總檢察長另行公布;特別許可則由總檢察長依個案酌情例外核准。 該規則課予交易方持續報告(reporting)、盡職調查(due diligence)、稽核(audit)、紀錄留存(recordkeeping)等義務,並針對涉及政府相關資訊或美國國民大量敏感個人資訊之商業交易,例如投資、雇傭、資料仲介(data brokerage)及供應商契約,提出資安要求,以降低受關注國家或個人獲取該類特定資訊的風險。最後,該規則定有民事罰款(37萬美金以下)、刑事處罰(100萬美金以下或20年以下徒刑),並設立申訴之救濟措施。

何謂「美國專利審理暨訴願委員會(PTAB)」?

  專利審理暨訴願委員會(Patent Trial and Appeal Board, PTAB)成立於2012年9月16號。其成立之法源為《美國發明法案》(Leahy-Smith America Invents Act, AIA),承接「專利訴願暨衝突委員會」(Board of Patent Appeals and Interferences, BPAI)事務,成為美國專利商標局(United States Patent and Trademark Office,USPTO)下轄職司專利審理與訴願等相關程序的組織。PTAB主要可以分成「專利審理部門」(Trials)和「專利訴願部門」(Appeals)。   「專利審理部門」處理有爭議的案件,囊括四種處理方式: 專利授予後複審(Post-Grant Review, PGR)   除了專利所有權人的任何人,可以在專利公告或發證後9個月內提出,惟之前不得就專利無效提出訴訟。無效理由只要一項請求不具專利性即可,不需要是實質新問題(Substantial New Questions, SNQ)。但不可匿名,需揭露實質利益關係人。 多方複審程序(Inter Partes Review, IPR)   在發證後9個月後才可提出,且必須是PGR終結後、提出確認之訴(Declaratory Judgment)之前、或被控侵權的1年內提出申請。且僅能以核准專利及公開文獻作為證據。 含商業方法專利的過渡性方案(Transitional Program for Covered Business Method Patents, CBM)   這是對所授予的商業方法專利的過渡型條款,將商業先使用抗辯(Prior Commercial Use Defense)擴大適用到所有專利的商業使用行為,不再侷限在方法專利。IPR、CBM類似於我國的舉發制度,只是 CBM 僅能就商業方法專利提出。 申請人/發明人調查程序(Derivation Proceedings)   以往發明人身分爭議多仍以訴訟解決,原因之一為,過去程序係釐清誰先想到該構想或實踐該構想而非釐清原創者為誰。申請人調查程序將俾利身分的釐清。   「專利訴願部門」則是由超過一百位專利行政法官(Administrative Patent Judges)所組成,處理與被駁回專利申請相關的訴願。按 35 U.S.C. § 141(a),訴願人可以就PTAB的訴願結果,向美國聯邦上訴法院(United States Court of Appeals for the Federal Circuit, CAFC)提起訴訟;後續,可就聯邦上訴法院之判決,再上訴至最高法院(Supreme Court)。

德國發布國家資料戰略─《透過資料利用取得進展》

2024年德國預計制訂或修正多部法規,以達成2023年8月公布的德國資料戰略《透過資料利用取得進展》(Fortschritt durch Datennutzung)文件中所設定的目標。該戰略由內政部、經濟與氣候行動部、數位與交通部聯合訂定,規劃德國資料政策與法規的工作進程,以期打破資料封閉的現狀、拓展資料應用的範圍。 德國資料戰略目標與重點摘要如下: 1.更多的資料: (1)公部門資料:藉由統整跨部門的資料增加資料的可近用性,並透過新訂法規提升資料近用機會,包括《交通資料法》(Mobilitätsdatengesetz)確保交通資料的品質和使用規則、《聯邦透明度法》(Bundestransparenzgesetz)作為取得政府資料的法源依據、《研究資料法》(Forschungsdatengesetz)簡化科研資料的取得,以及為增加健康資料二次利用起草的《健康資料利用法》。 (2)私部門資料:德國政府將訂定並提供資料共享之契約範本,以降低資料的交易、操作成本,並評估增修公平競爭相關法規來協助企業間的資料合作。另將新訂《員工資料保護法》(Beschäftigtendatenschutzgesetz),重整散於歐洲人權法院及德國國內與員工資料相關之規範。 2.更好的資料:德國將積極參與國際資料標準訂定與遵循,確保資料的品質、互操作性,以及標準化的資料描述。相關工作包括草擬關於業者使用cookie等數位追蹤技術如何取得使用者同意的管理規範,並將依歐盟準則評估是否訂定不法重新識別之刑責;另外預計建立文化、農業等主題資料室用以協助政府決策。 3. 資料利用和資料文化:為使資料可持續地利用與發展,政府機關方面將設置資料專責人員,並在以政府資料訓練大型語言模型技術時由新設的資料諮詢中心協助。公民數位能力方面,將於STEM 2.0教育計畫中規劃培育資料概念,促進未來社會發展出更多樣的資料應用機會。 德國資料戰略涉及政府、企業、研究單位和公民各層面,顯示資料的重要性逐漸成為德國重大的課題,亦是我國在建立資料治理時如何確保資料品質、交換義務與使用規則的參考方向。

TOP