合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2025/11/27)
引註此篇文章
你可能還會想看
何謂拜杜法案「Bayh-Dole Act」?

  美國國會於1980年通過了拜杜法案(Bayh-Dole Act),正式名稱為1980年大學與小型企業專利程序法(University and Small Business Patent Procedures Act of 1980, 35 U.S.C. 200 et seq.)。經濟學人(The Economis)曾對美國拜杜法評價為「可能是過去半世紀在美國所成立之最具創見之法律」,其目的是讓大學、中小企業等與聯邦機構締約,執行聯邦政府資助的研發計畫後仍能保有其研究成果之專利,亦即將此研究成果的專利申請權歸屬於受資助之大學或中小企業,而非聯邦政府。   拜杜法案(Bayh-Dole Act) 35 U.S.C. § 201(c)對立約人(contractors)定義為,任何簽署資助協議的自然人、小型企業、或非營利機構。而權利歸屬部分,規定於35 U.S.C. § 202,非營利機構、中小企業等與聯邦機構簽訂資助契約之承攬人可以選擇是否擁有受資助發明(elect to retain title to any subject invention)之權利。再者,立約人負責專利管理事務之人員,應於知悉受資助發明的合理期間內,向聯邦機構揭露該發明,若未於合理期間內揭露,則該發明歸屬於聯邦機構。並且,立約人應於揭露發明後2年內,以書面行使其選擇權,逾期則該發明權利歸屬於聯邦機構。另 35 USC § 203有介入權規定,聯邦機構認為有必要時,得要求立約人、其受讓人或其專屬被授權人將發明專屬、部分專屬(partially exclusive)或非專屬授權予申請人,聯邦機構得自行為之。

何謂「“十三五”技術市場發展專項規劃」?

  中國大陸發布「“十三五”技術市場發展專項規劃」,在十二五時期,中國大陸不斷的推動技術市場的進步與發展,在政策上,不斷的更新法規,包括修訂《中國大陸促進科技成果轉化法》,進而促使《中國大陸促進科技成果轉化法》、《中國大陸科技進步法》、《中國大陸合同法》和地方技術市場法規共同規範了對中國大陸技術市場的保障。   在十三五時期,中國大陸提出六項主要任務,分述如下:(一)使保障技術市場的法規更為完整;(二)完整技術市場體系的建構;(三)加速促進成果轉化的步調;(四)利用技術平台,使創新創意相互流動;(五)提高技術市場人才的專業能力;(六)合理化的監督管理機制。

美國Amazon開始免費提供CD之線上即時MP3資料服務

  美國Amazon於1月10日正式發表在美國國內開始提供消費者使用其所購入CD之MP3資料的免費雲端服務「AutoRip」。   消費者一旦在Amazon.com的網站上購買音樂CD以後,音樂CD的MP3資料就會自動加入雲端音樂服務Amazon Cloud Player上的使用者個人儲存空間。購買手續完成以後,資料立刻自動加入,無需等待CD本身的送達。在這項服務範圍內的CD約有5萬片,不僅是在服務開始後購買的才能享受,服務還回溯至1998年以來曾在Amazon.com上購買過CD的消費者。   Amazon Cloud Player在公司的Kindle Fire,以及iPhone與iPad等搭載iOS作業系統的終端設備,與各家智慧型手機等搭載Android作業系統的終端設備等等都可利用,旨在提供消費者無論何時無論何地皆可以享受音樂的行動價值。此外,音樂資料不僅可以透過串流播放的方式利用,也能直接免費下載存檔利用。   目前,這項服務的對象區域僅限於美國境內,在日本、台灣都還無法利用,不過在網路上也已經有許多網友開始殷切期盼這項服務後續的推出。值得一提的是,Amazon這項服務的推出也進一步突顯了企業因應網路著作權利用型態發展的一個重要轉變。

歐盟質疑Google新訂網路隱私權政策服務條款

  2012年3月,Google 公告使用者的新網路隱私權政策條款,這項措施將Google 所提供的各項服務適用同一個隱私權政策,並整合多項服務於同一帳號之中,隨著隱私權政策的變動,使用者條款也一併更新,這項措施並同時透過電子郵件通知所有的使用者。然而,Google 此項新政策在歐洲地區實施時卻碰到困難,歐盟表示該隱私權條款適法性受到質疑,將可能受到有關單位的調查。   歐盟資料保護相關指令乃建構基礎架構規制網路使用者個人的隱私,相關機構與業者都必須遵守。關於此項Google 新隱私權政策條款,規定使用者的資料可以合併使用於各個不同的服務中,將可能造成使用者的個人資料將可能透過不同的服務而洩漏,並且遭受第三人使用,而有違反歐盟資料保護指令之虞。針對此問題,法國資料保護管理機構(The Commission Nationale de l'Informatique, CNIL)已對Google 提出詢問,詢問的內容包含Google是如何保存使用者的資料;如何將使用者於不同服務中揭露的資訊加以整合等問題。由於既存的使用者若要繼續使用Google相關服務,就必須同意該新訂隱私權政策條款,因此CNIL也透過此次機會了解使用者退出資料不被揭露的機制內容,以避免使用者在未經同意下個人隱私受到侵害。不過,屆至目前為止,包含英國在內的歐洲各國仍普遍認為,該隱私權政策條款並未充分賦予使用者掌握個人資料的權限。   相較於歐盟,美國聯邦交易委員會(Federal Trade Commission, FTC)對於使用者於使用網路時隱私權的保護,著重於業者隱私權保護的承諾;亦即歐盟著重於隱私權為個人基本權利,而美國普遍要求網路業者能於條款中,明確承諾保護使用者使用網路時的各項權利。無論如何,各國對於保護使用者使用網路服務的原則與概念雖然不同,但對於使用者資訊揭露的透明化要求均為一致。

TOP