合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/05/21)
引註此篇文章
你可能還會想看
由AOL LLC and PLATFORM-A, INC. v. ADVERTISE.COM, INC. 案看網域名稱與商標名稱爭議

  2009年10月19日,美國線上公司AOL LLC and Platform-A, Inc. (American Online, 簡稱AOL)再次於美國聯邦加州中區地方法院 (US California Central Federal District Court)向一家提供美國線上行銷廣告的公司- ADVERTISE.COM公司,提出商標侵權訴訟。     本案原告- AOL早於2009年8月17日即向美國東維吉尼亞地方法院提出商標侵權訴訟,主張ADVERTISE.COM公司所使用advertise.com之網域名稱,除侵害AOL已註冊的Advertising.com,包含通用文字- advertising.com及設計過A之圖形,及申請中的AD.COM商標權外,也違反了不公平競爭法及維吉尼亞商事法。唯,10月初,東維吉尼亞地方法院法官提出有利於ADVERTISE.COM公司之意見,認為AOL企圖以其所註冊之商標- (A)dvertising.com,來阻止其他競爭公司在網路世界使用任何有關advertise文字的作法,係壟斷網路上所有線上廣告行銷市場;故,AOL被迫於10月將本件訴訟案轉向美國聯邦加州中區地方法院提出。     目前尚無對本案的意見,將待本案之後續發展,才能暸解商標權人所註冊的圖形商標中,若包含經設計的圖案及通用的文字時,是否就取得圖形當中通用文字的專用權,並可向其他競爭者主張,任何使用所註冊的商標的一部分,包含網域名稱中的文字,也是商標侵害的一種型態;如此,可能將導致擴張商標權的保障範圍。

以『江蘇科技改革30條』解析中國大陸科研經費改革制度

  中國大陸近年致力發展其國內技術研究產業,但在基礎研究經費申請制度上,長期存在一些結構問題,如在科研資助、實施和成果傳播三個階段。故自2017年起,中國大陸陸續修正關於科研經費制度,以使科技研究人員得以順利進行科研項目。截至目前,依中國大陸國發〔2018〕25號文為基準,江蘇省推出《關於深化科技體制機制改革推動高品質發展若干政策》(下簡稱『江蘇科技改革30條』),並出台完整的實用手冊 。   此次江蘇科技改革30條,明確落實中央對科研經費鬆綁及對科研結果獎勵與容錯的改革措施。在科研經費可直接列支項目的直接預算,如設備費、材料費等,從原本九個項目改合併為五個項目,科目經費支出將不再受比例限制;另在無法直接羅列預算項目的間接預算上,如績效支出等費用則精簡列支項目,提高間接費用核定比例。在科研結果獎勵與容錯改革上,建立原創成果獎勵機制、創新補償機制、援助機制及免責機制。   中國大陸科研經費長期採用嚴格預算制,直接預算需按照法律規範羅列,然間接預算部分常使研究人員因不知如何羅列,而導致研究經費中斷或減少。對於較易失敗的基礎研究上,研究人員則擔心在階段性考核中因錯誤致使研發經費無法取得,進而將錯就錯,謊報研究成果。此次江蘇科技改革30條修正,解決了上述科研經費制度的部分問題,並具體規範了實務上的操作。然各部會間如何解決關於監管經費結餘規範之法律衝突,及科研成果容錯機制之評價,仍待後續觀察。

政府資訊加值利用與管理法制研究:以美國及英國為例

美國發布了「消費者隱私權法」草案

  美國白宮在2015年2月27日發布了「消費者隱私權法」(Consumer Privacy Bill of Rights Act)草案,目的在於擴大消費者資料的保護範圍。 該草案的重點分列如下: 透明性:受規範主體必須提供資訊主體簡潔、明顯、易懂的公告,公告內容必須提供簡潔、明瞭及即時的隱私與安全運作,包含資訊保存、揭露以及個人資料存取機制。 個人控制:受規範主體應該在合理範圍內提供機制,讓資料主體能控制其個人資料之處理,同時也規範應讓消費者撤銷個人資料使用的同意。 注重資料蒐集與合理使用:受規範的公司機構必須依據其清楚、合理的說明規則來進行個人資料的蒐集、保存與利用。同時,在資料蒐集之特定目的完成後的合理時間內,必須針對所蒐集的個人資料進行刪除或是去識別化。 安全性的維護:為了維護個人資料之安全性,以防止其遺失、陷入危險、改變以及未經授權之使用或是揭露,公司機構必須進行安全風險評估,並且採取合理的資訊安全防護措施。 存取與正確性:受規範的公司機構必須提供資訊主體合理的存取權利,同時也應該採取合理的步驟,來維護資料的正確性。 擔負隱私維護的責任:受規範的公司機構必須針對員工實施資安教育訓練、進行隱私評估、隱私設計、遵守隱私保護義務以及採取適當的措施來遵循本草案之規定。 不受本草案規範之公司機構: 25名員工以下的小型公司,且其處理者僅限於員工與求職者之個人資料。 未刻意蒐集、處理、使用、保存或揭露個人病史、原生國籍、性傾向、性別、宗教信仰、資產狀況、精確的位置資訊、獨一無二的生物識別資料或是社會安全號碼,並符合以下要件之一者: 在12個月內蒐集個人資料筆數在10,000筆下; 5名員工以下。   除了要求產業發展處理消費者資料的標準或規則,該草案也要求「聯邦貿易委員會」(Federal Trade Commission, FTC)確認產業所制定的標準或規則必須符合「消費者隱私權法」的規定,包括提供消費者有關其資料如何被收集、使用與分享的明確通知。如果進行消費者資料收集的公司機構違反了「消費者隱私權法」,將會面臨FTC或是州檢察長所發起的法律行動。   該草案引起了產業界極大的反彈,隱私團體也批評該草案太過寬鬆,留給產業界太多自由空間,同時目前國會由共和黨所主導,因此後續立法工作的進行將會面臨極大的挑戰。

TOP