合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/01/30)
引註此篇文章
你可能還會想看
美國通過「開放、公開、電子化與必要的政府資料法」(Open, Public, Electronic, and Necessary Government Data Act)

  美國於2019年1月通過「開放、公開、電子化與必要的政府資料法」(Open, Public, Electronic, and Necessary Government Data Act),以下簡稱「政府資料公開法」,於2018年12月經參議院、眾議院通過後,2019年1月14日經美國總統川普簽署公布,為具拘束力的聯邦法。   聯邦政府往往擁有大量的寶貴資料,本法旨在要求聯邦政府機關在網路上開放發布其非敏感性資料時,應以機器可讀取的格式為之,使之更容易透過手機或其他電子設備使用(access)。意在擴大對政府資料的使用和管理,及促進私部門的創新,讓其它政府單位、各個組織或每個人都能使用這些資訊,使政府資訊透明化,同時兼顧隱私與國家安全議題。   政府資料公開法的內容係將歐巴馬總統於2013年5月9日簽署生效的「政府資訊應具有開放性和機器可讀性」(Making Open and Machine Readable the New Default for Government Information)之行政命令(Executive Order),正式立為聯邦法,促使數位政府之政策未來以開放為原則、不開放為例外。有論者認為本法原為行政指導性質之行政命令,改以法律位階為之,其原因係為了讓開放政府資料永續發展,以成文法框架拘束政府機關。   因此,該法內容在於修正美國法典第44編第35章「協調聯邦資訊政策」(Coordination of Federal Information Policy)之部分條文,主要重點整理如下: 第3502條中定義了資料資產(data asset)、開放政府資料資產(open Government data asset)、機器可讀性(machine- readable)和開放授權(open license)等。其中,「開放授權」之定義首次見於本法條文中,係指將資料資產開放供公眾近用時,針對該資料資產提供以下法律保障(legal guarantee),包含:允許公眾在毋須支付任何成本即可使用(at no cost to the public),而對於該資料資產的重製、發布、散布、傳播、引用,或改作皆不會受到限制。 聯邦政府向公眾釋出資料集時,除因智慧財產權之規定外,原則上不得加諸任何限制而影響到人民對於該資料的使用或再利用,並應以機器可讀格式(machine-readable)、開放格式(Open Format)、開放標準(Open Standard)的基礎下提供。 要求聯邦政府利用開放資料來強化其決策機制。 要求美國政府審計辦公室(Government Accountability Office, GAO)透過定期監督,來確保聯邦政府的問責制運作(accountability)。意即,GAO應向國會提交一份報告,該報告總結對機關的調查結果和趨勢,並給予其適當建議。(美國政府審計辦公室之角色為國會的監督審計機構,係立法部門的一部份,主要職責為協助、改善聯邦政府所訂的各項計畫及政策,向國會提供客觀、平衡的資訊。) 在第3520條、3520A條中,規範聯邦機構須編制首席資料專員(Chief Data Officers, CDO)及首席資料專員理事會(CDO Council),負責資料治理和執行其職責,並確保該機構遵守本法。

美國FTC認為政府擴大拜杜法權介入權適用範圍將引發專利叢林危機

美國聯邦貿易委員會(Federal Trade Commission, FTC)於2024年2月6日針對「介入權指引草案」(Draft Interagency Guidance Framework for Considering the Exercise of March-In Rights)提交意見書。介入權指引草案由美國國家標準技術研究院(National Institute of Standards and Technology, NIST)2023年12月8日公布於聯邦公報(Federal Register),旨在訂立政府機關發動《拜杜法》(Bayh-Dole Act)第203條「介入權」(March-in rights)之判斷流程與標準,以確保介入權發動具一致性。根據草案內容,當受政府補助之研發成果若經商業運用後被以「不合理價格」販售,而未滿足民眾健康與安全需求時,提供補助之政府機關應適時介入。 然而,介入權指引草案將「價格合理性」納入介入權發動要件,被美國各界質疑係為達成拜登政府打擊藥價之政策目的,亦即透過擴大、強化介入權之方式,將「受政府補助之專利藥」強制再授權專利,以降低藥品價格。 FTC於意見書中亦對此爭議提出看法,認為美國人民就處方藥須支付不斷上漲之昂貴價格,雖然賦予各機關審查「價格合理性」,將使得介入權發動更為廣泛且靈活,並得以監督藥品價格。惟擴大、強化介入權仍有隱患,尤其製藥公司恐為了保護其藥品專利,因此擴大申請專利權範圍導致專利叢林(patent thicket)現象產生,例如除將活性成分申請專利外,另將製程、劑型亦申請專利,此為未來各政府機關應該共同解決之問題。

中國大陸開發資訊系統,加強落實電子出版物書號管理

  國家新聞出版廣電總局繼2011年底頒布《音像電子出版物專用書號管理辦法》後,歷經3年整備,去(2014)年底終完成「音像電子出版物專用書號實名申領資訊系統」開發,並於今(2015)年一月上線運行。預計透過此資訊系統,將能簡化書號申領、核發許可程序,落實「中國標準書號」(簡稱中國ISBN)及其配套之「書號實名制」推動。   同時,為配合系統運作,亦修訂《音像電子出版物專用書號管理辦法》,明文要求出版單位應安排、訓練專人從事相關書號的申請管理,及賦與出版單位對於申報內容、出版物品質及出版活動嚴格的自審責任。對於違規使用ISBN者,新法亦明文宣示主管部門可以按相關法規給予處罰,除採取警告發出責令改正的行政罰外,並有罰金的適用。   可以預期的是,在音像電子出版物專用書號實名系統的推動執行下,中國大陸關於電子出版物行政管理過程中的統計、查找、選擇、獲取等將建立統一性更透明的單一標準。正面而言,將促成電子書有秩序的發展環境,改善過去一號多書、買賣書號等亂象。另一方面而言,也表示電子書之出版,將趨於嚴格、減少模糊空間。

非評論、批判之著作若具新目的之轉化亦屬合理使用範疇之新見解 - Patrick Cariou v. Richard Prince

  美國聯邦第二巡迴上訴法院針對Patrick Cariou v. Richard Prince一案做出侵害著作權之合理使用判斷新見解,合理使用之目的主要為平衡著作權與美國憲法第一修正案之間的衝突,故1976年著作權法第107條中編寫有關合理使用之條文─在第106和第106A之規定外,對一受著作權保護作品的合理使用,無論是透過複製、錄音或其他任何上述規定中所提到的手段,以用作批評、評論、新聞報導、教學、學術交流或研究之目的,不屬於侵權。上訴法院認為被告Prince使用雖不符合批評、評論、新聞報導、教學、學術及研究等,卻是另有目的,可構成合理使用,更進一步指出被告的創意方法、表現形式等都與原告作品本質上不同,甚至還比原作新穎,因此,在轉化測試法則上建立了若以不同美學表達且加入挪用藝術手法的話,即使不具批判卻另有目的並加入新元素於創作,使原作改變之轉化,則構成合理使用。至於轉化測試法則確立於1994年的Campbell案,最高法院指出戲謔仿作可藉由諷刺原著作而轉化成與原著作不同的另一著作。   此案可謂針對合理使用於判定著作權侵害案件時,合理使用原則第一項因素成立轉化測試法則與否之新指標。著作權合理使用原則發展亦可觀察出美國有逐漸將判斷標準擴大之趨勢,而轉化測試法則之發展亦將持續追蹤之。

TOP