合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/06/21)
引註此篇文章
你可能還會想看
簡介美國無線電視所有權限制相關規則之發展

韓國簽署網路漫畫著作權保護相關協議

韓國創意內容振興院(Korea Creative Content Agency, KOCCA)、韓國著作權保護院(Korea Copyright Protection Agency, KCOPA)及韓國漫畫家協會,為杜絕非法傳播網路漫畫,營造網路漫畫著作權保護環境,保護網路漫畫著作權,已於2023年3月10日宣布與相關機構簽署協議,創造著作權保護環境,以營造適當之網路漫畫消費文化。 根據2022年發佈之《2022年上半年內容產業趨勢分析報告》顯示,2022年上半年,網路動漫內容產業出口金額比2021年增長27.9%,約 5600 萬美元(725 億韓元),相關產業正穩定增長中。然而,截至2021年,網路漫畫非法發行市場規模卻比起2021年增長53%,達到8427億韓元,表明非法發行造成的損失規模正在迅速擴大。 依據網路漫畫著作權保護協議,相關單位將共享現有網路漫畫著作權保護運作之經驗及必要資源,規劃三方合作提高網路漫畫用戶著作權保護意識之活動宣傳、共享網路漫畫著作權保護資料,相互合作查明非法使用網路漫畫的國內外實際情況,推動網路漫畫著作權產業正向運作。 漫畫產業之串流時代已逐漸形成,尤以韓國及中國大陸成長迅速,侵權問題亦隨之攀升,如何在快速發展之內容產業中,互通著作權資訊及提前預防侵權,係產業需關注之問題。 本文同步刊登於TIPS網站(https://www.tips.org.tw)

英國數位、文化、媒體暨體育部公布「應用程式商店經營者與開發者實踐準則」,強化消費者隱私與資安保護

  英國數位、文化、媒體暨體育部(Department for Digital, Culture, Media & Sport, DCMS)於2022年12月9日公布「應用程式商店經營者與開發者實踐準則」(Code of practice for app store operators and app developers),並規劃在未來九個月內要求Apple、華為、Microsoft等公司採行,以加強對消費者的隱私與資安保護。   根據該實踐準則之內容,APP商店經營者和開發者須滿足以下要求: (1)以友善使用者的方式與消費者共享資安和隱私資訊,如APP何時將無法在商店中取得、APP最近一次更新的時間、APP儲存與處理使用者資料的位置等。 (2)即便消費者禁用部分可選的功能與權限(如不允許APP使用麥克風或追蹤使用者位置),該APP仍可正常執行。 (3)制定穩定且具透明性的APP審查程序,以確保滿足實踐準則中資安與隱私最低要求的APP方能在商店內上架。 (4)當APP因資安或隱私原因無法於商店內上架時,向開發者提供明確的反饋。 (5)制定妥適的弱點揭露程序如聯絡表單(contact form),使軟體缺陷可在非公開(避免受駭客利用)的情況下被報告及解決。 (6)確保開發者即時更新其APP,以減少APP中的安全弱點數量。   總體而言,實踐準則要求APP必須具備相關程序,使安全專家能夠向開發者報告軟體弱點、確保安全性更新對消費者足夠醒目,以及將資安與隱私資訊透過明確易懂的方式提供給消費者。

加拿大政府就生成式人工智慧對著作權的影響進行公眾諮詢

加拿大政府於2023年10月23日至12月4日針對「生成式人工智慧對著作權的影響」(consultation on the implications of generative artificial intelligence for copyright)進行公眾諮詢,以期了解生成式人工智慧對於加拿大著作權市場之變化,進而修訂《著作權法》(Copyright Act),本次諮詢文件中討論重點整理如下: 1.文字和資料探勘(Text and Data Mining, TDM):是否需要因應TDM修改加拿大原本的著作權法,包含著作權法中合理使用行為(29條)和暫時性重製行為(30.71條)等得不構成侵害之例外條款。學者、AI使用者以及AI技術團體大多持肯定見解,認為TDM行為中使用的著作時不需要權利人的著作權授權;然創意產業則多持否定見解,認為不應該為TDM創設例外,否則將會使得TDM所使用之作品原著作人無法主張權利以獲得授權金。 2.人工智慧生成作品之著作人身分及著作權歸屬:因利用生成式人工智慧所創作或輔助創作之文字、圖像和音樂有作者身分不明確之虞,因此加拿大政府希望可以對此加以澄清,並討論是否需要修改原本的著作權法案中相關規定。針對作者身分不明確之爭議,加拿大政府提出了三種可能的規範模式: (1)闡明著作權保護只適用於自然人創作的作品; (2)將人工智慧生成作品之作者歸屬於在創作作品時運用技能和判斷力的自然人,凡自然人可以在人工智慧技術輔助下創作的作品中貢獻足夠的技能和判斷力,即可被視為該作品的作者; (3)為人工智慧生成的作品創設一套新的權利。 3.人工智慧之侵權責任:人工智慧係透過大量的資料庫來生成一項作品,過程中可能出現侵害他人著作權之情形,而加拿大現行的著作權法框架下很難認定侵權行為之責任歸屬。加拿大現行的著作權法要求被侵權人(著作人)必須證明侵權人明知其重製行為侵犯他人著作權,且就該他人著作加以重製,但一般人難以瞭解人工智慧系統開發及訓練過程,因此難證明人工智慧系統研發與利用過程中的業者、工程師或其他相關人等是否有侵權行為。因此加拿大政府希望利害關係人就此議題提供更多意見,以協助將來修法、提高市場透明度。 生成式人工智慧雖然提供了便利的創作方式並帶來巨大經濟利益,卻也可能侵害他人著作權,因此平衡著作人之權利並兼顧經濟發展是加拿大政府及國際社會課正積極解決的議題。

TOP