合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/02/21)
引註此篇文章
你可能還會想看
加拿大政府就生成式人工智慧對著作權的影響進行公眾諮詢

加拿大政府於2023年10月23日至12月4日針對「生成式人工智慧對著作權的影響」(consultation on the implications of generative artificial intelligence for copyright)進行公眾諮詢,以期了解生成式人工智慧對於加拿大著作權市場之變化,進而修訂《著作權法》(Copyright Act),本次諮詢文件中討論重點整理如下: 1.文字和資料探勘(Text and Data Mining, TDM):是否需要因應TDM修改加拿大原本的著作權法,包含著作權法中合理使用行為(29條)和暫時性重製行為(30.71條)等得不構成侵害之例外條款。學者、AI使用者以及AI技術團體大多持肯定見解,認為TDM行為中使用的著作時不需要權利人的著作權授權;然創意產業則多持否定見解,認為不應該為TDM創設例外,否則將會使得TDM所使用之作品原著作人無法主張權利以獲得授權金。 2.人工智慧生成作品之著作人身分及著作權歸屬:因利用生成式人工智慧所創作或輔助創作之文字、圖像和音樂有作者身分不明確之虞,因此加拿大政府希望可以對此加以澄清,並討論是否需要修改原本的著作權法案中相關規定。針對作者身分不明確之爭議,加拿大政府提出了三種可能的規範模式: (1)闡明著作權保護只適用於自然人創作的作品; (2)將人工智慧生成作品之作者歸屬於在創作作品時運用技能和判斷力的自然人,凡自然人可以在人工智慧技術輔助下創作的作品中貢獻足夠的技能和判斷力,即可被視為該作品的作者; (3)為人工智慧生成的作品創設一套新的權利。 3.人工智慧之侵權責任:人工智慧係透過大量的資料庫來生成一項作品,過程中可能出現侵害他人著作權之情形,而加拿大現行的著作權法框架下很難認定侵權行為之責任歸屬。加拿大現行的著作權法要求被侵權人(著作人)必須證明侵權人明知其重製行為侵犯他人著作權,且就該他人著作加以重製,但一般人難以瞭解人工智慧系統開發及訓練過程,因此難證明人工智慧系統研發與利用過程中的業者、工程師或其他相關人等是否有侵權行為。因此加拿大政府希望利害關係人就此議題提供更多意見,以協助將來修法、提高市場透明度。 生成式人工智慧雖然提供了便利的創作方式並帶來巨大經濟利益,卻也可能侵害他人著作權,因此平衡著作人之權利並兼顧經濟發展是加拿大政府及國際社會課正積極解決的議題。

歐盟新一代關鍵資訊基礎設施保護計畫

  2011年3月31日,歐盟執委會啟用新一代的關鍵資訊基礎設施保護計畫(Critical Information Infrastructure Protection, CIIP)。上一代的關鍵資訊基礎設施保護計畫在2009年公布並已取得一定的成果。新一代的計畫集中在全球化的挑戰,著重在歐盟成員國與全球其他國家的合作,與相互之間的合作關係。   為了達成這個目標,歐盟執委會訂定以下的行動綱要: (1)準備和預防:利用成員國論壇(European Forum for Member States, EFMS)分享資訊及政策。 (2)偵測和反應:發展資訊分享及警示系統,建置民眾、中小型企業與政府部門間的資訊分享、警示系統。 (3)緩和及復原:發展成員國間緊急應變計畫,組織反應大規模網路安全事件,強化各國電腦緊急反應團隊的合作。 (4)國際與歐盟的合作:根據歐盟成員國論壇所制訂的,歐洲網際網路信賴穩定指導原則和方針,進行全球大規模網路安全事故的演習。 (5)制訂資訊通信技術的標準:針對關鍵資訊基礎設施制訂技術標準。   另外,在2011年4月14-15日舉行的關鍵資訊基礎設施保護電信部長級會議(Telecom ministerial conference on CIIP),整個會議針對歐盟成員國、私人企業、產業界及其他國家進行策略性的對話,強化彼此在數位環境中的合作與信任關係。並針對新一代的關鍵資訊基礎設施保護計畫,向歐盟執委會提出相關政策建言。   受全球化、資訊化發展的影響,以及各國間互賴程度的增加,使得影響關鍵資訊基礎設施(CIIP)安全的問題,不再侷限於單一區域,更需要各方多元的合作。

歐盟智慧財產局公布2020年智財侵權狀況報告

  歐盟智慧財產局(European Union Intellectual Property Office)於今(2020)年第三季公布最新智財侵權狀況報告,研究報告為其智庫「歐盟智慧財產權侵權觀察平台(The European Union Observatory on Infringements of Intellectual Property Rights)」所執行,並結合經濟合作暨發展組織(Organization for Economic Cooperation and Development)之數據資料,每年以不同主題呈現當年世界智財侵權狀況。今年以「智財權為何重要、智財侵權與打擊仿冒之戰爭」為主題,重點如下: 智財密集產業對歐盟經濟貢獻占整體GDP的45%、就業人數占歐盟就業人口的29%、出口貨物量占96%。 企業對智財的重視比例增高,重視智財的企業雇員平均收入較不重視智財權者高出32%;運用智財於營運策略的中小企業成長潛力高於無智財權者,如依權利運用類型區分,其成長率分別是10%(商標)、16%(商標結合專利)、27%(商標與設計權),以及33%(三種權利組合)。 全球仿冒品占其貿易總量約3.3%,市值高達1,210億歐元。 除日常藥品,抗生素、癌症或心臟疾病藥物仿冒情形均趨於嚴重;2019年爆發新冠肺炎後,偽造商更是將仿冒移轉至檢測試劑與個人防護用品。   尤其進入AI與5G時代後,智財密集產業對世界經濟貢獻度可望逐年上升,但侵權狀況恐怕亦同,咎因於該產業之興盛與背後龐大的潛在利益。因此持續推動建立企業的智財意識與防護能力,有其必要性,以助於提升產業發展潛力與整體營運獲利。

中國電子簽名法將於四月一日正式生效

去年八月甫通過的中國電子簽名法在今年四月一日正式生效,而中國首家對外提供電子簽章服務的憑證機構(電子印章中心)在三月三十日成立。    中國電子簽名法對於電子簽名的定義指出,電子簽名是指數據電文中以電子形式所含、所附用於識別簽名人身分並表明簽名人認可其中內容的數據。而電子簽名的適用範圍,除了在涉及婚姻、收養、繼承等人身關係、土地房屋等不動產權益轉讓、停止供水、供熱、供氣、供電等公用事業服務或法律、行政法規規定不適用電子文書的其他情形外,均可使用電子簽名。

TOP