合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/03/01)
引註此篇文章
你可能還會想看
英國政府公布「英國醫療器材監管的未來」公眾諮詢結果並確立未來監管方向

  英國藥物及保健產品管理局(Medicines and Healthcare Products Regulatory Agency, MHRA)於2022年6月22日公布「英國醫療器材監管的未來之公眾諮詢政府回應」(Government response to consultation on the future regulation of medical devices in the United Kingdom),確立未來醫材監管方向。本次諮詢收到將盡900件回應(民眾與業者大約各半),結果顯示民眾業者對於強化醫療器材安全監管的支持。   MHRA將強化MHRA的執法權力,以確保病患安全,並且關注健康不平等議題並減少AI偏見問題;其監管設計上會考量歐盟和全球標準,並致力於建立英國符合性評鑑(UK Conformity Assessed, UKCA)。MHRA於安全方面,將增加製造商、進口商與經銷商的責任,並要求有英國地址的負責人對瑕疵商品負擔法律責任(構成法律責任的要件與製造商同)。其亦將要求製造商賠償被不良事件影響的人、禁止行銷上使用引人錯誤之表示、導入醫材之單一識別碼(Unique Device Identifiers, UDI)與增加註冊所需提供之資料,且製造商須建置上市後不良反應監測系統並回報統計上顯著的不良事件趨勢。創新方面,MHRA欲增設「創新醫療器材上市管道」和「軟體醫材上市管道」,以顧及創新與軟體醫材特殊需求。針對一般軟體醫材(software as a medical device, SaMD)與人工智慧軟體醫材(AI as a medical device, AIaMD)的監管,MHRA僅欲於法規中增加「軟體」的定義,其他規範將由指引的形式公布。此外,其將AIaMD視為SaMD的一種,並不會額外訂定AIaMD相關規範。

歐盟法院裁定連結未授權影音串流網站之多媒體播放器違反著作權指令

  歐盟法院裁定連結未授權影音串流網站之多媒體播放器違反著作權指令 歐盟法院於2017年4月26日就Stichting Brein v Wullems案作出裁定,依據2001年的「歐洲議會與執委會關於資訊社會中著作權及著作鄰接權調和指令(Directive No. 2001/29/EC of the European Parliament and of the Council of 22 May 2001 on the harmonisation of certain aspects of copyright and related rights in the information society)」,認定販售多媒體播放器,其上安裝附加軟體使用戶可透過建立好的選單,連結到含有未獲著作權人同意影音授權的第三方串流網站之行為,符合著作權指令中「對公眾傳輸(communication to the public)」的定義。歐盟著作權指令第3條第1項並規定,會員國應提供著作權人授權或禁止任何對「公眾傳輸」其作品的權利,包含使用有線或無線的途徑使公眾可以任意地在任何時間地點接觸這些著作。   歐盟法院指出「公眾傳輸」的概念應包含兩個部分:「傳輸行為」以及「公眾。「傳輸行為」包含了各種形式的傳輸或再次傳輸,不管是透過有線或是無線;並且只要是讓公眾可得接觸作品的行為,即構成「傳輸行為」。至於「公眾」的意義為不特定的多數人,並應考慮潛在接觸用戶的可能性,且不僅是從單一時點接觸用戶多寡評斷,而是應觀察連續性累積的情況。    歐盟法院認定此販售多媒體撥放器之行為,考量該行為對於該著作一般利用的影響,對著作人合法權益產生不合理的侵害因而不符合該指令的重製權例外,故對著作權產生侵害。

英國推動寬頻速度業務法則以提升寬頻速率服務

  英國通訊管理局Ofcom在2008年12月公布寬頻速度業務法則(Broadband speeds code),用以確保消費者在寬頻速度的選購上可獲得更正確的資訊。這個業務法則係在要求ISP業者必須在銷售點提供明確的寬頻速度說明,於消費者購買時清楚解釋廣告上「保證頻寬」的意義;業者亦需解釋何種技術因素可能會降低速度(例如距離機房多遠影響速率傳輸、高峰流量時導致速率傳輸變慢等等),並提供客戶得以在家中改善情況的方案;若實際速度遠低於原來的說明或保證,則消費者得以選擇替代服務而無須負擔多餘的費用。雖然僅係自願性的業務法則,卻已經有超過全國95%的寬頻用戶所屬的ISP業者進行簽署。   此外,Ofcom同時公布寬頻服務消費者指南(Advice for consumers: Broadband speeds),協助消費者瞭解自己的寬頻服務權利,以及ISP是否遵行寬頻速度業務法則。   在2009年01月08日所公布的2008年英國寬頻速度報告(UK Broadband speeds 2008)指出消費者寬頻上網的平均速率為 3.6 Mbit/s(下行),低於業者在推銷廣告上的4.3Mbit/s。雖然3.6 Mbit/s就足以滿足大多數的網路應用,例如語音以及標準畫質的影音,但是有超過60%的英國消費者所購買的服務卻是「保證」8 M的頻寬;但有1/5 的用戶甚至實際得到的速率不到2 Mbit/s,是廣告上速率的45%。此外,研究顯示有9%的消費者不滿意寬頻服務,其中速度是最常被抱怨的項目;且因為距離的關係,城市居民的速率高於農村地區的15%。速率最高在倫敦,最低在英格蘭東北部、威爾斯以及蘇格蘭,使得農村用戶(14%)不滿意寬頻服務的比率高於城市用戶(8%)。   Ofcom在接下來的六個月內將持續監測這些已經簽署業務法則的ISP業者,以期督促業者能提供更符合消費者需求的服務,並預計納入2009年的政策規劃中。   (2008年英國寬頻速度報告為實地調查,於1500個家庭用戶安裝相關網路設備進行監測網路品質,透過調查期間為2008年10月23日至2008年11月22日止。)

歐盟提出通用型人工智慧模型的著作權管理合規措施建議

歐盟提出通用型人工智慧模型的著作權管理合規措施建議 資訊工業策進會科技法律研究所 2025年07月23日 為推動以人為本且值得信賴之人工智慧(Artificial Intelligence, AI)應用,同時確保高度保護健康、安全及歐盟《基本權利憲章》所載之基本權利,包括民主、法治及環境保護,防止AI在歐盟境內造成有害影響,並依據歐盟《人工智慧法》(AI Act, AIA)第1條第1項支持創新。歐盟人工智慧辦公室(The European AI Office) 於2025年7月10日提出《人工智慧法案》關於通用型人工智慧的準則(The General-Purpose AI Code of Practice)[1],以下簡稱「GPAI實踐準則」。 該準則由辦公室擬定計劃邀集通用型人工智慧(以下簡稱GPAI)模型提供商、下游提供商、公協會、權利人、專家學者、民間團體組成工作小組,進行討論與草擬。目的在協助GPAI模型的提供者符合AIA要求其應訂定模型技術文件,提供給下游提供者,並應制定著作權政策、發布訓練內容摘要的規定。預計將自 2025 年 8 月 2 日起適用。 壹、事件摘要 歐盟GPAI實踐準則包括透明度、著作權與安全維護(Transparency, Copyright, and Safety and Security)三大章節。為證明符合AIA第53條及第55條所規定義的指導文件(guiding document),並確保GPAI提供者(providers)遵守其在《人工智慧法》下之義務,於該準則於著作權章節提供適用AIA第53條第1項(c)款規定[2]的措施建議。 該準則強調採取相關措施可以證明符合前揭定之義務,但符合歐盟著作權及相關權利法規,並不以遵守該準則為要件,而且也不會影響歐盟著作權及相關權利法規的適用與執行,其權利最終歸屬法院。而著作權人依法保留的權利,以及針對文字與資料探勘(Text and Data Mining, TDM)的例外或限制 (EU 2019/790號指令第4條第1項),仍應在合法條件下適用。 考量到一些GPAI提供者是新創企業,規模有別於一般企業,故該準則亦強調其所要求採取的是相稱措施(proportionate measures),應與提供者之規模相稱且合乎比例(commensurate and proportionate),並充分考量中小企業(SMEs),包括新創公司(startups)之利益。 貳、重點說明 該準則建議GPAI提供者,採取訂定著作權政策、合法重製、尊重權利保留、積極防止侵權、提供問責管道等五大著作權管理措施。 一、訂定、維持並實施著作權政策 為證明已符合AIA第53條第1項(c)款所負之義務,GPAI提供者針對其投放於歐盟市場之通用人工智慧模型,應制定政策以遵守歐盟著作權及相關權利法規。該準則建議提供者應將著作權章節所列措施納入於政策中,公開發布並維持最新狀態其著作權政策摘要,且在組織內部指派負責實施和監督。 二、獲取合法可存取之受著作權保護內容 GPAI提供者進行 EU 2019/790號指令第2條第2項之文字與資料探勘及訓練其通用人工智慧模型進行網際網路內容的重製並擷取時,例如使用網路爬蟲(web-crawlers)或授權他人使用網路爬蟲代其抓取(scrape)或以其他方式編譯資料,應防止或限制對作品及其他受保護標的物之未經授權行為,特別是應尊重訂閱模式(subscription models)或付費牆(paywalls)所施加之任何技術性拒絕或限制存取。而且在進行網路爬取時,應排除歐盟認定為持續且重複大規模商業侵犯著作權及相關權利之網站。 三、識別並遵守權利人的權利保留 GPAI提供者文字與資料探勘及訓練其通用人工智慧模型,其網路爬蟲應識別並遵守EU 2019/790號指第4條第3項的機器可讀(machine-readable)權利保留[3],讀取並遵循機器人排除協議(Robot Exclusion Protocol, robots.txt)。 該協議包括任何經網際網路工程任務組(Internet Engineering Task Force,IETF)證明技術上可行且可由AI提供者和內容提供者(包括權利人)實施之版本,或經國際或歐洲標準化組織採納透過基於資產(asset-based)或基於位置(location-based)之詮釋資料(metadata)等其他方式的機器可讀協議。亦包括通常係透過在歐盟層級經由權利人、AI提供者及其他相關利害關係人參與討論所達成共識的識別方案。 GPAI提供者亦應透過公開該等資訊並提供受影響權利人可在該等資訊更新時自動獲得通知的適當措施,使受影響之權利人能夠取得相關資訊,包括所用的網路爬蟲、所採識別並遵守權利保留之措施。 四、降低著作權侵權輸出之風險 為降低整合GPAI模型的下游人工智慧系統(downstream AI system),生成可能侵害著作權或相關權利的作品或其他標的物GPAI提供者應實施適當且合乎比例之技術保障措施,防止其模型生成以侵權方式重製受歐盟著作權及相關權利法規保護之訓練內容。;同時,在使用政策、條款與條件或其他類似文件中禁止模型用於著作權侵權目的。對於以自由及開源授權(free and open source licenses)發布之GPAI模型,應在隨附文件中請使用者注意禁止模型用於著作權侵權用途。無論是將模型整合至其自身的人工智慧系統,或係依據契約關係提供給他人。 五、提供聯繫受理管道 GPAI提供者應提供與受影響權利人進行連繫的管道與資訊,讓受影響之權利人及其代理人(包括集體管理組織(collective management organizations))以電子方式進行投訴。同時,勤勉、非任意地並在合理時間內處理投訴,除非投訴明顯無根據,或已對同一權利人提出之相同投訴作出回應。 參、事件評析 美國先前於2025年6月23日曾由加州北區聯邦地方法院(United States District Court for the Northern District of California),威廉·阿爾斯法官(Judge William Alsup)針對Andrea Bartz、Charles Graeber、Kirk Wallace Johnson這三位美國作家,對Anthropic公司訓練大型語言模型(Large Language Model, LLM)時使用受其等著作權保護書籍一案,作出AI訓練行為可主張合理使用的簡易裁決(summary judgment)[4]。但法官仍然指出提供AI訓練的合理使用(Fair Use)不代表資料來源的適法性(Legality of Source)獲得合法認定,並不支持盜版一本本來可以在書店購買的書籍對於創建大型語言模型 (LLM) 是合理必要 (reasonably necessary) 的。 這次歐盟的準則更明確指出,GPAI提供者進行文字與資料探勘及訓練其通用人工智慧模型,以網路爬蟲(web-crawlers)進行網際網路內容的擷取,應尊重訂閱模式(subscription models)或付費牆(paywalls)所採取的技術性拒絕或限制存取。而且在進行網路內容爬取時,應排除歐盟認定為持續且重複大規模商業侵犯著作權及相關權利之網站,即訓練資料的取得必須是合法。而且必須積極使用可識別並遵守機器人排除協議(Robot Exclusion Protocol, robots.txt)的技術,更應透過公開該等資訊、提供受影響權利人可在該等資訊更新時自動獲得通知的適當措施,使受影響之權利人能夠及時知悉所用網路爬蟲、所採尊重權利保留之措施。 雖然前揭美國法院案件正在進行審理,但顯然與歐盟的GPAI實踐準則及美國著作權局的合理使用立場[5]一樣,均不認同迴避權利保護施、自盜版網站取得的資料之情況。我國日前發生七法與法源公司之間的著作權訴訟,七法以網路爬蟲爬取法源公司於使用條款限制存取的資料,並非技術創新撞上不合時宜的舊有法律框架,而是創新應用仍應在合理保護權利的前提下進行。 歐盟GPAI實踐準則所揭示的政策制訂、尊重權利保留、積極防止侵權、提供有效且給予合理回應的問責管道等AIA合規要求,已提示GPAI的開發、服務提供,應如何透過公開、揭露措施來配套降低科技創新應用過程對既有權利的影響,也指引其應建立的內部管理與外部溝通重點。對於開發、運用GPAI對外提供服務的企業而言,在爭執訓練資料應有合法空間的同時,或許應該思考是否應先採取歐盟GPAI實踐準則所建議的措施,以尊重既有權利的態度,積極降低權利人的疑慮,始有助於形成互利的合法利用空間。 本文為資策會科法所創智中心完成之著作,非經同意或授權,不得為轉載、公開播送、公開傳輸、改作或重製等利用行為。 本文同步刊登於TIPS網站(https://www.tips.org.tw) [1]The European AI Office, The General-Purpose AI Code of Practice, https://digital-strategy.ec.europa.eu/en/policies/contents-code-gpai。(最後閱覽日:2025/07/21) [2]該條款要求將通用人工智慧模型投放於歐盟市場(Union market)之提供者,必須制定政策以遵守歐盟著作權及相關權利法規,特別是透過最先進之技術,識別並遵守權利人依據《第2019/790號指令》(Directive (EU) 2019/790)第4條第3項所表達之權利保留。 [3]指不接受其著作被用於文字與資料探勘目的之利用。 [4]Bartz et al. v. Anthropic PBC, No. 3:24-cv-05417-WHA, Doc. 231, (N.D. Cal. June 23, 2025),https://cdn.arstechnica.net/wp-content/uploads/2025/06/Bartz-v-Anthropic-Order-on-Fair-Use-6-23-25.pdf。(最後閱覽日:2025/06/25) [5]劉家儀,美國著作權局發布AI著作權報告第三部分:生成式AI訓練-AI訓練是否構成合理使用?https://stli.iii.org.tw/article-detail.aspx?no=0&tp=1&d=9352。

TOP