合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/02/04)
引註此篇文章
你可能還會想看
日本網路購物標價錯誤判決與臺、日實務差異之研究

法國國家資訊自由委員會將推出符合GDPR的人工智慧操作指引(AI how-to sheets)

法國國家資訊自由委員會(CNIL)於2023年10月16日至11月16日進行「人工智慧操作指引」(AI how-to sheets)(下稱本指引)公眾諮詢,並宣布將於2024年初提出正式版本。本指引主要說明AI系統資料集建立與利用符合歐盟一般資料保護規則(GDPR)之作法,以期在支持人工智慧專業人士創新之外,同時能兼顧民眾權利。 人工智慧操作指引主要內容整理如下: 1.指引涵蓋範圍:本指引限於AI開發階段(development phase),不包含應用階段(deployment phase)。開發階段進一步可分為三階段,包括AI系統設計、資料蒐集與資料庫建立,以及AI系統學習與訓練。 2.法律適用:當資料處理過程中包含個人資料時,人工智慧系統的開發與設計都必須確定其適用的法律規範為何。 3.定義利用目的:CNIL強調蒐集及處理個資時應該遵守「明確」、「合法」、「易懂」之原則,由於資料應該是基於特定且合法的目的而蒐集的,因此不得以與最初目的不相符的方式進一步處理資料。故明確界定人工智慧系統之目的為何,方能決定GDPR與其他原則之適用。 4.系統提供者的身分:可能會是GDPR中的為資料控管者(data controller)、共同控管者(joint controller)以及資料處理者(data processor)。 5.確保資料處理之合法性:建立AI系統的組織使用的資料集若包含個人資料,必須確保資料分析與處理操作符合GDPR規定。 6.必要時進行資料保護影響評估(DIPA)。 7.在系統設計時將資料保護納入考慮:包含建立系統主要目標、技術架構、識別資料來源與嚴格篩選使用…等等。 8.資料蒐集與管理時皆須考慮資料保護:具體作法包含資料蒐集須符合GDPR、糾正錯誤、解決缺失值、整合個資保護措施、監控所蒐集之資料、蒐集之目的,以及設定明確的資料保留期限,實施適當的技術和組織措施以確保資料安全等。 對於AI相關產業從事人員來說,更新AI相關規範知識非常重要,CNIL的人工智慧操作指引將可協助增強AI產業對於個資處理複雜法律問題的理解。

英國發布「科學技術框架」2024最新施政進度,積極推動創新技術發展

英國科技創新部(Department for Science, Innovation & Technology, DSIT)於2024年2月9日發布「科學技術框架」(Science and Technology Framework)最新施政進度,相關重點如下: (1)此框架旨在強化國家科技競爭力,聚焦五項關鍵技術領域:人工智慧、工程生物學、未來通訊、半導體和量子技術。 (2)擬實現十項關鍵措施:辨識關鍵技術、對國內外展示英國科技實力,吸引優秀人才及投資、促進公私部門投資新興科技、發揮英國多樣化技能、技術和創業人才優勢、為新創產業提供資金補助、促進公部門採購轉型、戰略性參與國際事務提升話語權、建立數位基礎設施優化研發環境、制定創新法規與全球標準、鼓勵公共部門建立支持創新文化,改善服務等。 (3)提出五大戰略領域發展策略,並由「英國研究創新(UK Research and Innovation, UKRI)資金」鉅額資助,並吸引私部門企業、慈善單位共同投資。 (4)提出「支持創新技術監管建議」(Recommendations from the Pro-innovation Regulation of Technologies Review):由政府首席科學顧問群對跨領域前沿技術、先進製造、創意產業、生命科學、數位技術及綠色產業等領域提出監管建議。 (5)推動「退休基金改革措施」(Mansion House Reforms):於2023年7月10日提出,政府支持運用退休金投資創新企業,除可提高退休金持有人之收益外,亦增加新創資金流動性,並促其於英國設立公司及上市。

英國ISP業者主動揭露網路速度資訊

  2011年5月英國電信主管機關Ofcom(Office of communications)對英國境內寬頻網路速率現況進行調查,寬頻網路平均下載速度從去年11月的6.2Mbits/s增為6.8Mbits/s,且有近半(47%)的使用者可享受到超過10Mbit/s的速度。   但廣告速度與真實速度間的差距擴大,今年5月業者平均廣告速度為15Mbit/s,,較真實速度6.8Mbits/s差距為8.2Mbit/s,而2010年11月平均廣告速度13.8Mbit/s真實速度6.2Mbit/s,差距為7.6Mbit/s。上述的差距主要發生於ADSL網路,英國有近75%的使用者仍用ADSL,此種傳輸方式將受到距離、纜線品質的影響。因此大多數業者所宣稱的20Mbit/s下載速度,僅能達到6.6 Mbit/s。有超過1/3的使用者速度為4 Mbit/s或更低。   F英國今年7月正式實施之寬頻速度自律規則(Voluntary Code of Practice on Broadband Speeds),為業者自願加入。除提供消費者「典型的速度範圍」(Typical Speed Range, TSR)資訊外,若消費者可使用速度小於業者宣稱之速度範圍,且業者無法解決問題時,在3個月內使用者可更換其他業者而無須罰款。目前已有BT、O2、Virgin Media等17家ISP業者加入自律規則中。

TOP