合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/02/23)
引註此篇文章
你可能還會想看
德國慕尼黑地方法院日前認定特斯拉關於「Autopilot」等銷售(廣告)標示將誤導消費者

  自特斯拉(Tesla)推行Autopilot(此於特斯拉之繁體中文官網譯作自動輔助駕駛)以降,其原先宣稱可免手動(Hands free),但經美國國家公路交通安全管理局(National Highway Traffic Safety Administration,NHTSA)指摘特斯拉前述宣稱可能使駕駛人注意力渙散而發生事故,似乎影響近年來特斯拉對於其自動輔助駕駛系統之論調,而改要求駕駛人即便開啟該系統仍須將手放置於方向盤上。除了前揭特斯拉於車輛銷售(廣告)資訊所生的爭議外,日前2020年7月間德國慕尼黑第一地方法院(Landgericht München I)之合議庭的判決,認定特斯拉於其車輛(Model 3)之銷售(廣告)標示資訊的整體,以及原告競爭中心(Wettbewerbszentrale)所分別主張之內容,均屬不正當競爭防制法(Gesetz gegen den unlauteren Wettbewerb,UWG)第5條第1項第2句第1款之誤導性商業行為(Irreführende geschäftliche Handlungen,或譯作引人錯誤之交易行為)。   本件之爭點核心在於特斯拉現行車輛既有配備之Autopilot系統,以及消費者可自行選購之Volles Potenzial für autonomes Fahren(德文直譯:具備完全自動駕駛潛力,而特斯拉之繁體中文官網譯作全自動輔助駕駛)系統等用詞,因其等涉及車輛功能與設備之決定性概念和資訊,則與現行「車輛駕駛輔助系統」(Fahrassistenzsystem)存有落差,進而導致消費者理解與實際情況不一致之情形。   法院認定理由在於不論特斯拉之Autopilot或Volles Potenzial für autonomes Fahren等系統,均無法達到毋須人為介入行駛的情境,即便其於官網上有另行標註目前該等系統功能有限,仍須駕駛人主動監控所有行駛環境等,但因該等內容說明不夠透明與清晰,而仍無法排除其等資訊具有誤導性,故特斯拉使用Autopilot等詞以及其他暗示車輛技術上能完全自主(vollkommen autonom)等用語,將引起消費者錯誤認知其可在德國的道路上運行完全自主之自動駕駛系統(註:此部分似係指SAE標準等級5之自動駕駛系統,然德國道路交通法目前僅開放運行等級4以下之自駕系統)。不過該判決結果仍可上訴。

取締盜版有成 台灣改列特301一般名單

  美國貿易代表署公布最新特別301名單,我國從優先觀察名單降級成為一般觀察名單,經濟部智慧財產局長蔡練生表示,我們的目的是希望能除名,儘管這次只是降級,還是積極爭取希望在5月的年度報告能夠獲得除名。蔡練生表示,美國貿易代表署去年5月3日公布2004年特別301名單,我國列為優先觀察名單,並宣布去年秋季會進行不定期檢討,當時同樣被列為不定期檢討對象還包括馬來西亞和波蘭,不過這次只有台灣獲得降級。   台灣已經連續四年名列美國特別301優先觀察國家名單,近年來政府修法,加強取締盜版,獲得美國方面認同,今年終於獲得降級,並在美東時間1月18日正式公布我國降級。   蔡練生指出,優先觀察名單和一般觀察名單之間的差異是層次問題,列為優先名單者美國會給予六個月的觀察期,讓其改善機會,如果沒有改善就會採取貿易報復手段;一般觀察名單的觀察期,則延長為一年。

英、美等國拒絕簽署新全球電信規則

  由聯合國「國際電信聯盟」(the UN's International Telecommunication Union ,ITU)主持的國際電信世界大會(the World Conference on International Telecommunications ,WCIT)於2012年12月14日在杜拜落幕,此次有193個國家的政府代表與會,主要議題討論是否要更新自1988年以來已經24年未經修改的全球電信規則(the International Telecommunication Regulations ,ITRs),該修正案主要係由中國與俄羅斯所提出,其有意授權政府監管網際網路,盼望各國能合作打擊垃圾郵件並促進網路的普及。   這項修正案最大爭議點就在「人權」二字。若政府擁有網路審查權成為普世價值,保護言論自由是否將流於口號,某些習慣高壓政策的國家是否會濫用審查權,控制輿論進行不當審查與管制?   ITU秘書長Hamadoun Touré認為網際網路應該納入全球電信政策框架下,但反對派則認為此舉扼殺了網路自由,美國代表團團長Terry Karamer則主張,網路政策不應由聯合國成員國來定,應該由公民、社群以及更廣大的社會來決定。   經過激烈的辯論之後,共有89國支持這項修正案,而包括美國、加拿大、澳洲和英國在內的55個國家已經拒絕簽署,該修正案將於2015年1月1日生效,由於修正後的新規定必須經過所有成員國同意才具全球約束力,大會呼籲未簽署或已經拒絕簽署的55國應盡速簽署。

歐盟提出人工智慧法律調和規則草案

  歐盟執委會(European Commission)於2021年4月21日提出「人工智慧法律調和規則草案」(Proposal for a Regulation Laying Down Harmonised Rules on Artificial Intelligence (Artificial Intelligence Act) and Amending Certain Union Legislative Acts)(簡稱AI規則草案),旨在平衡「AI運用所帶來的優勢」與「AI對個人或社會所帶來的潛在負面衝擊」,促使會員國在發展及運用AI時,能採取協調一致的態度及方法,共同維護歐洲公民基本權利與歐盟價值。   歐盟自2019年起即倡議發展「值得信賴的AI」(Trustworthy AI)。AI規則草案之提出,除了落實執委會2019年至2024年之政策願景外,亦呼應2020年歐洲議會(European Parliament)之建議—針對AI應用之機會與利益採取立法行動,並確保合乎倫理原則。惟鑒於歐盟在環境、健康、公共事務、金融、交通、農業等領域對AI應用之高度需求,以及企業仰賴AI技術提升競爭優勢等因素,執委會係以「風險為基礎」之概念取向(risk-based approach)制定AI規則草案,避免對新技術發展造成不必要的限制或阻礙。   本規則草案將AI系統,依其「對歐盟基本權利或價值所創造的風險程度」,分為下列三種類型,並施以不同程度的監理方式: 一、不可接受之風險:原則上禁止使用此類型AI系統或使其進入歐盟市場。例如:利用潛意識技術操控個人、在公共場合利用「即時遠端生物辨識系統」進行執法、公務機關普遍對個人進行社會評分等。 二、高風險:於附錄中列出所謂高風險AI系統,要求高風險AI系統之提供者遵循風險管理、資料治理、文件紀錄保存、透明性與資訊揭露、人為監督、健全性、準確性與資安等要求;且AI系統進入歐盟市場前,需進行符合性評估(conformity assessment),進入市場後,則需持續監控。 三、非不可接受之風險亦非高風險:鼓勵AI系統提供者或使用者,自願建立行為準則(codes of conduct)。   AI規則草案亦鼓勵會員國建立AI監理沙盒(regulatory sandbox)機制,且以中小企業、新創公司為優先對象,使創新AI系統進入市場之前,能於可控環境中依明確計畫進行開發、測試與驗證。

TOP