合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=66&tp=1 (最後瀏覽日:2026/01/08)
引註此篇文章
你可能還會想看
FDA允許第一個可以直接對消費者進行個人基因遺傳的健康風險服務測試法-GHR

  「美國食品和藥物管理局(FDA)」於2017年4月6日准許「23and me個人基因遺傳健康風險服務測試(簡稱GHR)」進行行銷,FDA要求該測試方法可以一定準確度檢測出十種疾病及可能條件。GHR是第一個被美國食品藥物管理局授權允許直接對消費者進行測試並提供個人遺傳傾向及醫療疾病條件資訊給消費者的測試。   GHR試圖提供遺傳風險資訊給消費者,但這個測試無法確定人們發展成疾病或發病條件的總體風險,因為除了某些遺傳變體的存在,還有很多因素會影響健康條件的發展,包含環境以及生活方式的因素,因此該檢測可能可以幫助人們做選擇生活方式的決定或告知消費者專業的健康照護。   23and me的GHR測試是運作自隔離唾液樣品中的DNA,此檢測被測試超過500000個遺傳變體,其檢測關於發展成以下十種疾病或發病條件增加風險的存在與否,包括帕金森氏症(Parkinson’s disease)、阿茲海默症(Late-onset Alzheimer’s disease)、自體免疫問題(Celiac disease)、α-1抗胰蛋白酶缺乏症、早發性原發性肌張力障礙(early-onset primary dystomia)、因子XI缺乏症(factor XI deficiency)、高血病1型(gaucher disease type1)、葡萄糖6-磷酸脫氫酶缺乏症(glucose 6- phosphate dehydrogenase defiency)、遺傳性血色素沉著症(hereditary hemochromatosis)、遺傳性血栓形成(hereditary thrombophilia)。   此外,FDA更要求所有DTC測試在醫療用途目的上之使用必需要能跟消費者溝通,使消費者可以充分了解該測試法後選用。其中一個研究顯示,23andMe的GHR測試的相關資訊是容易被理解的,有90%的人能夠了解報告中所呈現的資訊。

英國生物資訊身分證法將納入醫療及犯罪紀錄 引發侵犯個人隱私爭議

  英國為了 減少受到恐怖威脅和犯罪攻擊,於去年底在一讀通過 英國身分證法,預計2008年實施。該法案最具爭議之處是記載資料,包含一些生物辨識 (biometrics) 資料,如指紋、容貌辨識和虹膜掃描等,這些資料將會儲存在國家身分辨識註冊資料庫中。反對身分證法案者認為,儲存這些資料已侵犯個人隱私權。保守黨議員表示,除非內閣能「確實證明」有其必要性,否則將反對身分證法案到底。   現行持有英國護照並不需要更新,但在2008年後想要申請更新或換發護照時,就必須遵守新的規定,也引發另一爭議問題~費用過高。倫敦政經學院的報告認為,每個人的新版身分證所需的技術成本,實際需要約 300英鎊;而登錄生物辨識資訊所需要的掃描器,就需要花4000英鎊;另外,所登錄的資訊判讀性會隨著時間而降低,至少得每五年重新掃描換發。

全球首宗 GCP 中藥上市

  全球首宗通過西方臨床試驗的中藥新藥將在台上市,結合台灣、新加坡與大陸三地資金與技術發展出來的紅麴萃取藥物「壽美降脂一號」,本月十七日正式獲得國內衛生署中醫藥委員會許可通過,成為全球第一項符合西醫「優良臨床規範( GCP )」,獲准進入市場的複方植物用藥。   由於中藥複方治療的特性和西藥單一成分的結構有很大的不同,縱使美國過去曾投入相當多資源進行中草藥研發,但是至今並未有任何一項藥物完成三期臨床試驗,因此「壽美降脂一號」能通過衛生署的新藥審核,不僅對中藥界而言是一項破冰之舉,對我國新藥臨床也算是一大突破。「壽美降脂一號」是由新加坡華僑銀行子公司維用科技出資,由北京大學研發團隊從兩百多種紅麴中,篩選出特殊菌株後,授權台灣公司進行膠囊的開發。為了這項中藥新藥的核准許可,開發公司彥臣生技總計投入三年半時間,在中國醫藥大學附設醫院院長林正介主持下,完成第三期臨床試驗。中醫藥委員會及醫藥品查驗中心( CDE )為了慎重起見,又花了一年半時間審查,今年終獲得中醫藥委員會通過許可。   國內目前用來治療心血管疾病的降血脂化學藥物共有六種,一年市場規模三十五億元,其中最普遍的史塔汀( Statin )被發現有少數過敏副作用,紅麴萃取而成的「壽美降脂一號」,其目的就是為了突破化學藥物所產生的副作用。彥臣生技目前僅掌握「壽美降脂一號」的台灣銷售權,短期內可進一步獲得日、韓兩地市場銷售權,母公司維用科技已計劃利用台灣臨床試驗成果,進一步向美國 FDA 叩關。為了執行 GCP ,彥臣生技已自行開發一套中藥標準化的平台技術,該公司將和維用科技洽談技術授權,爭取進入美國市場機會。

聖淘沙開發公司就″Sentosa″商標對醫材企業提起侵權訴訟

  新加坡聖淘沙發展局(Sentosa Development Corporation, SDC)(以下簡稱聖淘沙發展局)於今(2018)年1月30日向新加坡高等法院(High court)起訴,主張一家名為Vela的醫療器材企業(包含Vela Operations Singapore, Vela Diagnostics等子公司,以下合稱Vela公司),在其一系列檢測HIV及茲卡病毒的醫材產品中使用″Sentosa″(下稱系爭商標)之行為,侵害了聖淘沙發展局的商標權,要求其停止使用。   聖淘沙發展局隸屬於新加坡貿易與工業部,為專責推動聖淘沙觀光活動的法人機構,系爭商標早在2005年於新加坡申請註冊,其保護範圍以服裝、飾品、書籍、玩具與飲品等涉及觀光之類別為主。截至2015年止,聖淘沙發展局更將保護範圍擴及馬來西亞、印尼及中國大陸。該局表示,系爭商標在過去長達45年的經營下,已成為新加坡著名商標。Vela公司將之作為其醫材品牌的行為,不僅會淡化,甚至減損系爭商標的識別性,造成消費者混淆誤認,將該檢測醫材與聖淘沙發展局產生不當連結,為蓄意藉機炒作。   事實上,Vela公司曾欲將″Sentosa″申請註冊商標,卻於2012年11月被駁回。這次Vela公司則提起商標無效之反訴回應聖淘沙發展局的訴訟,其認為系爭商標係指稱新加坡當地觀光渡假勝地的地理名詞,縱非地理名詞,在馬來語中亦屬稱頌和平寧靜之用語,無法代表特定之服務或產品,根本欠缺商標識別性要件,系爭商標應屬無效。   本案涉及新加坡司法實務有關地理名詞是否具備商標識別性之判斷標準,故其後續發展,值得追蹤觀察。 「本文同步刊登於TIPS網站(https://www.tips.org.tw)」

TOP