「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。 在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。 英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。 技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。
日本農業數據協作平台WAGRI開始自主營運「日本農業數據協作平台」(簡稱WAGRI)於2017年內閣府計畫的支持下,委由慶應義塾大學建立,該平台具備農業數據相容、數據共有與數據提供三大機能,日本IT企業NTT、富士通、農機大廠久保田、洋馬等均已加入WAGRI試營使用行列。今(2019)年該平台將移轉予國立研究開發法人農業食品產業技術總合研究機構(下簡稱農研機構),正式開始進入商業模式營運。欲利用WAGRI之機關除須向WAGRI協議會(由農業法人、農機製造商、ICT供應商、學研機構組成,以提出建議改善、普及WAGRI為其立會宗旨)遞交「入會申請書」外,亦須向農研機構遞交「利用規約」、「數據提供利用規約」與「規約同意書兼利用申請書」。 自主營運後,原先不收費方式已變更,欲利用WAGRI之機關依據以下兩種利用平台方式,須繳納不同的費用: 數據利用(利用WAGRI數據者)、數據利用提供者(利用WAGRI數據且提供數據予WAGRI者) 平台利用月費5萬日圓 若利用有償數據時,須另外支付數據使用費 數據提供者(提供數據予WAGRI者) 平台利用月費3萬日圓 僅提供無償數據的數據提供機關,原則上不需要繳納平台利用費 我國為發展智慧農業,智慧農業共通資訊平台有提供免費OPEN DATA介接功能,近年發展智慧農業之農企/機關團體,亦有建立平台作為內部蒐集、利用數據之用,例如弘昌碾米工廠建置水稻健康管理與倉儲資訊服務平臺,未來該類平台均有可能朝商業模式發展。WAGRI建立一套商業模式嘗試自主營運,後續將持續追蹤WAGRI營運狀況作為我國智慧農業平台之運作參考。 「本文同步刊登於TIPS網站(https://www.tips.org.tw)」