AI訓(xùn)練數(shù)據(jù),不僅浩如煙海,而且種類龐多。置身其中,很容易茫然迷失,既無法全面洞察這些數(shù)據(jù)的廬山真面目,更不知該如何進(jìn)行數(shù)據(jù)配比、選擇。
為了解決上述問題,聯(lián)想研究院人工智能實(shí)驗(yàn)室和北京大學(xué)機(jī)器感知與智能教育部重點(diǎn)實(shí)驗(yàn)室副主任,大數(shù)據(jù)分析與應(yīng)用技術(shù)國家工程實(shí)驗(yàn)室常務(wù)副主任袁曉如老師及其團(tuán)隊(duì)合作,聯(lián)合打造了業(yè)界首個(gè)數(shù)據(jù)“地形圖”可視化展示技術(shù)。
傳統(tǒng)的可視化大部分為表格或者單純的詞云分布,看不出數(shù)據(jù)集里數(shù)據(jù)的全貌,更看不到數(shù)據(jù)之間的關(guān)系。而此次聯(lián)想和北大攜手研發(fā)的數(shù)據(jù)“地形圖”可視化展示技術(shù),通過數(shù)據(jù)特征提取、可視化降維分析、高頻詞高頻實(shí)體分析、數(shù)據(jù)高效檢索、自動采樣等技術(shù),讓數(shù)據(jù)以“地形圖”的形式直接呈現(xiàn)在用戶面前。有了“地形圖”的指引,AI訓(xùn)練者可在海量數(shù)據(jù)間自由穿梭,高效快捷地了解數(shù)據(jù)、洞察數(shù)據(jù)背后的秘密。同時(shí),該技術(shù)基于內(nèi)置的層次化模型、漸進(jìn)式文本標(biāo)注框架和可視化系統(tǒng),用戶可根據(jù)需要逐級建立自己的分類,并形成對應(yīng)的可視化視圖,從而逐步探索自己的數(shù)據(jù)。
數(shù)據(jù)“地形圖”中的每一個(gè)目標(biāo)點(diǎn)即代表一條數(shù)據(jù),海量數(shù)據(jù)顯示時(shí),會根據(jù)數(shù)據(jù)的分布密度自動進(jìn)行下采樣,采樣后呈現(xiàn)的數(shù)據(jù),依然保持?jǐn)?shù)據(jù)集原有各區(qū)域的相對分布密度。通過對“地形圖”的放大、縮小、漫游,可詳細(xì)查看每一條數(shù)據(jù)。

“地形圖”上點(diǎn)綴的一個(gè)個(gè)“地標(biāo)”,是數(shù)據(jù)中出現(xiàn)的高頻詞和高頻實(shí)體,根據(jù)統(tǒng)計(jì)頻次和來源出處,高頻詞和高頻實(shí)體以不同的大小形態(tài)和不同的地理位置在“地形圖”上以詞云形式展示。有了這些詞云“地標(biāo)”的指引,用戶既能快速了解數(shù)據(jù)集中數(shù)據(jù)所屬的大致領(lǐng)域、類型等,也可便捷查找到感興趣的數(shù)據(jù),從而在海量數(shù)據(jù)中漫步也不會迷路。
在地理學(xué)科中,有一個(gè)“等高線”的概念——把地面上海拔高度相同的點(diǎn)連成閉合曲線,并垂直投影到一個(gè)水平面上,再按比例縮繪在圖紙上就獲得了等高線。
等高線提供了關(guān)于地形的重要信息,包括地形的難易程度、山丘與洼地的區(qū)分、山脊和山谷的位置等。通過等高線,可以判斷地形的陡峭或平緩。例如,等高線越密集,表示地形越陡峭;等高線越稀疏,則表示地形較為平緩。此外,等高線還能幫助識別特定的地形特征,如山頭、洼地、鞍部、絕壁和懸崖等。
在我們的“地形圖”上,也有條條“等高線”,但它們代表的是數(shù)據(jù)的分布密度,同一等高線覆蓋區(qū)域數(shù)據(jù)的分布密度相同。每一條等高線圍成的封閉區(qū)域,從某種粒度上屬于同一“山系”,可以視為同一類型。中間最小一圈等高線為“山頂”,是數(shù)據(jù)密集區(qū)域,其中分布的數(shù)據(jù)均為對應(yīng)類型的典型數(shù)據(jù)。對應(yīng)不同山頂?shù)淖钔鈬雀呔€之間為“山谷”,“山谷”中數(shù)據(jù)稀疏,而且其中的數(shù)據(jù)多為邊緣數(shù)據(jù),或者為跨類型數(shù)據(jù)。不論“山頂”還是“山谷”都有可能存在“寶藏?cái)?shù)據(jù)”哦。為了方便從不同區(qū)域選取數(shù)據(jù),“地形圖”上還提供了套索和矩形選擇工具,可從任意區(qū)域,以任意形狀選取數(shù)據(jù)。

數(shù)據(jù)的分類維度是多樣的,我們的“地形圖”上還提供了交互式探索功能,用戶通過選擇或自定義不同的高頻詞和高頻實(shí)體,從自己需要的維度,創(chuàng)建多種不同層級的不同類型。系統(tǒng)會自動從數(shù)據(jù)集中高效檢索出包含相同或相似高頻詞、高頻實(shí)體的數(shù)據(jù),在“地形圖”上進(jìn)行獨(dú)立展示,或者在原有底圖上疊加展示,從而突出顯示自己感興趣的數(shù)據(jù)。
這種數(shù)據(jù)“地形圖”可視化技術(shù)現(xiàn)在已經(jīng)成為聯(lián)想煉AI大師產(chǎn)品的一個(gè)功能。煉AI大師由聯(lián)想研究院人工智能實(shí)驗(yàn)室打造,是聯(lián)想AI發(fā)展的重要引擎,為聯(lián)想自研AI算法的開發(fā)提供了重要支撐。它是一個(gè)專業(yè)的算力管理和一站式AI開發(fā)及運(yùn)營平臺,能夠?yàn)锳I專家提供靈活高效的算力管理功能,能為以數(shù)據(jù)為中心的開發(fā)者提供一整套數(shù)據(jù)可視化、清洗、標(biāo)注、模型訓(xùn)練、壓縮、蒸餾、評估、推理以及大模型應(yīng)用等全鏈條服務(wù)。
煉AI大師已經(jīng)在金融、制造、交通、教育等領(lǐng)域有實(shí)際落地案例,為客戶在硬件算力和算法開發(fā)人員之間搭建了一座便捷的橋梁,成倍提升了客戶算力的利用率,為客戶開發(fā)用于自己業(yè)務(wù)的AI算法提供了有力支持,大幅提升了AI開發(fā)及運(yùn)營效率。