說起阿爾法蛋大蛋2.0機器人,有不少家長和孩子最感興趣的就是TA的指讀功能:只要把小學語文英語課本放在TA面前,再用手指著課本上的詞句,大蛋2.0馬上就能聲情并茂地朗讀出來,屏幕上也會同步顯示所指的內容,還可以點擊進行跟讀評測。
除此之外,指尖查詞也同樣實用。任意的中英紙質讀物放在TA面前,用手指一指紙上的字、詞,中文的有筆順筆畫、部首結構、釋義組詞,英文的則有音標、詞性詞義、例句和發音評測等。
其實,阿爾法蛋大蛋2.0的指讀功能的實現集合了許多種技術,其中有一項關鍵技術叫做手勢識別,淘云科技針對兒童使用的場景進行了深度優化,才能讓大蛋2.0“看到”孩子手指的內容、幫助孩子學習字詞、課文等。
就在今年1月17日,科大訊飛在德國The 20BN-Jester Dataset手勢識別評測中以97.26%的準確率斬獲冠軍,并刷新世界紀錄。阿爾法蛋大蛋2.0“指哪讀哪”的秘訣之一,這回在世界級的賽場上大放異彩啦!
科大訊飛刷新德國The 20BN-Jester Dataset手勢識別評測世界紀錄
?。ń貓D來源:The 20BN-Jester Dataset 官方網站 https://20bn.com/datasets/jester)
什么是The 20BN-Jester Dataset手勢識別評測?
The 20BN-Jester Dataset評測集由德國TwentyBN公司發起,擁有全球最大規模動態手勢識別數據集,在線實時滾動排名的競賽方式吸引了華為、斯坦福大學、福特等眾多國內外優秀創新企業和頂尖學術機構的參與。 該測評從海量的視頻資源選取了1376名被采集者的動態手勢,包含“向左或向右重擊”、“兩個手指向上或向下滑動”、“向前或向后擺手”在內的27種手勢類別,涵蓋大部分常見手勢類別。 為了讓參賽者提供的識別方案具有更大的應用價值,在該評測集中,針對不同的被采集者,選用風格迥異的背景對其做出的手勢進行采集,最終用于評測的手勢視頻具有“持續時間短、手勢動作復雜”的特點,這要求識別模型對時空信息具備很強的理解能力。
如何刷新世界記錄?
在這次測評中,科大訊飛成功借鑒復雜版本分析中文本檢測以及駕駛場景中圖像語義分割技術,并結合手勢識別任務對算法進行針對性地遷移和改進。 在識別模型設計上,為實現動態手勢識別效率與準確率的均衡,團隊摒棄了計算量復雜的3D卷積神經網絡方案,采用更為輕量化的2D卷積神經網絡模型對視頻進行逐幀分析,同時為了進一步提升性能,團隊設計相鄰幀特征交互模塊和自注意力機制相結合的方案,實現短時長時特征信息的交互,提升模型對時空信息的理解能力,大幅提升模型識別性能,最終取得了97.26%的識別準確率。 “低功耗,更精準”是團隊在設計方案時遵循的原則,也是相關技術實現應用落地的前提和保障。得益于此,這次評測所采用的方案可以直接應用在移動端在線手勢識別,從而讓人機交互的方式更靈活便捷。
正是得益于不斷進步的手勢識別技術,結合OCR技術識別內容,以及圖像識別、語音合成等應用,再加上淘云科技在兒童場景下對技術的深度優化,AI學習機器人阿爾法蛋大蛋2.0才能實現“指哪學哪”。
除了指讀之外,阿爾法蛋大蛋2.0還擁有個性化精準學的特色功能,讓孩子先通過少量題目找到知識點掌握的薄弱點,然后有針對性地進行分析、進行知識點學習和習題訓練,提高學習效率與效果??谡Z評測、繪本伴讀、算術批改、創意編程等,也讓大蛋2.0為孩子們的學習解鎖了更多新方式。用AI啟迪未來新人類,可不止是說說而已!