Microsoft-ի մասնագետներն օգտվել են անվերահսկելի ուսուցման համակարգից՝ մեքենայական ուսուցման բաժնից, որն օգտագործում է ոչ ստանդարտ տվյալներ: Նրանց նեյրոցանցը գրեթե կատարյալ կերպով է արտասանում բառերը եւ դրա համար բավական էր միայն տառադարձությամբ 200 ձայնագրություն, հաղորդում էHighTech+-ը:

 «Almost Unsupervised Text to Speech and Automatic Speech Recognition» հոդվածում հեղինակները նկարագրել են, թե ինչպես է նրանց հաջողվել արդյունքի հասնել: Առացքային տարր է դարձել Transformers-ը՝ նեյրոնային ճարտարապետության նոր տեսակը, որը ներկայացվել է 2017-ին Google Brain-ից գիտնականների կողմից:

Ինչպես եւ մյուս խորը նեյրոցանցերը, այն արհեստական նեյրոններ է պարունակում (մաթեմատիկակական գործառույթներ, որոնք մոտավոր նմանակում են ուղեղի նեյրոնների գործառույթները), որոնք տեղադրված են միմյանց կապված շերտերով եւ որոնք փոխանցում են մուտքագրվող տվյալների ազդանշանները եւ դանդաղ կուտակում են  իմաստաբանական ուժը:

Կիրառելով այդ ճարտարապետությունը՝ Microsoft-ի մասնագետները ներկայացրել են գրավոր տեքստ կամ բանավոր խոսք մուտքային կամ ելքային տվյալների տեսքով, իսկ դրանց համար որպես աղբյուր ընտրել են ձայնագարությունների բաց բազա՝ անգլերեն խոսակցական լեզվով եւ LJSpeech տառադարձությմաբ:

Դրանից նրանք պատահական կերպով ընտրել են 200 հոլովակ, հաղորդում է   VentureBeat-ը:

Արդյունքն ավելի քան բավարար էր. ալգորիթմը հեշտությամբ գերազանցել է 3 հիմնական մրցակիցներին, իսկ հրապարակված  համակարգչային խոսքի շատ օրինակներ մարդկային խոսքից գրեթե չէին տարբերվում: Արտաբերության ճշգրտությունը կազմել է 99.84 տոկոս: