The article has been automatically translated into English by Google Translate from Russian and has not been edited.
Переклад цього матеріалу українською мовою з російської було автоматично здійснено сервісом Google Translate, без подальшого редагування тексту.
Bu məqalə Google Translate servisi vasitəsi ilə avtomatik olaraq rus dilindən azərbaycan dilinə tərcümə olunmuşdur. Bundan sonra mətn redaktə edilməmişdir.

Есту қабілетінен айрылған кеңес математигі Google-тен есту және сөйлеу қабілеті бұзылған адамдарға көмектесу үшін жұмысқа тұрды

Дмитрий Каневский адамдарға жақын адамдарымен, әріптестерімен, мобильді құрылғылармен және бүкіл әлеммен қарым-қатынас жасауға көмектесетін өнімдер шығарады. Бұл туралы жазады VC.RU.

Есту қабілетінен айырылып, ерін оқуды үйренді, Мәскеу мемлекеттік университетін бітірді, ғылым кандидаты болды, АҚШ-қа көшіп, қазір Google-де зерттеуші болып жұмыс істейді.

Соңғы 40 жыл ішінде Дмитрий есту қабілеті нашар адамдарға көмектесетін құрылғылар мен технологияларды дамытуда. Өнертабыстардың қатарына терінің көмегімен «тыңдауға» көмектесетін құрылғы және мәтінге мәтіннің ішіне қатты екпін, кекіру және басқа сөйлеу ерекшеліктері бар аударма қосымшасы жатады.

Өнертапқыш өзінің ерін оқу құралын қалай жасағаны, Google-ге жұмысқа орналасқаны және YouTube-те автоматты түрде жазулар жасау алгоритмін құруға көмектескені туралы әңгімеледі.

Келесі - бірінші адамнан.

дизайнер

Бала кезімде есту қабілетімнен айырылдым. Бірақ маған ерінді оқуды үйретіп, кәдімгі мектепке бардым.

Менің көптеген достарым болды. Содан кейін мен қарым-қатынаста үлкен қиындықтарға тап болмадым. Сегізінші сыныпта мен Мәскеудегі екінші математикалық мектепке ауысқанда қиын болды. Басқа балалар мен күрделі технологиялық пәндер болды - олар негізінен оқулықтардан оқуға мәжбүр болды.

Соған қарамастан, мен мектептен кейін 1969 жылы Мәскеу мемлекеттік университетіне оқуға түстім, содан кейін тағы сегіз жыл математиканы оқып, алгебралық геометрия бойынша диссертация жазып, ғылым кандидаты атандым.

Менің ойымша, математика мені неғұрлым тәуелсіз етті. Бұл мәселеде сіз біртұтассыз. Сіз оған назар аудара аласыз, онымен күресіңіз. Бұл менің мінезіме сәйкес келеді.

Диссертацияны бітіріп, болашақ әйеліммен таныстым. Ол ата-анасымен бірге Израильге көшті, мен оның соңынан еруді жөн көрдім.

Мен жаңа елде КСРО сияқты ерін оқымайтынымды, адамдармен еркін сөйлесе алмайтынымды түсіндім. Содан кейін мен ернімнен оқуға көмектесетін аппарат жасадым.

Құрылғы корпусқа орнатылды және теріні «естуге», дыбыстарды естуге және оларды дірілге аударуға мүмкіндік берді. Мәселе мынада: кейбір дыбыстар, мысалы, «с», «в», «және», «а» жоғары жиілікте, сондықтан оларды теріңізбен сезіну қиын. Содан кейін мен жоғары жиілікті төмен деңгейге аударуды ойладым.

Мен соншалықты кішкентай құрылғыны жасай алдым, олар оны киім астында байқамады.

Тақырып бойынша: Google жабық жобалардың «зиратын» құрды: оған «жерленген» заттар

Құрылғыны Израильге алып баруға рұқсат алдым, бұл иврит тілінде сөйлеуге көмектесті, онда «жоғары жиілікті» сөздердің көп мөлшері «Шаббат», «Шалом» және т.б. сияқты естіледі.

Израильде мен құрылғыны бір дәрігерге көрсеттім. Ол бұл өте жақсы нәрсе және құрылғыны сататын компания ашу керек деді.

Біз оны SensorAid деп атадық. Осы стартаппен қатар мен Вейзман институтында математик болып жұмыс істедім. Ол айына 2000 шекель тапты, бұл 1981 ж.

Содан кейін құрылғы көптеген елдерде қолданылды - ол бүкіл әлем үшін әмбебап болды. Бір ауруханада ол дыбыстарды оқи алатындай етіп, адамның құлағына таратқыш қондырған Коллердің дамуымен салыстырылды.

Менің құрылғым Коллермен бірдей нәтиже көрсетті, бірақ олардың дамуы 25 долларға бағаланып, күрделі операцияны қажет етті, ал менің нұсқам бірнеше есе арзан болды және хирургтардың араласуын қажет етпеді.

1984 жылы американдық Spectro компаниясы бұл құрылғыға авторлық құқықты сатып алды. Алдымен Германия мен АҚШ-тың академиялық мекемелеріне жұмысқа бардым, содан кейін IBM-ге көштім.

IBM-де жұмыс жасау

Біріншіден, мен сөйлеуді танудың алгоритмін жасадым.

Сөйлеуді мәтінге аудару үшін жүйе акустикалық сигналды оқып, оны білдіретін сөзбен сәйкестендіруі керек.

Ол үшін дыбыс белгілі бір критерийді қолдана отырып, сөздіктегі әр сөзбен салыстырылатын сандар тізбегі түрінде беріледі. Ауызекі сөз - бұл сандар тізбегіне сәйкес келетін сөз. Критерийлер - бұл 50 миллион айнымалыдан немесе параметрлерден тұратын көпмүшеліктер.

1990 жылдары динамикалық бағдарламалау әдістері 50 миллион параметрі бар көпмүшелерді сызықтық уақытпен есептеуге мүмкіндік берді.

Неғұрлым жетілдірілген критерийлер көпмүшелерге емес, рационалды функцияларға - полиномиялық қатынастарға негізделді. Ұзақ уақыт бойы олар сызықтық уақыт ішінде 50 миллион параметр үшін мәндерді есептеу жолын таба алмады. Мен бұл әдісті таптым. Ал ол қолданыла бастаған кезде, сөйлеуді танудың дәлдігі едәуір жақсарды.

Сонымен қатар, мен үнемі есту қабілеті нашар адамдарға көмектесетін технологиялармен жұмыс жасадым. Сол кезде Интернет пайда болды, мен оның көмегімен сөйлеуді түсінуге көмектесетін әлемдегі алғашқы қызметтерді жасадым.

Мысалы, ауызша сөйлеуді жазбаша аударуға мүмкіндік беретін қызмет. Ол үшін клиент жылдам тере алатын адамдарға қоңырау шалып, динамикті қосып, қоңырау кезінде олар естіген мәтінді терді.

Мәтін нақты уақыт режимінде клиенттің компьютер экранында көрінді және ол оның қасында не сөйлесетінін түсінді. Мұндай қызмет құны сағатына 120-150 долларға дейін.

Тақырып бойынша: «Шипажай сияқты, бірақ сіз көп жұмыс істеуіңіз керек»: Беларуссиядан келген иммигрант Google-ге жұмыс істеу туралы айтты

Мен сонымен қатар сөйлеуді танумен байланысты емес өнертабыстармен айналыстым.

Осындай технологиялардың бірі - Жасанды жолаушы. Ол жүргізушілерге дөңгелекте ұйықтамауға көмектесті. Жүйе ер адамды бақылап, онымен сөйлесті, сондықтан жүргізуші сұрақтарға жауап беріп, ұйықтамады.

Тағы бір даму банктердегі қауіпсіздікке қатысты болды. Клиенттің жеке басын растау үшін консультанттар әдетте анасынан немесе әйелінен көмек сұрады.

Мен қызметкерлерге әрдайым жаңа сұрақ қою үшін банкке клиент туралы көбірек ақпарат жинауға мүмкіндік беретін жүйені жасадым. Мысалы: «Сіздің итіңіздің аты кім?» немесе «демалыстан қашан оралдыңыз?»

Сонымен қатар, технология қоңырау шалушының дауысын анықтап, оның банктің клиентіне тиесілі екендігін тексерді. Егер бәрі тәртіппен болса және адам сұраққа дұрыс жауап берсе, банк қызметкері қоңырау шалған алаяқ емес екенін түсінді.

YouTube үшін сөйлеуді тану

2014 жылы мен Google-ге ауысып, сөйлеуді тану бойынша жұмысымды жалғастырдым.

Мен YouTube-те жабық жазулар жүйесін қолдандым, ол бейнедегі сөйлеуді автоматты түрде таниды және оны субтитрге аударады. Ол кезде технология нашар жұмыс істеді, ал команда мен мен оның алгоритмін жетілдіруге тура келді.

Сөздердің акустикалық үлгілерін жасау үшін бізге машинаны үйрету үшін мәліметтер - мәтіндер мен олардың дауыстық нұсқалары қажет болды. Сонымен, сөздер әр түрлі дауыстап айтылады.

Бұған дейін аудионы тыңдап, мәтінге аударған адамдар жалданған болатын. Осылайша олар бірнеше мың сағаттық сөйлеу мысалдарын келтірді, бұл жақсы тану жүйесіне жетпейді.

YouTube-те қызықты, бұл жерде көптеген дыбыстық және мәтіндік бейнелер бар. Көптеген пайдаланушылар өздері субтитрлері шифрланған қондырылған сайтқа бейнелер жүктейді. Ішінара, бұл іздеу жүйелері субтитрлерді жоғары бейнелерді көрсеткендіктен жасалды.

Пайдаланушылардан алгоритмдерді оқыту үшін жүздеген мың сағат дайын деректерді пайдалану идеясын алдым. Жалғыз мәселе - адамдар көбінесе мәтіннен қателіктер жіберіп қана қоймай, іздеу кезінде жоғары атаққа ие болу үшін субтитрлерге кездейсоқ әріптер жиынтығын қояды. Біз сапалы деректерді жаман деректерден ажырататын сүзгілерді салуға мәжбүр болдық.

Нәтижесінде біз 2016 жылы дамуды аяқтадық, ал Жабық субтитр сөйлеуді тануда анағұрлым жақсарды. Пайдаланушылардың қазір көріп отырғандары, субтитрлерді автоматты түрде жасауды басу - осы жұмыстың нәтижесі.

Мүмкіндігі шектеулі адамдарға арналған жобалар

2017 жылы мен Нью-Йорктегі кеңседен Google компаниясының Калифорния филиалына ауыстым.

Міне, жарты жыл ішінде мен командамен бірге Live Transcription қосымшасын жасадым, ол YouTube-те мәтінді мәтінге аудару үшін бірдей технологияны қолданады, бірақ жеке бағдарлама ретінде. Оның көмегімен есту қабілеті нашар адамдар не айтылғанын біле алады.

Жүйе қосымша дыбыстарды да таниды, олар қолданушы да жазады: иттің үрлеуі, баланың жылауы, гитараның дыбысы, есікті қағу, күлу және т.б. Аудио ақпараттардың бұл бөлігі телефонның өзінде өңделеді және сөйлеуді тікелей шифрлау Интернет арқылы жұмыс істейді.

Бұл қосымшаның негізгі жасаушылардың бірі - Чет Гнеги. Көбінесе Google қызметкерлері әріптестерінің мәселелерін шешу үшін жобалар жасайды. Гнеги адамдардың мен үшін естіген сөздерді теріп, көмектесуге шешім қабылдаған қызметтерін пайдаланғанымды көрді.

Ол алғашқы прототип қосымшасын жасады. Бұл бізге бірлесіп жұмыс істеуге көмектесті және ақырында Google-дің жеке транскрипция деген жеке жобасына айналды.

Мен қатысатын тағы бір жоба - Эфония. Бұл қосымша стандартты емес сөйлеу қабілеті бар адамдарға - әлсіздігі бар, саңырау, кекеш, инсульт алған адамдарға арналған.

Бұл жоба үшін бізге стандартты емес сөйлеудің көптеген мысалдары қажет. Тек бұл жолы оларды тіпті YouTube қызметінен таба алмайсыз. Мұндай сөйлеу өте жеке, сондықтан мұнда мәліметтерді жинау үшін басқа тәсіл қажет.

Мен жазудың алғашқы 25 сағатын жаздым. Ол алдын-ала сөйлесуді жоспарлаған есептерді жазып алды, содан кейін оларды аудиоға жазды. Сондықтан мен жүйені жаттықтырдым. Мен сөйлей алдым, және көрермендер менің баяндамаларымның мәтіндік транскрипциясын көрді.

Әр жаңа спектакль кезінде жүйе мені жақсырақ түсінді және тіпті жаңа фразаларды таныды. Енді маған алдын-ала есеп жазудың қажеті жоқ - алгоритм менің айтқандарымның бәрін мәтінге аударады.

Осылайша, бұл тәсіл жұмыс істейтіні белгілі болды, біз арнайы сөйлеу қабілеті бар адамдарды мәтінді оқып, жазуға шақыра бастадық.

ALS-мен ауыратын адамдарға біз Google Home-пен өзара әрекеттесу үшін олар айтқан әдеттегі тіркестерді бере бастадық. Олар өздері үшін жүйені үйрету үшін 100 сөз тіркесін қайталауы керек. Мұндай адамдармен сөйлесу қиын, және олар тез шаршайды, сондықтан олардан көптеген жазбалар күтуге болмайды.

Болашақта әмбебап жүйені құру үшін біз біртіндеп әр түрлі адамдардың сөйлеу мысалдарын осы аурумен біріктіре бастадық. Бұл өте баяу процесс - мәліметтер аз, және Эфония әлі де дайын жоба емес, зерттеу жобасы болып табылады.

Тақырып бойынша: Google, Apple және Стэнфорд университеті: украиндықтар Силикон алқабында пизанканизмді насихаттайды

Эфирия, Интернетке қосылуды қажет етпейді, Live Transcript сияқты. Смартфондарда шағын есептеу қуаты бар, сондықтан аудионы шешуге қиын. Алайда команда бұған төтеп бере алды.

Көптеген адамдар олардың деректері Интернет арқылы өңделеді деп қорқады. Егер қолданушы дәрігерге барса, онда ол да, дәрігер де диалог алыстағы серверлерге өтеді деп алаңдайды. Мұнда мұнда жоқ, өйткені Эфония желілік қосылуды қажет етпейді.

Енді біз сөйлеуінде проблемалары бар адамдар тіркеліп, олардың сөйлеу үлгілерін қалатын сілтеме береміз. Кейбір жағдайларда Google жеке-жеке сөйлеушілерді ақысыз танытуға тырысады.

Мен сонымен қатар ымдау тілін тану бойынша жобамен жұмыс істеймін. Мұнда біз визуалды ақпаратпен жұмыс жасаймыз. Бұл тапсырма сөйлеуді танудан да қиын. Қазір даму бастапқы сатысында.

Ым тілінде бір қимыл бір әріпті емес, тұтас фразаны білдіруі мүмкін. Тағы да біз көптеген мысалдарды табуымыз керек. Бұл жоба бойынша біз Галлаудет университетімен бірлесіп жұмыс жасаймыз. Америка Құрама Штаттарында бұл есту және саңырау адамдарға арналған жалғыз жоғары оқу орны.

Сонымен қатар, мен жоғары жиілікті төмен деңгейге айналдырған құрылғымның идеясына оралдым. Әріптестерім оның жаңа нұсқасымен жұмыс істеуде, ол қазіргі заманға сай, оның көмегімен қосымша ақпарат жіберуге болады.

Форум күнін де оқыңыз:

Ресейлік иммигрант бұдан былай Google-ді басқармайды: неге Сергей Брин компанияның президенті қызметінен кетті

Зираттық пикник: біздің иммигранттар американдықтарға жат дәстүрлерді қалай сіңірді

«Шипажай сияқты, бірақ сіз көп жұмыс істеуіңіз керек»: Беларуссиядан келген иммигрант Google-ге жұмыс істеу туралы айтты

Google, Apple және Стэнфорд университеті: украиндықтар Силикон алқабында пизанканизмді насихаттайды

жұмыс Google Біздің халық саңыраулар
Google News сайтындағы ForumDaily-ге жазылыңыз

Сізге АҚШ-тағы өмір және Америкаға көшу туралы маңызды және қызықты жаңалықтар керек пе? Біздің параққа жазылыңыз Facebook. «Басымдықты көрсету» опциясын таңдап, алдымен бізді оқыңыз. Сондай-ақ, бізге жазылуды ұмытпаңыз Telegram каналы - көптеген қызықты нәрселер бар. Мыңдаған оқырмандарға қосылыңыз ФорумДайын әйел и ФорумДүниежүзілік Нью-Йорк - сіз онда көптеген қызықты және жағымды ақпарат таба аласыз. 



 
1153 сұраныс 2,156 секундта.