то, что вы не привязаны в своём проекте к гуглу это чудно, забудьте о нём, это детский сад или максимум для тестов. первое - сеть сляжет, потеря пакетов, серваки или каналы перегружены. второе - тайминги. даже если с описаным ранее всё отлично, задержки всё-равно будут и скорей всего значительными. к примеру у вас в видео они просто катастрофические. с такими задержками или на монитор нужно будет вешать бронированное стекло или тренироваться махать покупателям ручкой. третье - в гугле никто такие вещи никогда не искал и распознавалка вам хреньку на блюдечке выдаст,... повлиять на то, что распознаёт гугл вы никак не сможете - хотите пользуйтесь на свой страх и риск, хотите нет, другого не дано. сюда же проблема фоновых шумов, хотя она вроде у всех есть. четвёртое - всякие ограничения гугли, допустим длительность, которую гугля позволяет распозновать. пятое - что ушло на сервак гугли, то её и как она этим распорядиться не ваше дело. договориваться о каких-то спецусловиях гугля не будет.
если подумать, можно ещё чего вспомнить, что ни в какие ворота как для бизнес решения просто не лезет. для таких задач можно использовать только платные решения и то хорошенько взвесив все за и против. первое, что лезет в голову - это центр речевых технологий (не исключено, что у них ещё есть и синтезатор голоса). но это всё просто блекнет перед второй проблемой.
как думаете, есть разница между игрушечным совочком и допустим роботом-пылесосом? а между роботом-пылесосом и уборщицей/уборщиком? или вы серъёзно считаете, что ваша простенькая программка "вопрос-ответ" (99.9 из 100, что адаптированный чат-бот или что-то из этой серии, что мягко говоря не айс для данной задачи) или давно как продаваемые примитивные хреньки, заточеные на осуществление реакции по микроскопическому списочку команд ("включи свет", "убавь громкость",...) дотянет до диалоговой системы для торговли?
"слушай телехвизер, а ну ка покажи мне ваш самай хорошай телефон". аха, будет впаривать 100 дюймовые телехвизеры или "моя твоя не понима"?
и как потом должен реагировать этот софт на "вот тупой шайтан машина"? пошлёт или "поверните на лево"? понятно, что утрирую, но в реальном проекте вылезет столько косяков и недостатков, что мало не покажется
это же не вариант с софтом для "умного дома", когда пользователя как попугайчика можно дрессировать говорить нужные слова/фразы или "вбить" в систему пару фраз и закрепить за ними из списочка какие действия + там большая часть вобще не завязана на речи.