Angel71 » 13 апр 2019, 07:32
10-ти секундное квантование не назвал бы преимуществом. ранним вариантом оптимизацией да, но как посмотреть, зацикливание на этом может и навредить. небольшими кусками загружать, хранить и обрабатывать это хорошо для распределения нагрузок и возможности крутить на железе, где для монстрика удобней параллелить на встроенные ядра или сама вычислялка изначально мелкая и памяти на ней мало. с другой стороны можете прошляпить важные направления развития и как худший вариант для этого, будете развивать как узкоспециализированный алгоритм и ваш софт для некоторых будет всего-лишь одним из кучи узкоспециализированных фильтров/утилит.
разбивку есть смысл чуть по другому пробовать реализовать. допустим если алгоритм не может автоматически другие варианты подобрать, только тогда квантовать на жестко фиксированные куски или как-то вычислять (как удобней хранить/обрабатывать, в зависимости от длины видео или ещё как). а так пытаться вылавливать сцены. плюшки прям сразу есть. допустим в видео первые пару секунд это "а сейчас как и обещали клип такой-то", "смотрите какую новую футболочку прикупил, спасибо за донатики",... потом собственно клип, фильм, трейлер... или отрывок из них. или нарежет на куски, в третьем будет чуток одного контента, потом начало рекламы, в четвёртом продолжение рекламы и опять кусок какого видео продолжится. или анализируемое видео это сборники клипов, коротких нарезок на подобии коубов,... поиск чуток более качественным станет. выдачу результатов чуть улучшить можно (тот вариант, что сейчас на сайте без залогинивания, мягко говоря оставляет желать лучшего). как, хз, это скорей нужно прорабатывать зная чуть лучше специфику, т.е. вам. может вверху свой плеер, в нём или под ним как-то куски обозначить - клац в кусок, а ниже список где этот кусок ещё есть. +всякие генераторы списков или возможность самому перетягивать/отмечать что в список добавлять, фильтровать по доменам или ещё чего.
подозреваю, что кроме варианта, что сейчас на сайте может существовать другая более адекватная реализация (хромает описание на сайте - часть моментов вроде как более-менее понятна, но многие вещи сильно не очевидны. допустим один из моментов это упомянутый рестапи. полезная штука, а софт сами все пилят или есть чего совсем готовое, может какие шаблоны/заготовки для различных языков/фреймворков/...), но даже в таком случае и на сайте хотя бы чуток улучшить не помешает - начиная хотя бы с кеширования (в лоб по ссылке или как определять какое/от куда видео плеер тянет) - даже если это бутафория "смотрите, мы работаем" и реально сервера не напрягает качать и анализировать, смотреть долго и нудно на полосочку прогресса быстро напрягать начинает.
для дилемы выбора (клиенты крупняк или помельче. что в платное, что для не платящих на прямую пользователей, т.е. монетизации рекламой) частично будет больше свободы. частично больший круг решаемых задач (пользователи самый ценный источник новых идей применения). это заставка, её лесом или это один из источников информации для определения конторы. тут титры, забиваем или распознаём для чего (создание каких метаданных по актёрам и прочему). это реклама, даём возможность быстро вырезать или не закидываем пользователя тоннами мусорных ссылок на видео, где эта реклама напихана (а одна и та же рекалма частенько будет напихана в громадном количестве видео). видеоблогерам, нарезкосоставителям,... даём возможность сграбить с порезкой на части, потом может дополнительно дать возможность поискать эти куски с другой длительностью или что бы посмотреть, на сколько старое (отфильтровывать заезженного). для различных сайтов для плеера можно реализовать поиск фрагментов, а в плеере это использовать, допустим для выставления меток в полоске перемотки (туда же и генерация тумб). может дать возможность поиска, из какого фильма/мульта/клипа/... кусок в каком видео. и т.д. вариантов море даже по этому небольшому моменту, связанному с нарезкой на части.
сделали для кеширования/загрузки на анализ вычисление ссылки или способа скачивания видео, уже можете запилить дополнительную утилиту или сервис. хочет человек с какого сайта видео скачать, а не вопрос - вот тебе утилита или давай ссылку, у нас с сайта по прямой ссылке стянешь. ну и подумать, вдруг есть какие подводные камни (огребание от копирастов или какая законодательная дичь на подобии "за распространение") + как монетизировать (в бесплатной версии ограничения, потом покупай, открутка банеров или ещё как). для ютуба и downloadmaster и вебсервисы есть. а полно ресурсов, от куда даже сильно не кухарки с трудом видео скачать могут или вообще не смогут. хочет аудиофайл, скачать, сконвертить и выдать только аудио. для коуба варианты отдельно видео и/или аудио, склеить всё в один файл (по длительности аудио или видео). зацикленные видео не только у них есть.и т.д. утилитка может развиваться (выбор варианта качества видео или перевода, отслеживание выхода новых серий и т.д.), живя своей жизнью. а скачивание будет нужно в любом случае и основному сервису, т.е. всё-равно этим будете заниматься. вы замахнулись на большое и светло, но для поддержания штанов такая утилитка или доп. сервис (туда же чего для нарезкосоставителей и т.д.), вполне как вариант. если есть какие отпечатки для кадров или целых фрагментов видео, а крутиться софт будет на железе обычных пользователей, вы получите бонусом кучу работающих на вас мощностей, пополняющих/обновляющих ваше хранилище данных.
а в общем пока похоже есть зацикливаине на одной узкой задаче поиска дубликатов копирастами. пока не похоже, что сильно довольны результатами или что подросли на столько, что легко можете позволить сервера для крупного сервиса прикупить/арендовать. в варианте своего крупного сервиса это плохо. не покупать/арендовать это хороший вариант для другого варианта - упор на разработку софта, который потом крутится на серверах клиента. но всё-равно не помешает расширять пакет алгоритмов и искать другие варианты применения. даже добавляя другие алгоритмы к той же нарезке на фрагменты, понемногу можно прийти к небольшому пакету алгоритмов, как следствие возможность комбинировать и более гибко подстраиваться под разные задачи. появится конкурент, а у вас есть возможность только искать одни дубликаты. можете сильно в доходе потерять или совсем вылететь. будут другие алгоритмы/наработки/опыт, проще конкурировать или переориентироваться.