Skip to content

Latest commit

 

History

History
131 lines (110 loc) · 122 KB

README.md

File metadata and controls

131 lines (110 loc) · 122 KB

forthebadge pythonbadge

YouTube Scraper

This is a YouTube scraper. It uses Selenium library to web scraping and data extraction from YouTube without YouTube API.

This scraper takes a channel URL as input and extracts the following data:

  • title : channel title
  • description : channel desciption
  • links : List of links attached to the channel
  • page_url : channel url
  • subscriber : Number of subscribers
  • video_count : Number of videos (total)
  • view_count : Total views
  • regist_date : Date of joining
  • videos
    • url : video url
    • title : video title
    • views : Video Views
    • publication_date : video publication date
    • description : video description
    • likes : Number of video likes
    • transcript : video transcript
    • reply_count : Number of video comments
{
    "title": "Bright Data",
    "description": "Bright Data is the world’s number one web data platform. Fortune 500 companies, academic institutions, and small businesses all rely on Bright Data’s solutions to retrieve crucial public web data in the most efficient, reliable, and flexible way, so they can research, monitor, analyze data, and make better decisions.\n\nOur platform is used worldwide by 10,000+ customers in nearly every industry. Our products include a range of no-code data solutions utilized by business owners and a robust infrastructure used by engineers and IT professionals. \n\nOur users love us because we provide them with a cost-effective way to perform fast and stable public web data collection at scale, effortless conversion of unstructured data into structured data, and superior customer experience, while being fully transparent and compliant.\n\nTap into the power of public web data with our best-in-class solutions:\nhttps://brightdata.com/\n\n#proxy #datacollection #webscraping #datasets ",
    "links": [
        {
            "name": "Bright Data",
            "url": "brightdata.com"
        },
        {
            "name": "LinkedIn",
            "url": "linkedin.com/company/bright-data"
        }
    ],
    "page_url": "www.youtube.com/@BrightData",
    "subscriber": "구독자 6.04천명",
    "video_count": "동영상 330개",
    "view_count": "조회수 4,663,031회",
    "regist_date": "가입일: 2017. 3. 13.",
    "videos": [
        {
            "url": "https://www.youtube.com/watch?v=_oZDB_fQjTc",
            "title": "Мастерство извлечения данных о путешествиях | Преодоление CAPTCHA, антибот-систем и масштабируемости",
            "views": "조회수 58회",
            "publication_date": "2024. 12. 22.",
            "description": "Откройте секреты масштабируемого извлечения веб-данных и сбора данных о путешествиях вместе с экспертами Bright Data Рафаэлем Леви и Ариэлем Вентурой. На этом вебинаре вы узнаете, как обойти антибот-системы, управлять алгоритмами динамического ценообразования и легко извлекать данные с помощью Scraping Browser от Bright Data.\n\nЭтот вебинар был переведен с помощью инструментов искусственного интеллекта.\n\nОсновные темы:\n\nПроблемы при извлечении данных о путешествиях: Skyscanner, Booking.com и другие.\n\nПреодоление CAPTCHA и механизмов обнаружения ботов: инструменты и методы.\n\nМасштабирование сбора данных: управление крупномасштабными конвейерами данных.\n\nАвтоматизированные облачные решения: использование Scraping Browser от Bright Data.\n\nДемонстрации в реальном времени: практические примеры извлечения данных с комплексных сайтов.\n\nКому будет полезно?\n\nРазработчики и инженеры: в поиске передовых технологий извлечения.\n\nСпециалисты по данным и аналитики: требующие надежных конвейеров данных.\n\nПрофессионалы туристической индустрии: сосредоточенные на конкурентных ценах и анализе.\n\nКоманды электронной коммерции и маркетинговых исследований: работающие с мониторингом цен и данных о продуктах.\n\nВы научитесь:\n\nСоздавать автоматизированные конвейеры извлечения данных с помощью Puppeteer, Playwright и Selenium.\n\nМасштабировать тысячи экземпляров извлечения с помощью облачных браузеров.\n\nЛегко решать CAPTCHA с помощью решений на основе искусственного интеллекта.\n\nОптимизировать инфраструктуру веб-скрейпинга для динамических веб-сайтов.\n\nУправлять сложными HTTP-заголовками, cookies и подменой пользовательских агентов.\n\nScraping Browser от Bright Data устраняет блокировки, снижает расходы и оптимизирует процесс извлечения данных — идеально подходит для компаний, работающих с ценовой аналитикой, мониторингом конкурентов и анализом в реальном времени.\n\n👉 Попробуйте Scraping Browser от Bright Data бесплатно: https://brightdata.com/products/scrap...\n\nТайм-коды:\n0:00 – Введение: знакомство с Рафаэлем Леви и Ариэлем Вентурой.\n0:18 – Проблемы извлечения данных о путешествиях.\n1:32 – Динамическое ценообразование и анализ конкурентов: почему постоянное извлечение так важно.\n3:05 – Конвейер извлечения данных: ключевые компоненты успешного процесса.\n5:10 – Решения для непрерывного извлечения: облачные вычисления и механизмы разблокировки.\n12:35 – Демонстрация Scraping Browser: пример в реальном времени со Skyscanner.\n17:30 – Возможности масштабирования: легкий запуск более 50 экземпляров.\n26:15 – Демонстрация решения CAPTCHA: простое преодоление проблем.\n33:30 – Вопросы и ответы: ответы на часто задаваемые вопросы о извлечении данных.\n\n#WebScraping #ИзвлечениеДанных #ТуристическиеДанные #АвтоматизацияИнструментов #РешениеCAPTCHA #МасштабируемыйСкрейпинг #BrightData #Прокси #КонвейерыДанных #APIСкрейпинг #ДинамическоеЦенообразование #АнализКонкурентов #ОблачныйСкрейпинг #АнтиботОбход #СборДанных #МаркетинговыеИсследования #ТуристическиеТехнологии",
            "likes": 0,
            "transcript": "Всем привет Меня зовут рафале Я старший архитектор решений здесь в БТА и сегодня\nс нами Ариэль Вентура который является менеджером по техническим аккаунтам\nСегодня мы будем говорить о данных о путешествиях или если быть более точным о том как масштабировать сбор данных\nособенно в туристической отрасли Ариэль сотрудничает со многими клиентами\nкоторые собирают данные о поездках поэтому его вклад будет\nи я действительно Надеюсь что вам понравится Итак Ариэль давай начнём\nперейдём к следующему слайду ребята чтобы получить общее представление о том что требуется когда мы говорим о сборе\nданных о путешествиях очевидно что мы имеем дело с множеством различных источников данных У нас есть разные\nотели разные агрегаторы такие как Sky scaner Так что мы говорим о множестве\nразличных источников о разных антибот системах о многих вещах которые будут\nмешать вам собирать данные и сегодня я надеюсь что мы обсудим некоторые решения\nкоторые вы можете применить чтобы сделать эту работу проще очевидно что разные источники\nданных связаны с динамическими алгоритмами ценообразования вам нужно быть в курсе изменений поэтому вам нужно\nпостоянно собирать данные имитировать пользователя и конечно если вы сможете\nсобрать все эти данные это определённо улучшит вашу работу особенно если те\nбыть конкурентоспособными по цене в этой отрасли очень важно знать что делают ваши\nконкуренты Ариэль Я хочу задать тебе несколько вопросов Каково твоё мнение ты\nпостоянно сталкиваешься с этими проблемами видишь постоянные трудности клиентов которые сталкиваются с\nблокировками Расскажи немного о своём опыте с различными источниками что ты\nвиди ВБ\nобласти связаны с получением данных потому что большинство этих доменов\nтаких как BD skyer Каяк букинге имеют очень сложные механизмы\nблокировки предназначенные для обнаружения и они предназначены для\nобнаружения ботов и их блокировки Так что настоящая проблема здесь в том что\nвас блокируют возникают капчи Когда вы пытаетесь получить данные из вашего источника данных это одна из самых\nсложных вертикалей для сбора данных потому что ребята те компании на самом\nделе не хотят чтобы их публичные данные собирали поэтому они вкладывают много денег в антибот системы Давайте\nдвигаться дальше Итак обычно выглядит процесс сбора данных верно вам нужно разработать\nскрепер очевидно что вам нужно какое-то решение для обхода блокировок в наши дни\nиметь скрепер недостаточно вам нужно убедиться что спер действительно обходит обнаружение ботов затем вам очевидно\nнужно собрать и обработать данные а потом вам нужно сделать что-то вроде машинного обучения внедрить это в ваши\nмодели чтобы вы не делали с данными есть так много вещей которые вы можете сделать а сейчас в наши дни вы знаете\nобучение и и всё такое это много всего на этом этапе Вы можете сделать следующее И если мы перейдём к\nследующему слайду мы увидим что обход блокировок - это по сути самая сложная часть верно как упомянул Ариэль именно\nздесь возникают блокировки Все вы знакомы с этими ошибками 400 и 500 вы\nпытаетесь что-то сделать И вдруг бум вас блокируют вас блокируют Хорошо вы\nделаете Это на небольшом масштабе увеличиваете объём и всё блокируется В\nобщем что мы хотим обсудить на этом вебинаре Так это как избавиться от этих блокировок Какие решения существуют\nКакие лучшие практики есть если мы перейм к следующему слайду мым что если\nвы оффлайн например не знаю давайте скажем что у нас сейчас много праздников\nи вы продаёте билеты и не знаю Вы отключается и вдруг вы не видите что\nпроисходит Кто меняет свои цены Вы слепы скорее всего вы не будете конкурентоспособны по цене и вместо того\nчтобы быть в топ-1 или топ-5 вы окажетесь где-то на второй или третьей\nстраниц и люди не покупают ваши билеты Это значит что каждую минуту Когда вы\nофлайн и не собираете данные вы теряете деньги на этом графике вы можете увидеть\nчто время восстановления когда ваши скреперы выходят из строя будет очень дорогостоящим Чем дольше это занимает\nтем больше денег вы теряете потому что ну вы не делаете никаких продаж Итак\nдавайте перейдём к следующему слайду Ариэль Так что я сейчас дам слово Алю\nчтобы он немного рассказал потому что я хочу чтобы вы услышали его экспертизу Итак Ариэль что нам тогда делать Так в\nчём же решение Да чтобы добиться непрерывного сбора данных на больших\nмасштабах нам нужно обратить внимание на два основных компонента Первое это\nразработка собственной внутренней инфраструктуры для обхода блокировок а второе - это использование облачных\nвычислений немного затронем Аспект облачных вычислений Так что облачный\nбраузер просто более эффективен чем использование локального браузера или браузера размещенного на сервере браузер\nразмещённый на сервере будет потребует постоянного обслуживания это обслуживание должно будет выполнять\nкто-то из вашей команды Это значит что вам нужно выделять ресурсы на его обслуживание вместо того чтобы\nсосредоточиться в своих основных задачах В то время как в облачных вычислениях всё делается и обрабатывается\nпровайдером услуг немного затронем инфраструктуру механизма обхода\nблокировок как уже упоминал Рафа ранее на этом вебинаре замены очень-очень\nсложные они постоянно меняют и улучшают свои механизмы блокировки Так что это\nзначит что если организация хочет разработать внутренний механизм обхода блокировок Вам нужно будет выделить\nкоманду для этого команду которая будет постоянно на чеку потому что как уже упоминалось этот\nдомен постоянно меняется с их стороны так что обход блокировок как термин в\nэтом контексте Это скорее постоянный и непрерывный процесс чем одноразовое\nрешение верно В общем я хочу немного остановиться на этом ребята мы говорим о\nкомпаниях многомиллионных компаниях которые создают эти системы обнаружения ботов верно Так что буквально Нужна\nкоманда которая будет как бы с ними бороться это как бы знаете это они против вашей команды потому что они\nблокируют А вы обходите блокировки Так что если у вас нет команды из п человек они победят потому что их команда стоит\nкак минимум из 51 человек которые буквально работают против вас\nда Давайте продолжим арель так Расскажите нам немного Что такое\nуслуги обхода блокировок что включает в себя процесс обхода блокировок Конечно\nесли мы собираемся разбить процесс обхода блокировок на разные услуги мы можем в основном разделить его на три\nотдельных шаги Первое - это управление заголовками запросов нам нужно убедиться\nчто заголовки которые отправляются соответствуют тем которые ожидает хост\nчто и демонстрируется первыми четырьмя маленькими квадратами нам также нужно выбрать\nправильный IP некоторые домены более чувствительны к геолокации IP адреса с\nкоторого был отправлен запрос он может чувствителен к конкретной онно симе\nсоответствовать ей вам также нужно внедрить внутреннюю автоматическую повторную попытку ротацию IP адресов все\nэти вещи требуют времени с вашей стороны и наконец самым сложным будет решение\nкапча решение капча считается самым сложным и затратным этапом в этом процессе важно знать что капча может\nпоявиться либо потому что вы не выполнили первые шаги процесса правильно Например вы устанавливаете\nзаголовки запросов которые не соответствуют тем что ожидает хост тогда Он покажет капча Но это также\nможет быть жёстко закодированная капча например домен может иметь эту капче по умолчанию которая не связана с вашим\nзаголовком запроса поэтому важно отметить что символ капча может\nпоявиться в любом месте этого процесса правильно У меня есть хорошая\nпоговорка Да так что лучший способ решить капча - это не получать её с самого начала верно Да идея в том что\nесли вы сделаете Всё я имею в виду мы говорим о доменах которые не постоянно как бы верно капча не является\nобязательным верно Конечно если капча обязательно ничего другого вы не сможете сделать но лучшее что можно сделать -\nэто получить все заголовки ки пользовательский Агент правильно настроить геолокацию и тогда сервер\nувидит что вы выглядите как настоящий человек не получить капча - это наверное лучшее что мы можем сделать и Давайте\nпродолжим в общем Давайте сосредоточимся на первых нескольких шагах потому что идея в том\nчтобы понять что в это входит Если вы хотите сделать это сами как это будет выглядеть Да здесь мы выделили первые\nшаги которые в основном связаны с заголовками запроса А на следующем слайде как упомянул Рафа лучший способ\nрешить капча - это избежать её вообще Итак правильная настройка ожидаемых заголовков запроса может помо вам\nизбежать капча зало запросов огромное количество\nзаголовков запросов ики которые необходимы для разблокировки\nтаких доменов как SK каждый ки и каждый заголовок имеют\nсвои уникальные значения теперь для некоторых кукии заголовков Вы можете\nпросто сгенерировать случайную строку В общем это будет в определённом формате но самака может быть сно Сэм сви\nнекоторые заголовки ики такого типа но некоторые заголовки ики которые домен\nожидает получить должны иметь подлинное значение например это будет заголовок\nтакой как пользовательский агент который домен обычно ожидает получить с конкретным значением ки связанные с\nкапча все эти ки связаны с P все эти ки связаны с капча и домен ожидает получить\nих подлинное значение чтобы Вы могли избежать капча и избежать блокировки Эм я просто хочу вмешаться\nЕсли вы можете вернуться к предыдущему слайду ребята Если вы на это смотрите это полный беспорядок верно чтобы это\nпонять вам нужны разработчики вам нужна помощь и Да конечно у вас может быть команда которая будет этим заниматься\nразбираться в этом и следить за тем чтобы всё соответствовало требованиям сайта Но зачем зачем зачем с этим\nсвязываться верно Так что да какие есть другие варианты Кроме того чтобы разбираться во всём этом и тратить дни\nнедели какое решение Да как упомянул Рафа разобраться с этой частью будет\nочень-очень трудоёмкая много рабочей силы Так что предложенное решение - это\nиспользовать браузер размещённый в Облаке который полностью управляется провайдером Это избавит вас от\nнеобходимости контролировать и поддерживать какие-либо серверы снизив накладные расходы сделав это более\nэкономически эффективным Если вы передадите обслуживание ваша команда из п человек\nкак ранее упоминал Рафа сможет сосредоточиться на основных задачах вашего бизнеса и сбежать и о\nнеобходимости поддерживать сервер или что-то в этом роде отлично супер Итак давайте снова\nпредставим продукт который есть у Bright Data теперь этот продукт мы называем спинг браузером это удалённый браузер\nкоторый работает через websocket на удалённом сервере Так что по сути это устраняет любую необходимость в\nобслуживании любую необходимость в инфраструктуре Я хочу чтобы Ариэль немного рассказала о том что у нас будет\nнесколько демонстраций которые мы хотим вам показать что этот продукт действительно работает сразу же так что\nесли вы занимаетесь сбором данных о путешествиях Я верю что этот продукт может стать отличным решением потому что\nон уберёт необходимость в разработчиках уберёт необходимость в инфраструктуре Так что это обычно экономит компании\nмного денег а и клиентам Итак Ариэль Расскажи нам немного о том что мы видим\nкак это работает точну Итак что мы видим это базовый обзор инфраструктуры СН\nбраузера Итак спин браузер - это по сути облачный браузер который интегрирован с\nпомощью библиотеки автоматизации такой как Play селениум и так он подключается\nчерез веб сокеты теперь в зависимости от целевого Хоста он будет выполнять необходимые задачи по разблокировке\nустановка соответствующие заголовки запросов корректировка настроек пинга о\nкоторых мы ранее говорили выбор правильной геолокации выбор правильной операционной системы повторные попытки\nпри ошибках которые мы можем определить выполнение\nпредыдущей навигации по запросу и даже решение капча если это\nнеобходи теперь на следующем слайде мы по Су собираемся\nкоторый демонстрирует разницу между использованием нашего решения для спин\nбраузера и его отсутствием Итак мы начнём с того как\nэто будет выглядеть когда вы не используете скрапинг браузер это базовый\nскрипт Мы просто хотим перейти на сайт skyer мы стараемся дать ему наилучшие\nшансы на успех под капотом мы устанавливаем геолокацию пинга на США\nно которую skys ожидает получить Мы также использовали резидентные прокси\nкоторые широко считаются самыми надёжными Теперь мы хотим подчеркнуть\nчто установка геолокации Ринга и использование лучших прокси не всегда\nпомогает Вам потому что как вы видите мы просто запустим это локальный экземпляр\nбраузера запущен SK загружается и он загрузился но мы сразу же\nполучаем Теперь мы уже упоминали ранее на сканера реализованы сложные механизмы\nблокировки Итак в этом случае это было этот бот на самом деле был\nклассифицирован как бот и мы получили капча Я просто хочу вмешаться ребята\nчтобы вы поняли что капча не всегда решается с помощью картинок и сопоставление вещей иногда капча это\nпросто нужно нажать и удерживать кнопку и такие ве так просто решить Так что опять же на таких сайтах лучший подход -\nэто не получать капча верно Извините прерывание давай Конечно конечно это\nбыло отличное замечание теперь хотим показать вам что произойдёт если мы просто запустим это используя наше\nрешение для скрапинг скрипта в нём действительно Немного\nбольше взаимодействий чем в предыдущем Но это просто потому что СН браузер единственный Кто способен на такие\nИтак что мы собираемся сделать здесь так это просто ввести лос-анджелес в качестве нашего пункта назначения мы\nустановим даты и Мы просто хотим показать несколько базовых примеров и\nтот факт что наш веб разблокировщик не блокируется Так\nчто мы просто запустим это браузер сейчас работает в Облаке и мы можем\nвидеть как код выполняется а взаимодействия которые мы настроили происходят врем\nон будет загружаться знаете мы сейчас смотрим на сервер смотрим на браузер на автоматизацию что происходит точно также\nкак если бы вы запускали это локально но вы подключаетесь к серверу И как вы\nможете видеть именно то что сказала Ариэль происходят вводы Итак давайте\nпосмотрим Давайте посмотрим Ариэль Да итак те\nПоа обни регулярности в движении мыши и\nвзаимодействиях мы хотим показать как можно больше взаимодействий и сделать это кратко и по существу потому что это\nв конце концов демонстрация Как вы можете видеть Пункт назначения уже выбран сейчас выбираются даты Как вы уже\nвидели скрипт который мы использовали который не использует скрейн браузер был заблокирован давно и даже не смог бы\nвыполнить эти взаимодействия Итак Теперь мы выполним\nпоиск И через некоторое время мы должны получить\nцены дамы справились все загружено нас не заблокировали Итак этого момента\nРебята вы можете просто взять данные разобрать их и перейти к следующему шагу вашего процесса да Для тех кто\nкогда-либо пытался создать скрепер для не знаю skyer например я имею в виду\nесли вы дошли до этой части и уже получили цены и ресы то это всё верно это сложная часть потому что обычно в\nэтот момент до этого вас обычно блокируют Если вы дошли до этой части Это значит что Вы уже на правильном пути\nТак что чтобы быстро объяснить вам в чём на самом деле разница Насколько сложно\nинтегрировать скрейн браузер в ваш код Это всего лишь одна строка кода мы\nсейчас Смотрим как это реализовать в патир Так что если вы запускаете па\nLaunch правильно это значит что вы запускаете его локально обычно вы указываете знаете путь к chome но в этом\nслучае просто Переключи вшись нар Connect и подключив websocket к Web сокету Bright Data вы уже запускаете его\nудалённо Итак если у Вас уже есть код который разработан но имеет низкий\nуровень успешности высокий а уровень блокировок и высокий уровень захвата то\nвсё что вам нужно сделать - это создать зону в Bright Data переключить код с пор lach на Connect и вы в\nделе и также чтобы вы знали что это вернёмся на один слайд чтобы вы поняли\nэто касается не только кукловода это также для Play и селениум это всего одна-две строки кода это не так сложно\nВам не нужно переписывать весь ваш код реализуйте это запустите его лично я\nвремя от времени разрабатываю скреперы и я могу сказать вам что это убирает все разочарования от блокировок просто\nработает и Я рекомендую всем кто слушает попробовать это Откройте аккаунт Мы\nпредоставляем демонстрации Попробуйте это действительно работает и конечно\nверно Так что помимо того что вы не получаете захват Если вы всё-таки\nполучаете захват спин браузер решает около 25-3 различных Захватов Я не хочу\nдавать вам ложное число но в общем даже если обязательный захват он будет\nрешён Что е у нас здесь правильно ключевые функции\nци Итак СН браузер потому что он работает на облачном браузере Вы можете\nмасштабировать это так как вам нужно Вы можете он работает по запросу Вы можете масштабировать это по запросу как мы уже\nупоминали у него есть встроенное автоматическое разблокирование вебсайтов что бы это не требовало выбор пиров Bat\nрешение капча установка заголовков запросов выполнение предварительной навигации всё это делается с помощью\nбраузера с под капотом с нашей стороны и вам не нужно об этом беспокоиться Мы также\nупомянули что он совместим с множеством библиотек автоматизации таких какм интеграция с ним это простая схема\nВключи и работой вы просто меняете на conn и всё\nготово удивительно Давайте обсудим автолинг верно я считаю что это Мона\nбрауз для СН бива это сложно масштабирование требует\nмного ресурсов Я не знаю сколько из вас когда-либо пытались не знаю запустить 1000 браузеров для этого нужно много\nсерверов верно на моём ноутбуке не знаю я могу запустить может быть 5-10 браузеров на своём домашнем ПК я\nзапускал может быть 30-40 браузеров Так что Представьте если вам нужно запустить 1.000 браузеров потому что вам нужно\nпросканировать тысячи направлений скажем сотнями дней вперёд верно может быть Вам нужно 5.000 10.000 Так что Расскажи нам\nнемного о инфраструктуре масштабирования да Так что когда вы используете облачный браузер масштабирование можно делать по\nзапросу Вы можете запустить столько экземпляров браузера сколько требует ваш рабочий процесс это по запросу мы\nобрабатываем всю балансировку нагрузки с нашей стороны так что вам не нужно беспокоиться о каком-либо обслуживании с\nвашей стороны вы просто указываете количество сессии которые вам нужны и всё готово Итак в следующем слайде мы на\nсамом деле представим краткий быстрый демонстрационный показ функции масштабирования СН браузер Давайте я\nпросто в Это углуб итак Да в этом примере мы сосредоточимся на booking.com скрипт\nдовольно похож на тот который мы показывали на Sky но мы хотели показать два разных домена потому что хотим\nпродемонстрировать что с браузер работает с любым доменом в принципе мы\nустановим здесь направление выберем дату и будем и резуль также\nчтобы извлечь несколько данных которые Как нам кажется было бы неплохо показать Результаты парсинга будут\nсохранены директории Букин результаты этот скрипт настроен на выполнение п раз\nкак уже упоминалось Мы хотели сделать эту демонстрацию короткой и по существу просто показать возможности Но вы можете\nлегко Добавить сюда ещё один ноль или пару нулей в зависимости от ваших потребностей\nЯ тоже собираюсь показать Это здесь для одного из cdn поскольку терминал всё ещё\nпишет лучше просто скопировать и вставить это в браузер\nChrome Итак это будет один из пя экземпляров которые сейчас запускаются в\nпараллельной сессии Так что он загрузится Да в любое\nвремя\nкстати ребята пока скрипт загружается этот скрипт доступен для вас на нашей площадки для скрапинг браузера Мы только\nчто добавили в этот скрипт функцию параллели зации но он должен работать аналогичным образом и у\nвас Итак вот мы начинаем получать J\nфайлы Ариэль сколько браузеров Ты запустил сейчас Итак это 50 Хорошо как я\nуже упоминал это происходит на наших рабочих ноутбуках мы можем запустить может быть п может быть 10 в зависимости\nконечно от сложности и сайта Ну в общем мы не можем запустить даже 50 на самом\nделе сейчас а вероятно может запустить даже тысячу но его жёсткий диск ЦП и азу\nНе смогут справиться со всеми поступающими данными и управлять этим это становится другой узким местом но\nкак вы уже можете видеть сдела так много вещей это было бы невозможно без браузера для скрапинг чтобы сделать это\nлокально и ребят Это просто работает я действительно рекомендую Это я\nдействительно Рекомендую вам попробовать это если вы заинтересованы в сборе данных о путешествиях этот инструмент\nпросто потрясающий он просто убирает все проблемы с блокировками\nи хорошо точно как упомянул Рафа Мы только что передали несколько данных Как\nвы можете видеть папка медленно но верно заполняется всеми результатами Я думаю мы могли пропустить фактический Запуск\nэтого потому что он уже закрыт но как вы видите данные уже обработаны для\nподавляющего большинства запусков и он всё ещё работает поэтому мы хотим чтобы\nэто было коротко и по делу Итак это функции масштабируемости при использовании\nбраузера для скрапинг и облачного браузера хостинга браузера на облачной инфраструктуре правильно потрясающе\nпотрясающе итак хорошо мы поговорили о масштабируемости Теперь давайте Немного\nпоговорим о решении капчи теперь у нас не так много времени мы действительно хотели бы открыть сессию вопросов и\nответов чтобы Вы могли задать свои вопросы вживую потому что нам важно услышать ваше мнение мы действительно\nхотим услышать ваши вопросы и ответить на некоторые из них но автоматическое решение капчи верно Что это значит\nдавайте знаете у нас есть 5 минут давайте быстро обсудим и как это\nработает Итак с Brother из коробки действительно поддерживает решение каждого типа cch\nбудь то Rec dat дом Преодоление px Cap или Human\nка как ты уже упоминал Рафа лучший способ решить капча - это вообще не сталкиваться с ней\nно тем не менее прекрасно справляется с\nрешением предварительно записанная демонстрация решению капча причина этого\nв том что Да я просто хотел это обсудить на самом деле это было очень сложно потому что как мы говорили раньше верно\nвся цель здесь не получить капча Итак скрейпинг браузер из коробки старается сделать так чтобы мы не получали капча\nТак что было очень сложно Теперь мы потратили много времени пытаясь на самом деле получить капча поэтому Мы записали\nдля вас небольшое видео потому что сделать это вживую И запечатлеть происходящее на самом деле очень сложно\nТак что имею в виду я это Воспроизведи могут увидеть как это работает и просто чтобы немного\nобъяснить объяснить что делает код пока он работает да В общем это просто код который обращается к примеру Google\nrecap Мы открываем ссылку cdn и просто решаем капча это демонстрационная\nстраница на самом деле Тут ничего сложного мы просто хотели показать возможность решать капча Здесь через\nнесколько секунд он решит мы получим сообщение из интерфейса Ура решается\nсекундочку Рафа Через несколько секунд мы получим ещё одно общение от самого решатель капча в котором будет сказано\nчто решение завершено и это знак того что капча была решена Извини Рафа в\nсамом коде если можно немного перемотать назад я просто хотел показать что там ничего нет верно на самом деле мы ничего\nне решаем верно Итак мы ждём капча будет решена верно команда здесь мы отправляем\nкапча ждём решения верно Так что единственное что мы делаем Это буквально отправляем одну команду\nмы кончили Он решает капча Так что вам не нужно на самом деле ничего кодировать\nили создавать какие-то сумасшедшие циклы кода или что-то в этом роде ожидая Так\nчто это очень просто сразу готово к использованию и он действительно решает капча сам так что если вы когда-либо\nперейдёте по URL где уже есть капча вы переходите и первое что вы видите это\nкапча вам даже не нужно вводить ВС это он автоматически проверит если обнаружит\nи автоматически решит е например CL нажмите здесь что я человек он нажмёт на это он это пройдёт хорошо Отлично\nОтлично Так что я думаю да давайте откроем знаете сессию вопросов и ответов я\nдействительно хочу услышать ваше мнение Я действительно хочу услышать ваши вопросы и я вижу что уже есть вопрос как\nшае Cap и насколько на это работает\nоб надёжно работает Ну слушай я не знаю какая статистика У нас есть статистика\nне могу сказать что это 100% верно в жизни ничего не бывает на 100% но это очень высоко и в общем исходя из моего\nопыта и Я использовал это много у меня никогда не было проблем когда это не решалось но Позвольте мне сказать что\nесли вы столкнётся или возникнет какая-то проблема есть\nотличная кнопка Откройте тикет У нас есть поддержка 47 команда управляет\nпродуктом решает капча инфраструктура надёжна ежедневная рутина заключается в\nтом чтобы убедиться что он правильно решает капча Так что вы открываете тикет наша команда смотрит на это они\nразбираются с проблемой Они понимают В чём может быть причина и в большинстве случаев это решается действительно\nбыстро так что очень надёжно очень надёжно и есть ли ещё вопросы Кстати\nчтобы быстро коснуться вашего последнего пункта как мы уже упоминали это очень надёжно Когда нам нужно решать капча Но\nэто ещ более надёжно в том чтобы избегать капча вся инфраструктура настроена Так что вам не нужно решать\nкапча в конце концов если вам нужно это сделать то отлично так что вся\nинфраструктура настроена Так что вам не нужно решать капча в конце концов если вам нужно это сделать то отлично он это\nсделает без проблем но в целом Мы уже упоминали об этом на первых слайдах вся\nцель заключается в том чтобы избежать капча хорошо есть ещё один вопрос по поводу ча считаются ли данные всё ещё\nобщедоступными если сайт использует антибот механизмы такие как капча Разве\nмы не нарушаем никаких правил которые могут быть проблематичным с юридической точки\nзрения Ну ребята слушайте капча на самом деле ничего особенного верно Когда вы\nпринимаете условия и положения верно Когда вы создаёте аккаунт когда вы нажимаете я согласен с чем-то это имеет\nюридическую силу когда обходите Когда вы решаете это на самом деле не имеет\nникакой юридической ценности таким образом позиция заключается в том что\nрешать Cap - это нормально вход в систему нажатие на принимаю условия и положения и особенно если в условиях и\nположениях написано не скрепить не использовать роботов это ненормально Давайте ша Не стесняйтесь\nКакие механизмы обработки обо тре в случае сбоев при СН скажу вам в общем скрейпинг браузер\nиз коробки действительно не имеет механизма обработки ошибок Потому что если произошла ошибка просто повторите\nпопытку это лучший способ дойти к этому повторите попытку Закройте сессию\nзапустите новую сессию это не занимает много времени но если мы говорим о запуске тысяч браузеры параллельно друг\nдругу если один из них выдаёт ошибку просто повторите попытку Я думаю что это\nзнаете обычно работает из коробки в моём случае знаете может быть из тысяч одд\nошибки просто повторяете попытку и всё это очень просто есть ещ вопросы Я не\nвижу больше вопросов Я думаю Знаете я понимаю что этот продукт настолько хорош\nчто здесь не так много вопросов как кто-то кто использует его очень часто\nМне кажется что это знаете как когда вы создаёте скреперы иногда обходить этих\nботов и заставлять сайты работать было очень увлекательно мне это ло было\nЗнаете как решать математическую задачу Так что скрейпинг браузер делает это немного скучным Но если ваш основной\nбизнес обрабатывать данные а не собирать их это идеально для вас Соберите данные\nобработайте их\nмасштабируемый степень успеха при скрейпинг одного и того же размера скажем airbnb в разных\nстранах ты что-нибудь знаеш об airbnb в разных странах не конкретно\nно мы можем рассмотреть SK в этом примере Итак известно что Sky Что\nозначает Корея известен тем что он Немного более проблематично чем\nskysc так что хотя могут быть расхождения\nкоторые опять же могут быть связаны с репутацией среди пользователей в конкретных странах и так\nдалее остатся м\nв худшем за день или два Так что хотя могут быть некоторые различия время от\nвремени между разными геолокация домена в конце концов это решается в конце\nконцов это сводится к одному и тому же успешному запросу и просто чтобы добавить мы с этим сталкиваемся каждый\nдень так что из коробки Он уже работает на большинстве доменов но Да конечно есть расхождение в\nуровнях успеха странами разные страны используют разные типы ботов потому что\nподумайте об этом так верно skys scaner в США и skys scaner в Корее скорее всего\nдаже не одна и та же компания в том смысле что одна зарегистрирована в США другая в Корее у них разные Разработчики\nу них всё разное Единственное что они пытаются сохранить один и тот же интерфейс верно Так что похоже это одно\nи то же но в общем это совершенно другое верно Так что конечно в разных странах\nразные уровни успеха и Да Есть ещё вопросы с чем-то вы ребята\nсталкиваетесь Может быть я хотел бы услышать о проблемах Верно все пришли на\nэтот вебинар потому что у них есть проблемы с определёнными сайтами Может быть вы хотите узнать как браузер для\nскрапинг работает с конкретным сайтом может быть у вас есть проблема которую мы можем решить сейчас я имею в виду у\nнас есть ещё несколько минут Воспользуйтесь этим м мы здесь чтобы помочь Вам любым способом но слушайте\nДаже если мы не поможем вам сейчас не стесняйтесь открывать аккаунт у вас будет менеджер по аккаунту кто-то кто\nбудет вести вас через этот процесс м и вы всегда можете связаться с нами со\nмной или с реалом или с кем-то другим у нас здесь много технических специалистов которые могут помочь вам решить эти\nвопросы но в общем как только у вас есть браузеры для спин как только вы их запустите вы поймёте что на самом делени\nО ЧМ просто работают знаете Это одно из тех вещей которые вы подключаете и используете и собираете данные м\nфильтрация рекламы нет потому что в общем браузер для скрапинг\nдля спин ничего не блокирует он предоставит Вам именно такие вещи как они есть как вы бы видели их в своём\nдомашнем браузере ра просто чтобы затронуть этот момент если этот вопрос возник из-за того что вы хотите\nсэкономить много трафика то конечно это можно сделать Вы можете заблокировать\nконкретный URL конкретный URL cdn конкретные медиафайлы Так что это\nопределённо можно сделать но упомянул это делается также как если бы вы делали\nэто на своём локальном компьютере верно то есть вы в основном перехватывает скажем Если вы работаете в патир вы его\nперехватывает же самый принцип вы используете потир селениум или play так что всё так же как вы блокирует запросы\nтам вы блокирует запросы здесь это точно тоже самое Да хорошо Есть много разных\nкапч Может ли брай Data обойти всё из них Мне не нравится говорить всё верно\nвопрос в том что всегда будет что-то чего мы ещ не видели все новы с которыми мы е не сталкивались\nбольшинство из них Да все их Я не хочу называть я бы сказал может быть 95 может\nбыть 98 Потому что всегда есть что-то чего мы ещё не видели но как мы уже\nупоминали у нас есть команда готовая это решить и мы решаем это быстро Давайте\nпродолжим Давайте посмотрим сталкивались ли вы с фантомным токенами\nприн кони\nнет сталкивался не сталкивался Может быть вопрос в том я не совсем уверен что\nтакое фантомный токен мы говорим о токенах аутентификации сессии мы говорим о\nНу если это так и главная цель в конце концов Получить запрос то вы можете\nпросто использовать С браузер потому что это в конце концов настоящий браузер\nИтак Да которые генерируются во время сессии являются подлинными и вы можете просто\nиспользовать их чтобы перехватывать любой сетевой запрос и получать данные в формате J если это был вопрос то\nопределённо В общем ребята мы не занимаемся реверс инжинирингом API что мы пытаемся сделать так это перейти на\nглавную страницу верно вы переходите по URL всё что происходит на серверной стороне точно так же как если бы вы\nсделали это вручную в свом браузере Если вы чувствуете что хотите перехватить запрос или потье данные с серверной\nстороны это не проблема Это точно так же как в вашем браузере хорошо Может ли решение С\nscraping браузер эффективно обойти cch на idealista.com Согласно моему опыту Да у меня есть\nклиент идеалиста ко работает Просто отлично Не стесняйтесь настройте это\nИспользуйте тебе это понравится Гарри Спасибо хорошо не вижу больше вопросов у\nнас осталось всего пару минут Может просто немного обсудим то что мы прошли СН браузер - это потрясающий\nинструмент для сбора данных о путешествиях для тех кто работает с данными о путешествиях знают как это\nможет быть сложно потому что Ну опять же думаю что это самая большая индустрия которая тратит больше всего денег на\nантибот системы Я помню несколько лет назад всё было так сложно это было\nбезумие Ты заставляешь скрепер работать Ты запускаешь один экземпляр всё работает идеально Ты запускаешь пять\nэкземпляров всё работает идеально Ты запускаешь 100 экземпляров ничего не работает появилось распознавание\nпаттернов а дом для тех кто знает понимает Ребята это решение работает со\nвсеми антибот системами и это работает потрясающе Я действительно рекомендую\nвсем зарегистрироваться Создайте аккаунт для тех у кого нет попросите пробный период Мы всегда предоставляем пробные\nверсии мы всегда готовы чтобы вы мы очень уверены в нашем продук\nМы готовы дать вам его протестировать Так что не стесняйтесь обращайтесь Ариэль есть Что добавить Нет\nя думаю ты всё идеально охватил Ну что ж Ребята большое спасибо что пришли к нам\nи я надеюсь что вы узнали что-то новое Я надеюсь что вы Если у вас есть проблемы\nи вы заинтересованы в Попробуйте и Спасибо всем что пришли увидимся в\nследующий раз\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
            "reply_count": 0
        },
        {
            "url": "https://www.youtube.com/watch?v=9NJpsIau2rU",
            "title": "旅行数据提取大师 | 克服CAPTCHAs、反机器人系统和可扩展性,Bright Data解决方案",
            "views": "조회수 20회",
            "publication_date": "2024. 12. 22.",
            "description": "与Bright Data专家Rafael Levy和Ariel Ventura一起,探索可扩展的Web数据提取和旅行数据收集的秘诀。在本次网络研讨会中,您将学习如何绕过反机器人系统,管理动态定价算法,并使用Bright Data的Scraping Browser轻松提取数据。\n\n本次网络研讨会使用AI工具翻译。\n\n主要主题:\n\n旅行数据提取的挑战: Skyscanner、Booking.com等。\n\n克服CAPTCHAs和机器人检测机制: 工具和技术。\n\n数据收集的扩展: 管理大规模数据管道。\n\n基于云的自动化解决方案: 使用Bright Data的Scraping Browser。\n\n实时演示: 从复杂网站提取数据的实际示例。\n\n适合人群:\n\n开发人员和工程师: 寻找高级提取技术。\n\n数据科学家和分析师: 需要可靠的数据管道。\n\n旅游行业专业人士: 专注于竞争性定价和分析。\n\n电子商务和市场研究团队: 专注于价格监控和产品数据。\n\n学习内容:\n\n使用Puppeteer、Playwright和Selenium构建自动化提取管道。\n\n使用基于云的浏览器扩展到数千个提取实例。\n\n使用AI驱动解决方案轻松解决CAPTCHAs。\n\n为动态网站优化Web抓取基础设施。\n\n管理复杂的HTTP头信息、cookies和用户代理欺骗。\n\nBright Data的Scraping Browser消除阻碍,降低成本,并优化数据提取流程——非常适合致力于价格智能、竞争监控和实时分析的企业。\n\n👉 免费试用Bright Data的Scraping Browser: https://brightdata.com/products/scrap...\n\n时间戳:\n0:00 – 介绍: 认识Rafael Levy和Ariel Ventura。\n0:18 – 旅行数据提取的挑战。\n1:32 – 动态定价与竞争信息: 为什么持续提取至关重要。\n3:05 – 提取管道: 成功提取的关键组件。\n5:10 – 无中断提取解决方案: 云计算和解锁机制。\n12:35 – Scraping Browser演示: Skyscanner的实时示例。\n17:30 – 可扩展性功能: 轻松运行50多个实例。\n26:15 – CAPTCHA解决演示: 轻松克服挑战。\n33:30 – 问答环节: 关于数据提取的常见问题。\n\n#WebScraping #数据提取 #旅行数据 #自动化工具 #CAPTCHA解决 #可扩展提取 #BrightData #代理 #数据管道 #API抓取 #动态定价 #竞争分析 #云抓取 #反机器人绕过 #数据收集 #市场研究 #旅游技术",
            "likes": 0,
            "transcript": null,
            "reply_count": 0
        },
        {
            "url": "https://www.youtube.com/watch?v=nOrrcPUNgdU",
            "title": "旅行データ抽出のマスター | CAPTCHAs、アンチボットシステム、スケーラビリティの克服とBright Data",
            "views": "조회수 7회",
            "publication_date": "2024. 12. 22.",
            "description": "Bright Dataの専門家Rafael LevyとAriel Venturaと共に、スケーラブルなWebデータ抽出と旅行データ収集の秘密を発見しましょう。このウェビナーでは、アンチボットシステムを回避し、動的な価格設定アルゴリズムを管理し、Bright DataのScraping Browserを使用してデータを簡単に抽出する方法を学びます。\n\nこのウェビナーはAIツールを使用して翻訳されました。\n\n主なトピック:\n\n旅行データ抽出の課題: Skyscanner、Booking.comなど。\n\nCAPTCHAsおよびボット検出メカニズムの克服: ツールとテクニック。\n\nデータ収集のスケーリング: 大量データパイプラインの管理。\n\n自動化されたクラウドベースのソリューション: Bright DataのScraping Browserの使用。\n\nリアルタイムデモ: 複雑なWebサイトからデータを抽出する実践例。\n\n対象者:\n\n開発者およびエンジニア: 高度な抽出技術を求める方。\n\nデータサイエンティストおよびアナリスト: 信頼性の高いデータパイプラインを必要とする方。\n\n旅行業界の専門家: 競争力のある価格設定と分析に焦点を当てる方。\n\nEコマースおよび市場調査チーム: 価格監視や商品データに取り組む方。\n\n学べる内容:\n\nPuppeteer、Playwright、Seleniumを使用した自動抽出パイプラインの構築。\n\nクラウドベースのブラウザを使用して数千の抽出インスタンスをスケーリング。\n\nAI駆動型ソリューションを使用してCAPTCHAsを簡単に解決。\n\n動的Webサイト向けにWebスクレイピングインフラストラクチャを最適化。\n\n複雑なHTTPヘッダー、クッキー、ユーザーエージェントスプーフィングの管理。\n\nBright DataのScraping Browserは、ブロックを排除し、コストを削減し、データ抽出プロセスを最適化します。価格インテリジェンス、競争監視、リアルタイム分析に取り組む企業に最適です。\n\n👉 Bright DataのScraping Browserを無料でお試しください: https://brightdata.com/products/scrap...\n\nタイムスタンプ:\n0:00 – 導入: Rafael LevyとAriel Venturaの紹介。\n0:18 – 旅行データ抽出の課題。\n1:32 – 動的価格設定と競合情報: 継続的な抽出が重要な理由。\n3:05 – 抽出パイプライン: 成功する抽出の主要コンポーネント。\n5:10 – 中断のない抽出のソリューション: クラウドコンピューティングと解除メカニズム。\n12:35 – Scraping Browserデモ: Skyscannerのリアルタイム例。\n17:30 – スケーラビリティ機能: 50以上のインスタンスを簡単に実行。\n26:15 – CAPTCHA解決デモ: 課題を簡単に克服。\n33:30 – 質疑応答: データ抽出に関する一般的な質問。\n\n#WebScraping #データ抽出 #旅行データ #自動化ツール #CAPTCHA解決 #スケーラブル抽出 #BrightData #プロキシ #データパイプライン #APIスクレイピング #動的価格設定 #競合分析 #クラウドスクレイピング #アンチボット回避 #データ収集 #市場調査 #旅行テクノロジー",
            "likes": 0,
            "transcript": "皆さんこんにちは私の生面はラファーレビ です私はブライトダータン死にアリュー\nショナテクトのラファーなレビです今日は テクニカルアカウントマネージャーの\nアリエルベントゥーラと一緒に旅行でた 正確に犬と旅行業界に特化したデタ収集の\nスケルアップについてお話ししますリエル 旅行でターを収集している多の\nクライアントと関わっているので彼の意見 は非常に貴重ですウェビナーを楽しんで いただけることを本当に願っていますそれ\nではアリエル始めましょう次のスライドに 移りましょう皆さん旅行でターを収集する\n際に必要な基本的な理解を得るためにいく つかのことをお話しします明らかに様々な\nでタソスについて話していますよね音なる ホテルやスカイ\nシステムについても触れていますで多収集 を下げる多くの要因があるんです今日は\nこれをより簡単にするためのいくつかの 解決策について話し合えることを願ってい\nますもちろんほるでタソスについて話すと 的価格アルゴリズムについても触れなけれ\nばなりません常に最新の情報を把握し変化 に気づく必要がありますデータを常に\nスクレイピングしユーザーを魔法する必要 がありますそしてもしこのデータを全て\n収集できればあ特にこの業界で価格競争量 を持ちたい場合運営方法が確実に改善され\nます競合他者が何をしているのかを知る ことが非常に重要ですありえるいくつか\n質問したいことがありますあなたはこれら のことに常に関わっているので\nクライアントがブロックされるという場に 続く苦労を見ていると思いますがあなたの 意見はどうですか色々なソースでのあなた\nの経験について少し教えてくださいこの 業界では何が見えますか問題のある領域は\nどこですかそうですねデータを取得する ことが問題ですbdtスカイスンナ カヤックブキンは複雑なブロッキング\nメカニズムを持ちホットを見出して ブロックしますで多ソースからデータを 取得するとブロックやキャプチーチーに\n直面しますこれはデータ収集が難しいさの 1つです通常のスクレイピング パイプラインの見た目ですスクレイプを\n開発する必要がありますえボットを見出し てブロックするために設計されてるのでえ\nここでの本当の問題はデタソスからデータ を取得しようとするとブロックされたりえ\nカプチチの挑戦に直面したりすることです これはえデタを収集するのが最も難しいサ\nの1つですなぜならこれらの企業は自分 たちの公開でターが収集されることを本当\nに望んでいないからです彼らはアンチ ボットシステムに多くのお金を投資してい ますそれでは次に進みましょうこれが通常\nのスクレイピングパイプラインの見た目 ですねスクレイパーを開発する必要があり ますもちろんならかのアンロックサービス\nが必要になります最近ではただ スクレイパーを持ってるだけでは不自分 ですスクレイパーが実際にボットミダ\nシステムを回避していることを確認する 必要がありますそれからデタを収集して解\nする必要がありますそれから何らかの機械 学習を行いそれをあなたのモデルに 組み込む必要があります皆さんがデタで\nやってることに応じてねできることは たくさんあります最近ではAI学習やその 関連のことがたくさんありますよねその\nステップでできることについて話し ましょう次のスライドに移るとアンロック\nの部分が見えますがこれは基本的にとも 難しい部分ですアリエルが言ったように\nここでブロックが発生します皆さんは 400や500のエラーに慣れていると 思いますナビゲートしようとすると\nブロックされてしまう小規模ではうまく いくのにスケールアップすると全てが\nブロックされてしまう一般的にこの ウェビナーで話したいのはこれらの\nブロックをどうやって取り置くかどんな 解決策があるのかベストプラクティスは 何かということです次のスライドに移ると\nオフラインの状態について見ていき ましょう例えば今たくさんの休日が近づい\nているとしましょうチケットを販売してる と仮定してオフラインになった瞬間状況が\n見えなくなり ます誰が価格を変更しているのか何が\n起こっているのかが分からなくなります ほぼ確実に価格競争力を持てなくなります\n突然トップ10やトップイグの位置から2 PG目や3ページ目に落ちてしまい人々は\nあなたのチケットを買わなくなります つまりオフラインでデーターを収集してい\nないで身分お金を使っているということ ですこのグラフではスクレーパがダウンし\nた時の回復時間が非常にコストがかかる ことがわかります回復に時間がかかれば\nかかるほど使うお金もいきますなぜなら 追い上げが全く上がらないからですそれで\nは次のスライドに移りましょうアリエル じゃあアリエルに少し話してもらおうと\n思います彼の専門知識を皆さんに聞いて もらいたいんですじゃあリエルちはどう\nすればいいのじゃあここでの解決策は何 ですかそうですねあ大規模な スクレイピングを途切れなく行うためには\n2つの主要な要素を考える必要があります まず最初は自社のアンブロッキング インフラを開発することですそして2つ目\nはクラウドコンピューティングを使うこと ですクラウドコンピューティングの側面に ついて少し触れておきますねだから\nクラウドホステッドプライベートクラウド\nことですクラウドコンピューティングでは 全てがサービスプロバイダーによって行わ れ管理されていますアンブロッキング\nメカニズムのインフラについて少し触れ ますねラファがこのウェビナーの中で言っ\nたようにこれらのドメインは非常に非常に 難しいです彼らは常に変更を加え\nブロッキングメカニズムを改善しています つまりもし組織が自社のブロッキング\nメカニズムを開発したい場合常に警戒して いるチムを転任する必要がありますなぜ\nならこれらのドメインは常に彼らの側で 変化しているからですだからここでのアン\nブロッキングという言葉は1度切りの修正 というよりもむしろ常に続いている\nプロセスということ ですそうですね基本的にこれについて皆 さんと少し話したいんです私たちはこれら\nのボットミダシステムを作っている数白マ 規模の企業について話してるんですよねだ\nから自通り彼らと戦うようなチムが必要な んですそれはあなたのチムと彼らとの戦い\nみたいなものなんです彼らがあなたを ブロックしてるからあなたがアンブロック してるわけですだからもし5人から10人\nのチムがいなければ彼らが勝つことになり ますなぜなら彼らのチムは少なくとも50\n人から100人いて文字通りあなたに対抗 して動いてるからですそうですねじゃあ次\nに進みましょうそれでアンブロッキング サービスについて少し教えてくださいどう\nやってアンブロックするのか何が必要なの か教えててくださいそうですねアン\nブロッキングをいくつかの役なるサービス に分けると基本的に3つの明確なステップ に分けることができますまず最初は\nリクエストヘッダーを管理することですえ 送信されるヘッダーがホーストが期待して\nいるものと一種していることを確認する 必要がありますこれが最初の4つの小さな\n資格ではされている部分です正しいIPを 選ぶ必要もありますいくつかのドメインは\nリクエストが送信されたIPのジオ ロケーションに対してより敏感です特定の\nオペレーティングシステムに敏感な場合が あるのでピアがそれに合わせる必要があり ます自社での自動再事項やIPロティーを\n実装する必要もありますこれら全ては あなたの側で時間がかかりますそして最後\nに無度も複雑なのはカテチアを解決する ことですキャプチャを解決することはこの\n現プロセスの中でもも複雑でコストが かかると考えられていますキャプチャが\n表示される理由を知っておくことが重要 ですそれはプロセスの最初のステップが\n正しくなかったからです例えばホストが 期待しているリクエストヘッダーとはごと\nなるヘッダーを設定するとチが表示される ことがありますがワドコデンされた\nキャプチャである可能性もあります例えば ドメインにはデフォルトでこのキャプチャ が設定されていてあなたのリクエスト\nヘッダーとは無関係な場合がありますだ からキッチのシンボルはこのプロセスの\nどこにでも現れる可能性があることに注意 することが重要 ですそうですねいい言葉があるんですよね\nだからカッチャを解決する裁量の方法は そもそも最初からそれを受け取らないこと\nなんですよねうんここでのアイデアはもし あなたが全てをやるならつまり私たちが\n話してるのは常にそうではないドメインの ことなんですよねキャプチャーは必須では ないよねもちろんもしキャプチャが必須\nなら他にできることはないよねでも裁量の 方法は全てのヘッダくきユーザーとを\n正しく設定してサバがあなたは本物の人間 のようにえると認識することなんだ\nキャプチャを回避することができれば 私たちができる最善のことだと思うさあ\n続けよう基本的に最初のいくつかに集中 しようここでの考えはこれに何が含まれる\nのかもし自分でやりたいならどうなるかと いうことだよねそうここではえ最初の\nステップを強調していて主にリクエスト ヘッダに関することなんだ次のスライドで はラファが言ったようにカプチャを解決\nする裁量の方法はそもそもそれを避ける ことなんだだから正しいリクエスト ヘッダーを設定することがカプチを回避\nするのに役立つかもしれないよさて次の スライドではスカイスナーのような\nドメインをアンロックするために必要な リクエストヘッダーや靴の膨大な数を見る\nことになり ます全てのクッキと全てのヘッダーには それぞれ独自の民があるんださていくつ\nのヘッダについてはランダムな文字列を 生成するだけで済むかもしれないね一般的\nには特定のフォーマットになるけど文字列 自体はランダムでも丈夫なんだだからこう\nいったタイプのヘッダーやくきもあるけど ドメインが本物の2を期待してるヘッダー\nやくきもるんだ例えばユーザー エージェントのようなヘッダーがあるんだ けどドメインは通常不定のユーザー\nエージェントのを期待しているんだ キャプチャにすクッキーこれら全てのPX\n関連のクッキーはカプチに関連しています そしてドメインはカップティーチャーを\n回避しブロックされないために本物の死を 受け取ることを期待してい ますちょっと入っていいかなみんな前の\nスライドに離れるあこれを見てると めちゃくちゃだよねだからこれを理解する\nには開発者が必要だし助けが必要なんだ もちろんこれを解決して\nのに会うようにするチームを持つことも できるけどなんでこんなことをする必要が あるのだから他にどんな選択肢があるのか\nこれを理解してで実際に何日も何週間も かけるのはどうなの解決策は何そうだね\nラファが言ったようにこの部分を解決する のは非常にリソースを必要とするし たくさんの人手が必要になるだろうねだ\nから提案された解決策はプロバイダーが 完全に管理するクラウド上のブラウザを\n使用することなんだこれによりサバを管理 維持する必要がなくなりオーバーヘッドが\n減りコスト効率も良くなるんだえ メンテナンスを外部に択すればラファが\n以前言ったように5人から10人のチムが ビジネスのコアタスクに集中できて\nサーバーの管理やその他のことを気にする 必要がなくなるん だはい素晴らしいではもう一度プライダー\nが提供している製品を紹介しましょう この製品は私たちがスクレイピング\nブラウザと呼んでいるものですこれは ウェブソケットを通じて動作するリモート ブラウザなんだリモトサバ賞で動するので\nえ基本的にメンテナンスインフラの必要が なくなるんだそれでアリエルに少し話して\nもらいたいんだけどいくつかでもを用意し ていてこの製品がすぐに使えることを見せ\nたいんだもし旅行でターを収集することに 興味があるならこの製品は素晴らしい解決\n策になると思うよ開発者の必要がなくなる しインフラの必要もなくなるから会社に\nとっては通常かなりのコスト発見になるん ださあアリエル私たちが見ているものに\nついて少し教えてくれるどうやって動くの その通り今見てるのはスクレイピング\nブラウザのインフラの基本的な概要だよ つまりスクレイピングブラウザは基本的に クラウドビスのブラウザーでペティアア\nplayrセレニウムなどの自動化 ライブラリーを使って統合されてるんだ ウェブソケットを接して接続します\nターゲットホストに応じてアン ブロッキングを行う次のスライドでデモを 示すい適切なリクエストヘッダーを設定し\nたり以前触れたピア設定を調整したり 正しいジオロケーションを選んだり正しい\nオペレーティングシステムを選んだり定義 したエラーが発生した場合に再事項したり\n要求に応じて以前のナビゲーション行っ たり必要であればカチアを解決したりする\nんだ次のスライドでは基本的にデモを示す 予定ですでこれから私たちの\nスクレイピングブラウザーソリュションを 使った場合と使わなかった場合の違いを\n示すデモを行いますまずスクレイピング ブラウザを使わない場合がどうなるかを\n見せますこれは基本的なスクリプトで スカイスカンなーにアクセスしようとして\nいます成功するための最善のチャンスを 与えようとしています背後ではピアノジオ\nロケシンタゲーティングをアメリカに設定 していますこれはスカイスナーが期待する\n国になるんです私たちは住宅用プロキシも 使用しましたこれはども信頼性が高いと\n広くみなされていますえさてピアノジョ ロケーションを設定して最高のプロキシを\n使うことが必ずしも助けになるわけでは ないということ強調したいんだだから見て\nの通りこれを実行するだけなんだローカル ブラウザインスタンスが起動しました\nスカイスナーが読み込まれて読み込みが 完了したけどすぐににカプチができたよ\nさて前触れたようにスカイスンナには複雑 なブロッキングメカニズムが実装されてい\nますこの場合手にはこのボットは実際に ボットとして分類されてキャプチャが出て\nきたんだみんなに見せたいことがあって ちょっと入らせてねキャプチャは必ずしも 画像を解決したり何かを意思させたりする\nことだけじゃないってことをお理解して 欲しいんだ時にはボタンを押して保持する\nだけで済むカップティーチアもあるんだ けどこれらは簡単に解決できるものじゃ ないんだだからこういうウェブサイトでは\n最前のアプローチはカティアを回避する ことなんだあちょっと中断してごめんね\nどうぞあもちろんもちろん素晴らしい コメントだったねさて私たちの\nスクレイピングブラウザソリューションを 使って実行した場合に何が起こるかをお 見せしたいと思いますスクリプトの簡単な\n概要です前のものよりも少し多くの インタラクションが含まれれているんだで もスクレイピングブラウザだけがこれらの\nインタラクションに対応できるからなんだ ここでやることはで地としてロサンゼルス\nを検索して響きを設定することなんだいく つかの基本的な力を示したいだけなんだ\nそれとウェブアンロッカーがこれによって ブロックされていないという仕事もね じゃあこしてみるよ今ブラウザはクラウド\n上で実行されています実際にcdnを使っ て実行されてる子や私たちが設定した\nインタラクションをリアルタイムで見る ことができるんだ 読み込まれるよ今サバを見てるところだよ\nえブラウザや自動化の様子を見ています何 が起こってるかまるでローカルで実行し てるかのようにサバに接続しているだけ\nですアリエルが言った通り力が行われてい ますねさあ見てみましょう見てみましょう\nアリエル続けてくださいここで強調したい のはこのボトケスがマウスの動きや\nインタラクションの不規則性をみしている という死ですできるだけ多くの\nインタラクション見せたいと思っています そして短く要点を抑えてください結局これ\nはでもですからご覧の通り既に目的地が 選択されています今西部を選択しています\n以前に見たようにスクレイピング ブラウザーを使用しないスクレーパーは ずっと前にブロックされてしまいこれらの\nインタラクションにすら到達できません でしたそれではえ検索を\n行い越ししたら価格が表示されるはずです\nああできた全てが読み込まれました ブロックされていないよだからここからま\nみんなでターを取って解析して次の ステップに進むことができるようん例えば\nスカイスカンなのためにスクレイプを 作ろうとしたことがある人には分かると 思うけどつまりその部分にたどり着いて\nすでに価格やフライトを取得できてるなら それで終わりだよねそこが一番難しい部分\nだね通常その時点ではそこにりく前に ブロックされることが多いからその部分に\nたどりつけたならつまりもう大丈夫っって ことだ よじゃあ実際にみんなに簡単に説明すると\nやは何かってことだよねスクラン ブラウザーを鼓動に統合するのはどれ くらい難しいの文字通りの行だよ今見てる\nのはパティアでそれをどう実装するかって ことだよだからパティアロンチを起動し てるならそうだねそれはロカルで実行して\nるってことだよ通常はChromeのパス を定するんだけどこの場合はパティア\nコネクトに切り替えてトダーのウェブ ソケットに接続するだけですでにリモトで\n実行してることになるよだからすでに開発 されたコードがあるけど成功率が低くて\nブロック率が高くてキャプチャー率が高い 場合は実際にやるべきことはブライト\nデータで増援を作成してコドをパティア ロンチからパティアコネクトに切り替える\nだけでもう大丈夫だよそれと知っておいて 欲しいのは1つ前のスライドになって理解\nしてもらえるようにポペティだけじゃない よプレイライトやセレニウムにも使えるよ それも12勝のことだよそんなに難しく\nないよ行動を全部書き直す必要はないよ 実装して起動して個人的にはチョキ\nスクレイパーを開発してるよそして ブロックされることによる全てのイライラ を取り付いてくれるって読めるよそれだけ\nでうまくいくよ聞いてる皆さんには是非 試してみることをお勧めしますアカウント\nを解説してねデモを提供しています試して みて本当に行く\nよもちろんそうだよねだからキャプチャを 取得しないこと以外にももしキャプチャー\nを取得した場合スクレイピングブラウザー は約2530種類のキャプチャーを解決し\nてくれるよ字の数字をかいたくはないけど 一般的には例えキスのキャプチャーでも\n解決できる よじゃあ他には何があるかなそう重要な\n機能についてだねアリエル重要な機能に ついて少し教えてくれるだからブラウザー\nをスクレイピングするんですクラウド ベースのブラウザーで黒いてるよ好きな ようにスケルできるよできるよ必要に応じ\nて動くんだ必要に応じてスケルできるよ すでに触れたように自動ウブアンロック\n機能が内蔵されていて必要なものは何でも 対応しているよBDRPR選択カプチチャ\nの解決リクエストヘッダーの設定事前の ナビゲーションを行うことができるんだ\n全てがスプブラウザーによって行われてる よたちの側で力で働いてるからあなたが\n心配する必要はないよそれにパペティリア プレイライトセレニウムなどアが多の自動\n化ライブラリーと股間性があることにも 触れたよそれに統合するのは簡単なプラグ アプレイだよパティアローンチから\nパティアコネクトに変更するだけですぐに 使える よすごいねオートスケリングについて触れ\nてみようかいい私はスクレイピング ブラウザにおいて非常に強力なものだと 思うよだってみんな知ってるけど\nスケーリングは複雑ででリソースを大量に 消費するんだどれくらいの人が試したこと\nがあるか分からないけど前のブラウザーを 動かそうとしたら多くのサバーが必要だよ ね僕のノートパソコンではせ41の\nブラウザを動かせるかな家のPCでは 3040のブラウザを動かしたことがある けどもし前のブラウザを動かさなきゃいけ\nないとしたら何千もの目的地をスキャン する必要があるから例えば何100日も先 のものをねもしかしたら5000や10戦\nが必要になるかもしれないからリエル スケーリングインフラについて少し教えて くれるうんクラウドホスティングされた\nブラウザーを使うとスケーラビリティは 必要に応じて行えるんだワフローに必要な だけブラウザのインスタンスを立ち上げる\nことができるよ必要に応じてだよ私たちの 側で全ての符合分散を行ってるからあなた\nの側で何かメンテナンスをする必要はない よ必要なセッションの角指定するだけで\nすぐに使えるよ次のスライドでは実際に 簡単なスクレイピングブラウザーの\nスケーラビリティ機能をを示す簡単なでも だよ ちょっと入ってみます\nねそうですねこの地下ではブキン.COM に点を当てますえこのスクリプトはスカイ\nスナーで見せたものとかなり似ていますが 大なる2つのドメインを示したいと思い ましたつまりスクレイピングブラウザーは\n基本的に全てのドメインで動作することを 示したいのですここで目的地を設定して皮\nを選んで結果を検索しますいくつかのデタ ポイントを解析するための短いパコあり\nますこれを見せると良いと思いまし た解析された結果はキリーディレクトリー\nに保存されますこのスクリプトは50回 実行されるように設定されていますお伝え\nしたようにえこのデモは要点を去って短く こちたかったので機能を示すだけにしまし\nたがここに0をもう1つ追加したりいくつ か追加したりするのは簡単ですあなたの\nユスケスに応じ てここでもお見せしますねあるcdnに\nついてですがターミナルがまだ書き込み中 なのでChromeブラウザーにコピー&\nピースとする方がいい\nですこれが現在表率セッションで実行され ている50のインスタンスうちの1つ\nですもうすぐ読み込まれます\nところでみんなスクリプトが読み込まれ てる間このスクリプトは私たちの\nスクレイピングブラウザー プレイグラウンドで使えるようになってい ますえこのスクリプトには病熱化機能を\n追加したばかりですがあなたの側でも似た ように動作するはず\nですそれでエソンファイルが処理され始め てい\nますアリエルのブラを実行してるのこれが へですはい先ほど言ったように私の作業用\nノトパソコンで動作します私たちは ウェブサイトの複雑さによりますが5代 もしくは10代のブラウザを実行できるか\nもしれませんでも一般的には50代すら 実行できないんです実際のところ今の\nところアリエルはおそらく仙台でも実行 できるかもしれませんが彼の派同ドライブ\nCPURAMは実際に入ってくる全ての dtaを管理することができないんです ですそれが別のボトルネックになりますで\nももう見ての通りたくさんのことが進んで いますこれは不可能だったでしょう スクレイピングブラウザなしではローカル\nでそれを行うことはできませんみんなえー ちゃんとどいてるよ本当におすめです是非\n皆さんに試してみることをお勧めします 旅行でタを収集することに興味があるなら このツルは素晴らしいですえこれで\nブロックされる問題が全て解消されます はいそうですねラファがここで言ったよう\nにいくつかのデータポイントを処理しまし たご覧の通りフォルダーは少しずつですが\n確実に全ての結果で埋まってきています これについては実施合の実行を検討したか\nもしれませんねもう閉じちゃってるのでで もご覧の通りほとんどの実行のデタは\nすでに解析されていてまだ動いていますだ からくて要点を抑えたものにしたいんです\nこれがスクレイピングブラウザーと クラウド ブラウザークラウドインフラ上の\nブラウザーホスティングを使った スケーラビリティの機能ですそう 素晴らしい素晴らしいじゃあ\nスケーラビリティについて話しましたね さてキャプチャーの解決について少し話し\nましょう今あまり時間がないんです皆さん のためにQ1Aを開きたかったんです実際\nにライブの質問に答えたいと思ってるので 皆さんの意見を聞きたいです皆さんの質問 を聞きたいしそのいくつかにお答えしたい\nと思っていますでも自動キャプチャーを 解決するってこだよねそれはどういう意味\nですかじゃああと5分ぐらいあるからさっ と触れておきましょうそれについてさっと 触れておきましょうそれはどうやって機能\nするんです かだからスクレイピング ブラダ初めからあらゆるタイプのカプチ\nチャを解決するのを本当にサポートしてい ますレカプチえデータドメPXカプチチャ\nそして人間カプチチャも含まれますラファ が言ったようにカプトチャーを解決する\n裁量の方法はそもそもそれを受け取らない ことですとはえスクレイピングブラザーは\nキャプチャーを解決するのに完全に対応し ていますわたちはキャプチャーを解決する\nことに関する事前に録画されたでも用意し ましたその理由はうんちょっとそれについ\nて触れたかったんだ実際には本当難しかっ たんだだって前に話した通りだよねここで の全体の目標はキャプチャーを受け取ら\nないことですだからスクレイピング ブラウザーは初めからキャプチャーを 受け取らないようにしようとしているんだ\nだからとても複雑だったんださて私たちは 実際にキャプチャーを取得しようとするの に多くの時間を費やしましただからわし\nたちはあなたのために小さなビデオを録画 しました実際にキャプチャーを取得するの はライブでやるのが本当に難しいからです\nじゃあ再生するねだ人がどう機能するか 見ることができそして説明するとコドが\n実行中に何をしているのかを説明します そうですね基本的にはGoogleの レップティーチャーの力にアクセスする\nことですcdnリンクを開いてキプチャク していますこれはでもペジです特にいしい\nことはないよここでカプチを解決する能力 を見せたかっただけなんです病で解決し\nますUからメッセージを受け取りますやっ たが解決されてるちょっと待ってねラファ\n署名後にカップティーチャーソルバーから 解決完了といるのメッセージが届きます\nこれはカプチが解決されたことを示してい ますごめんねラフはコド自体では少し\n巻き戻してもらえる何もないってことを 見せたかったんだそうだよね私たちは本当 に何も解決してないよねだからわしたちは\nキャプティーチャーが解決されるのを待っ てるだよねここでのコマンドはキャプチャ を送信して解決を待つってことだよねだ\nから私たちが実際にやることは文字通り1 つのコマンドを送るだけなんだ終わりそれ\nがキャプチャを解決するんだだからえ実際 に何かをコーディングしたり変なコード\nルプーを作ったりする必要はないんだ待つ 必要もないからすごくシンプルなんだすぐ に使える状態で実際にカップティーチャー\nを解決してくれるんだだからもし金たちが すでにカップティーチがあるURLに\nアクセスしたら最初に目にするのは ティーチャーだよねでも全部入力する必要\nはないんだカプティーチャーを見出したら 自動的に解決してくれるんだ例えば\nクラウドフラの死は人間ですをクリック するっていうのもあ自動でクリックして くれるんだそれを通過させるよはい\n素晴らしい素晴らしいだからそうだね えQを始めようか君の意見を聞きたいんだ\n君の質問を聞きたいんだもう質問がある みたいだねIキャプチャはどうやって解決 されるのかそしてどれくらいできるのか\nことだねまどうやって解決されるかについ ては触れたと思うよどれくらい信頼できる\nのまあ聞いて分からない同形は何ですか 同形はあるの100%とは言えないよね\n人生において100%のものはないけど すごく高いよ一般的に私の経験から犬と私\nはこれをたくさん使ってきたけど解決され なかった問題は1度もなかったよでももし\n解決されないプテアに遭遇したり何か問題 があったりしたらし\nボタがあるんだあチケットを開くっていう ね者たちは24時当社には文字通りこの\n製品と全体を管理しているチムがあります 日常のルーチンはキャプチャが正しく解決\nされているかを確認することなんだだから チケットを開くと私たちのチムがそれを\n調べて問題に対処してくれる彼らは何が 原因かを見つめるんだそしてほとんどの\n場合すぐに解決されるよだからすごく信頼 できるだそれで他に質問はあるかなちなみ\nに君の最新のポイントにちょっと触れて おくと私たちが言ったようにカプトチを\n解決する必要がある時は非常に信頼できる けどカプチを回避することに関しては\nさらに信頼性が高いんだだから全体の インフラはそのように設定されていて曲の\nところカッティチアを解決する必要がない んだもしそれをする必要があるなら 素晴らしいねそれは問題なくやってくれる\nよでも全体として最初のスライドで話した ようにに目的はカプティーチを避けること\nなんだはいカプチに関する別の質問がある ねウェブサイトがカチアのようなアンチ\nボット機能を使ってる場合そのデータは まだ公開されてるとみなされるの法律的な\n観点から問題になるようなルールをすって ないですよねまみんな聞いてください\nキャプトチャって実際には何でもないん ですよね利用気学に同一する時そうですよ ねアカウントを作成する時何かに同意しま\nすってクリックするとそれには法律的な 意味がありますキャプチャを回避したり\n解決したりしてもそれには実際には法律的 な価値はないんですだからブライトデータ\nの立場はキャプチャを解決することは問題 ないということですログインして利用規約\nに同一するボタンをクリックすること特に 利用規約にスクレイピングしないで くださいロボットを使わないでくださいと\n書いてある場合それはダメなんですさあ茶 を解決してください原なく\nどうぞスクレイピングの失敗があった場合 どんなエラハンドリングの仕組みが用意さ れていますかまみんなによりますけど一般\n的に言ってスクレイピングブラウザは初期 設定のままだと実際にはエラハンドリング の仕組みがないんですエラがったらただ再\n時行すればいいんですこれが裁量の方法 です再自行してセッションを閉じて別の\nセッションを立ち上げてください時間は それほどかかりませんが何千も実行すると\nなるとブラウザは互いに並行してうがいて いてもしそのうちの1つにエラが出たらに\n再をすればいいんですそれが通常は初期 設定のままでうまくいくと思います私の\nケースでは例えば前のうち1つか2つエラ が出ることがあるけど再自行すればいい\nだけですそれは本当にシンプルですさて他 に質問はありますかあまり質問が兼当たら\nないですねえこの製品がとても良いから あまり質問がないのかなと思います私は\n頻繁に使っているので意見としては スクレイパーを作成する際にこれらの\nボットを回避して実際にウェブサイトを 動かすのはとてもワクワクしました数学の\n問題を届くような感じで楽しんでいました スクレイピングブラウザは少し退屈に\n感じるかもしれませんがでももしあなたの コアビジネスがデーターを収集するのでは\nなく処理することならあなたにとっては 完璧ですデータを集めて処理してスケルさ\nせるさてもう1つ質問があります同じ サイト例えばAirbnbを異なる国で\nスクレイピングした場合成功率は異なり ますかありえる異なる国のAirbnbに\nついて何か知ってるまAirbnbについ て具体的には言えないけどこの地下として\nスカイスナーを見てみることができます つまりSKYスナKRはつまり韓国を指す\nSKYSCARKRはskyner. comよりも少し問題があることで知られ\nていますだ からつごのピアノ評判に関するかもしれ\nない不意思があるかもしれませんが全体的 な結果は同じままです生ぜ数時間以内に\n解決されて最悪で も日で解決されますだからいくつかの\nドメインの役となる地理的道によって解き 違いがある けれど結局は解決されるんです結局同じ\n成功したリクエストに収されるんですそれ に加えて私たちはこれを日常的にわかって\nいますだから初期設定のままでほとんどの ドメインで動くってことですねはい\nもちろん異なる国の成功率には不意思が ありまする国では異なるタイプのボットが\n実装されていますこう考えてみてください スカイスキアナのアメリカ版と韓国班は\n同じ会社ではない可能性が高いですつまり アメリカに登録されているものと韓国に\n登録されているものでは開発者も違えば 全てが異なります唯一同じにしようとして\nいるはUIだけです見た目は同じですが 全体的にはまったく違うものですだから\nもちろん国によって成功率は異なります はい他に質問はありますか皆さんが抱え\nてることは何かありますか聞きたいの は問題についてかなみんなこのウェビナー\nに参加したのは特定のウェブサイトで何か 問題を抱えてるからですもしかしたら特定\nのウェブサイトに対してスクレイピング ブラウザがどう機能するか知りたいのかも ませねもしかしたら今解決できる問題が\nあるかもしれませんねあと数分ありますね それを活用してくださいえ私たちはあなた\nをあらゆる方法でサポートするためにここ にいますが今サポートしなくても気軽に\nアカウントを解説してくださいアカウント マネジャーがついてプロセスを一緒に進め\nてくれます私たちにいつでも連絡できます し私やりやる他の誰かでも大丈夫ですここ\nには多くの技術者がいてあなたの質問に 答える手助けがます一般的に\nスクレイピングブラウザを持っていてそれ を動かしているとあまり話すことはないと 分かるでしょう単にプラグを差し込んで\nプレイするだけでデタを集めることができ ます広告フィルタリング機能についてです\nが基本的にスクレイピングブラウザは広告 をフィルタリングしませんなぜなら現実を\n見たいからです広告検証をしている場合あ 市場調査をしていて特定のウェブサイトで\n検索した時にどんな広告が表示されるかを 見たい場合もちろんスクレイピング\nブラウザーは何もブロックしませんあなた が自宅のブラウザーで見るのと同じように\n正確にそのままの情報を提供しますラファ ちょっとこの線に触れたいんだけどもし\nこの質問が大工婦を解約したいからなら もちろんこれは出現可能なことだよ特定の\nURLや特定のcdnのURL特定の メディアファイルをブロックすることが できますだからこれは確実に実現可能です\nでもラファが言ったようにそれは自分の ローカルでやるのと同じ方法で行います\n基本的にはリクエストをインターセプトし て例えばポピアを使ってる場合はそれを\n無効にするんですだから同じコンセプト ですパティアセレニウムプレイライトを\n使ってる時リクエストをブロックするのと 同じようにここでもリクエストをブロック\nしています全く同じことですはいいろんな キャプチャーがあるけどブライトではそれ\nらを全てスキップできるの古いことを言う のは嫌だけど常に私たちが見たことのない\n何かがあるんです新しいものが常に出てき て私たちがまだ出会っていないものもあり\nますほとんどは大丈夫ですが全てとは言い たくないですね15%98%ぐらいかな常\nに私たちが見たことのない何かがあるから でも前にも言ったように私たちにはそれを\n解決するための地がいて速にしますさあ 続けましょう皆さんはAPIのリバース\nエンジニアリングをする際にファントムと 君に対処したことがありますかあアリエル\nAPIをリバースエンジニアリングする際 にファントムと君に関わったことはあり ます かおいえいいえませんありませんもしかし\nたら質問はファントムと君がなのかよく わからないんですセッション人証と君の\nことを話してるのですか私たちが話してる のはそうですですねえもしそうなら最終的\nな目標がAPIリクエストを取得すること ならスクレイピングブラウザーを使えば いいですよえ結局これは本物のブラウザー\nですからだからショ中に生成されるくき アトなどは本物ですそれを使ってどんな\nネットワークリクエストでも インターセプトしてデタをJSON警視で 取得できますもしそれが質問だったなら\n確かにそうです一般的に言うとみんな 私たちはAPIをリバース エンジニアリングすることはあまりないん\nです私たちがやろうとしているのはまず フロントページに行くことだよねURLに アクセスするんだバックエンドで起こっ\nてることはブラウザで受動でやった場合と 全く同じなんだもしそこでリクエストを インターセプトしたいとかバックエンド\nからデターを取得したいと思ったらそれは 全く問題ないよブラウザーと全く同じ方法\nだよ分かったスクレイピングブラウザの ソリューションはidealist.\nCOMのキャプテッチを効果的に回避 できるの私の経験から言うとはい私は\nクライアントがいるんだ idealista.com完璧に動作 するよ気軽に設定して使ってみてください\nきっと気に入る よ下痢ありがとううんここにはもう質問が\n金当たらないねあと数分しか残ってないね じゃあ私たちが話したことをちょっと\n振り返ってみようかスクレイピング ブラウザは旅行でターをスクレイピング するための素晴らしいツルだよ旅行でター\nを使ってる人たちはどれだけ複雑か分かる よねだってまびいぬけどこれは一番お金を\n使ってる業界だと思うんだアンチボット システムにね数年前のことを思い出すと\nすごく複雑だったよ本当にクレイジーだっ たよスクレーパーを動かすんだ1つの インスタンスを動かすんだ完璧にういてる\nよ5つのインスタンスを動かすんだ完璧に えてるよ100のインスタンスを動かすん だ何も疑いてないパタン認が出てきたよ赤\nため知ってる人には分かるよねみんなこの ソリューションは全てアンチボット\nシステムで機能するよそしててすごく うまくいくんだみんなにサイナップする ことお勧めするよアカウントを作成してね\n持っていない人はトライアルをお願いして みて私たちはいつもトライアルを提供して\nいるし皆さんに試してもらうことにとても 自信を持っているんだだから気軽に連絡し\nてねアリエル何か追加することあるうん 完璧にカバーしてくれたと思うよじゃあ\nみんな来てくれて本当にありがとう新しい ことを学べたことを願ってるよもし問が\nあって興味があれば是非試してみてね みんな来てくれてありがとうまた次回迷う\nね\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
            "reply_count": 0
        }
    ]
}

Prerequisite

  • python >= 3.10

Installation

  1. Clone this repository:

    git clone https://github.com/kimyk0120/Youtube_Scraper
  2. Move to the project directory

  3. Install the required Python packages:

    pip install -r requirements.txt

How to Use:

To use this script, follow these steps:

1. Set up Configuration

  • You need to configure the necessary settings in the {project}/config/config.ini file.
  • Set "timout_sec" appropriately to prevent infinite loading.
  • Set the maximum number of video to scrape with the "video_limit_cnt" setting.
  • If you need proxy settings, put them in "proxy_server"

2. Run the script with Python:

  python main.py "YouTube Channel URL" 

If you need to change the output path, do as follows.

  python main.py "YouTube Channel URL"  --output "ouput path"

Update

  • 2025.01.02

Contact

For any feedback or queries, please reach out to me at kimyk0120@gmail.com.

Buy Me A Coffee