Перейти к публикации

Рекомендованные сообщения

Нужен парсер на DLE 17, php 8.2 по типу RSS Grabber.
Чтобы можно было настроить парсинг кода с любого сайта (если в коде есть данные), настраивать шаблоны для парсинга, чтобы можно было брать конкретные данные и вставлять в краткую и в полную новость, при этом вписывая в определённый текстовый шаблон.

Если есть готовое решение - готов рассмотреть покупку.
Если нет - готов рассмотреть варианты написания плагина.

Также есть Content Downloader, возможно кто-то возьмётся за интеграцию его с DLE, чтобы можно было заливать напрямую в него.

Ссылка на сообщение
Поделиться на других сайтах

Есть: ZennoPoster, BAS, A-Parser, Datacol. 

Есть: Python + Selenium + ChatGPT. 

Лучше пользоваться уже готовыми решениями чем изобретать велосипед. Ваш php и ТЗ вряд ли содержит все возможные развитие ситуации, на подобие "бан ip, защита от ботов, защита от парсеров, защита Cloudflare" и т.д.

Ссылка на сообщение
Поделиться на других сайтах
  17.11.2023 в 04:02, Хоббит сказал:

Ваш php

Расширить  

А вы топите за Python находясь на сайте DLE?)

Не усложняйте, не прочитав ТЗ, вдруг там нет ни бана по ip, защиты от ботов, от парсеров и Cloudflare.

 

Ссылка на сообщение
Поделиться на других сайтах
  18.11.2023 в 13:54, webair сказал:

А вы топите за Python находясь на сайте DLE?)

Расширить  

Не понял при чем тут DLE? 🤔

Для подобных задач как у ТС следует использовать самые простые, и самые эффективные способы реализации, не мне новичку писать подобное. 

Я не программист, но я понимаю что ChatGPT генерирует код на Python лучше чем на других языках.

  18.11.2023 в 13:54, webair сказал:

Не усложняйте, не прочитав ТЗ, вдруг там нет ни бана по ip, защиты от ботов, от парсеров и Cloudflare.

Расширить  

Всё, что должно произойти, обязательно произойдёт, как бы вы ни старались этого избежать. (c)

Ссылка на сообщение
Поделиться на других сайтах
  20.11.2023 в 04:36, Хоббит сказал:

Я не программист

Расширить  

Это самое потрясающее мнение 🤣 Я не программист, но я лучше знаю 🤣

Ссылка на сообщение
Поделиться на других сайтах
  20.11.2023 в 05:29, alex32 сказал:

Это самое потрясающее мнение 🤣 Я не программист, но я лучше знаю 🤣

Расширить  

А что в этом смешного?) У вас есть опыт обслуживания 2000 разных парсеров? 

Ссылка на сообщение
Поделиться на других сайтах
  20.11.2023 в 07:05, Хоббит сказал:

А что в этом смешного?) У вас есть опыт обслуживания 2000 разных парсеров? 

Расширить  

Только какое отношение это имеет к языкам программирования? Парсинг это по своей сути поиск по регулярному выражению. Чем регулярка на Python лучше чем на PHP? Да и вообще чем она будет отличаться? Регулярное выражение оно и в африке останется регулярным выражением, и совершенно не важно в каком языке программирования она будет использоваться.

Ссылка на сообщение
Поделиться на других сайтах
  20.11.2023 в 07:05, Хоббит сказал:

А что в этом смешного?) У вас есть опыт обслуживания 2000 разных парсеров? 

Расширить  

У меня есть, я их сам делаю. А вот вы даже примерно понятия не имеете, что и как происходит. Но при этом вы "знаете". Лол 🤣

  20.11.2023 в 09:49, celsoft сказал:

Только какое отношение это имеет к языкам программирования? Парсинг это по своей сути поиск по регулярному выражению. Чем регулярка на Python лучше чем на PHP? Да и вообще чем она будет отличаться? Регулярное выражение оно и в африке останется регулярным выражением, и совершенно не важно в каком языке программирования она будет использоваться.

Расширить  

Он не программист, он не знает, что такое "регулярное выражение". Но зато он знает, что такое ChatGPT 

Ссылка на сообщение
Поделиться на других сайтах

 

  20.11.2023 в 09:49, celsoft сказал:

Только какое отношение это имеет к языкам программирования? 

Расширить  

Это вы спросите у webair, при чем тут я? Я делаю парсеры на python потому что мне так удобно, и опыт не привязан к конкретному языку.

  20.11.2023 в 09:49, celsoft сказал:

Чем регулярка на Python лучше чем на PHP?

Расширить  

Вы это спрашиваете у человека который не разбирается в тонкостях языков программирования? 

  20.11.2023 в 09:49, celsoft сказал:

Да и вообще чем она будет отличаться?

Расширить  

Так речь идет не об этом, а том в каком языке лучше всего реализовать ту или иную задачу.

Вы верно подметили, php и python оба могут реализовать нужные нам результаты, но, вы же не будете обращаться к хирургу когда болит зубы? 

  20.11.2023 в 09:49, celsoft сказал:

Регулярное выражение оно и в африке останется регулярным выражением, и совершенно не важно в каком языке программирования она будет использоваться.

Расширить  

Опять же, мне не нужно ехать в Африку чтобы понять жарко там или нет, достаточно найти готовые кейсы под Python и PHP, после чего адаптировать код под мой нужды, и делать выводы. В моем случае нейросеть генерирует код на Python лучше чем на PHP, при чем на порядок: от "качество" до количество "ошибок". И факт: Python дружелюбнее новичкам относительно PHP.

 

  20.11.2023 в 13:09, alex32 сказал:

У меня есть, я их сам делаю. А вот вы даже примерно понятия не имеете, что и как происходит. Но при этом вы "знаете". Лол 🤣

Расширить  

Хорошо.

Изменено пользователем Хоббит
Ссылка на сообщение
Поделиться на других сайтах
  21.11.2023 в 07:17, Хоббит сказал:

Так речь идет не об этом, а том в каком языке лучше всего реализовать ту или иную задачу.

Расширить  

Это я понимаю, то python для этой конкретной задачи чем лучше? Если говорить о простоте реализации и использования python ге даст преимуществ в этой задаче никак.

  21.11.2023 в 07:17, Хоббит сказал:

Вы верно подметили, php и python оба могут реализовать нужные нам результаты, но, вы же не будете обращаться к хирургу когда болит зубы? 

Расширить  

Верно, и если человек использут DLE и хочет спарсенные новости прикручивать к сайту на DLE, то "притаскивать за уши" для этого python ... ну это как минимум странно.

  21.11.2023 в 07:17, Хоббит сказал:

В моем случае нейросеть генерирует код на Python лучше чем на PHP, при чем на порядок: от "качество" до количество "ошибок". И факт: Python дружелюбнее новичкам относительно PHP.

Расширить  

Не будучи программистом, вы не можете оценивать качество. Это странно что вы сами говорите что не знаете тонкостей, и при этом оцениваете качество. Более того если нейросеть хуже обучена одному языку относительно другого, это не значит что другой язык нужно тянуть и смешивать с другими. Это тоже очень странная логика делать это. Код должны писать программисты, и могут для этого использовать нейросети для облегчения той или иной рутины, но когда не программист дает рекомендации на основе того что ему написала нейросеть, по его не "программистким " запрососам к ней. Это странно. Как можно оценивать знание нейросетью языка программирования, если вы не знаете тонкостей языка и не знаете как правильно ей нужно задать вопрос в данном случае? Или вы неправильно задав вопрос, получив неправильный ответ делаете уже вывод, что значит другой язык лучше? Это странная и непонятная мне логика.

  21.11.2023 в 07:17, Хоббит сказал:

И факт: Python дружелюбнее новичкам относительно PHP.

Расширить  

Вообще не факт. У них одинаковый уровень вхождения. Не вижу никакой разницы вообще и тот и тот достаточно прост. Да и вообще любой язык прост, если понять его базовую структуру.

Ссылка на сообщение
Поделиться на других сайтах
  21.11.2023 в 07:29, celsoft сказал:

Это я понимаю, то python для этой конкретной задачи чем лучше? Если говорить о простоте реализации и использования python ге даст преимуществ в этой задаче никак.

Расширить  

Это если знать язык, и самому программировать код. 

  21.11.2023 в 07:29, celsoft сказал:

Верно, и если человек использут DLE и хочет спарсенные новости прикручивать к сайту на DLE, то "притаскивать за уши" для этого python ... ну это как минимум странно.

Расширить  

Не странно: 

1. Я не предусматривал использование боевого сервера для парсинга, не говоря уже о установке python на сервер сайта.

2. Ну сделаете вы php парсер на боевом сервере сайта, а что если сервер сайта не сравнится с мощностью домашнего ПК? БД, Панель, прочие ПО начнут тормозить или даже даст сбои если запустить парсер, допустим 10-30 потоков Selenium? Не каждый арендует dedicated с современным камнем и 32 ГБ ОЗУ.

И условия типа: "чтобы спарсить сайт нет необходимости использовать Selenium" не принимаются, потому что для таких задач хватает ContentDownloader, Datacol.

3. Опять же, учитывайте что владелец сайт не разбирается в программировании, в случае чего ему придется обратиться к автору парсера, или же найти фрилансера. И не факт что автор парсера/фрилансер возьмётся за работу, например нужно спарсить сайт использующий Data Poisoning, в этом случае проблематично развернуть программы Windows для распознавания данных.

Этих же проблем не будет если использовать Python на домашнем ПК. 

4. Еще раз отмечу: владелец сайт не разбирается в программировании. Если он захочет сам доделать/исправить код парсера используя нейросеть то выскочит другая проблема: нейросеть не заточена под PHP, результаты на Python получается намного легче, быстрее, без лишних убитых нервов. 

  21.11.2023 в 07:29, celsoft сказал:

Не будучи программистом, вы не можете оценивать качество.

Расширить  

Но это не отменяет того факта что нейросеть выдает лучшие результаты на Python с меньшими ошибками.

Неужели мне придется изучить программирование, только чтобы понять какой из кодов сгенерированных нейросетями выдает меньше ошибок, и более приближен к нужному мне результату? 

  21.11.2023 в 07:29, celsoft сказал:

Более того если нейросеть хуже обучена одному языку относительно другого, это не значит что другой язык нужно тянуть и смешивать с другими. Это тоже очень странная логика делать это.

Расширить  

Одно другому не мешает, DLE не монолитная система, захочу: могу использовать Pyhon + Seleium + ChapGPT + MySQL импорт.

Та же комбинация но уже с PHP будет более проблемно в процесса доработки/апгрейда, только потому что нейросеть не заточена подл PHP. 

  21.11.2023 в 07:29, celsoft сказал:

Как можно оценивать знание нейросетью языка программирования, если вы не знаете тонкостей языка и не знаете как правильно ей нужно задать вопрос в данном случае?

Расширить  

Я уже ответил на этот вопрос, и да, речь идёт не об оценке кода, а о понимании лучшего результата ИИ с минимальными ошибками. 

  21.11.2023 в 07:29, celsoft сказал:

Или вы неправильно задав вопрос, получив неправильный ответ делаете уже вывод, что значит другой язык лучше?

Расширить  

Промт одинаковый, ChapGPT4. Престаньте сравнивать языки, учитывайте контекст задачи.

  21.11.2023 в 07:29, celsoft сказал:

Вообще не факт. У них одинаковый уровень вхождения. Не вижу никакой разницы вообще и тот и тот достаточно прост. Да и вообще любой язык прост, если понять его базовую структуру.

Расширить  

А это вообще очевидное, разработчикам разбирающимся в нескольких языках легче изучить другие языки т.к. уже изученные знания и понимание, опыт работает как мост. Это я знаю.

Ссылка на сообщение
Поделиться на других сайтах
  21.11.2023 в 08:44, Хоббит сказал:

1. Я не предусматривал использование боевого сервера для парсинга, не говоря уже о установке python на сервер сайта.

Расширить  

Вы то здесь причем? Автор топика написал кокретную задачу, которую ему надо решить. Ваши то задачи к его какое отношение имеют? А вы ему начали предлагать решения которые совершенно никак не решают его задачу и проблему.

  21.11.2023 в 08:44, Хоббит сказал:

3. Опять же, учитывайте что владелец сайт не разбирается в программировании, в случае чего ему придется обратиться к автору парсера, или же найти фрилансера.

Расширить  

Автор топика его и ищет, он и создал для этого тему и вы ему в этом никак не помогли, и ваши советы ему бесполезны, по причине того что не решают задачи.

  21.11.2023 в 08:44, Хоббит сказал:

Но это не отменяет того факта что нейросеть выдает лучшие результаты на Python с меньшими ошибками.

Расширить  

Факт установленный кем? Вами? Так вы не эксперт в данном вопросе. Я например не считаю это фактом.

  21.11.2023 в 08:44, Хоббит сказал:

Одно другому не мешает, DLE не монолитная система, захочу: могу использовать Pyhon + Seleium + ChapGPT + MySQL импорт.

Расширить  

Ну ну. Я как программист уже скажу что это бред. А когда делают такой бред приходят потом ко мне в тех. поддержку, с вопросом а как же так, а почему не работает. Да потому что MySQL импорт без соблюдения связей, который невозможно соблюсти одними MySQL запросами. И соответственно банальный MySQL импорт не будет работать на 100% корректно. И спорить с этим со мной глупо, потому что я программист и я сделал DLE и знаю его от и до, со всеми тонкостями и нюансами, о которых вы не знаете и даже не подозреваете.

  21.11.2023 в 08:44, Хоббит сказал:

Неужели мне придется изучить программирование, только чтобы понять какой из кодов сгенерированных нейросетями выдает меньше ошибок, и более приближен к нужному мне результату? 

Расширить  

Если вы собираетесь это утверждать об этом "как о факте" как вы это делаете выше. То да придется. А как вы хотели. Иначе ваше утверждение ложно. Почему оно ложно, потому что я смогу это сделать без ошибок. А если я смогу, будет ли это означать что сеть знает PHP хуже? То что не смогли вы и те ошибки с которыми столкнулись вы не указывают за лучшее знание или худшее. Это означает лишь только то вы с этим столкнулись и не более.

  21.11.2023 в 08:44, Хоббит сказал:

Промт одинаковый, ChapGPT4. Престаньте сравнивать языки, учитывайте контекст задачи.

Расширить  

Написанный кем? Вами? Или вы думаете что вы пишите также как и я? )))) Или ваш промт идеальный и иного не может быть?

В том то и дело что я учитывают именно контекст задачи, понимаю что нужно делать, и что можно для этого задействовать поэтому не даю рекомендаций автору топика про Pyhon + Seleium + ChapGPT + MySQL импорт, прекрасно понимая что там впереди куча проблем и ошибок как следствие и потом он придет ко мне с вопросом почему DLE не работает корректно с его контентом на сайте. А мне оно надо? Я хочу чтобы он не сталкивался с проблемами, а значит если и получил результат, то корректный. И мне в будущем меньше работы.

Ссылка на сообщение
Поделиться на других сайтах
  21.11.2023 в 08:44, Хоббит сказал:

2. Ну сделаете вы php парсер на боевом сервере сайта, а что если сервер сайта не сравнится с мощностью домашнего ПК? БД, Панель, прочие ПО начнут тормозить или даже даст сбои если запустить парсер, допустим 10-30 потоков Selenium? Не каждый арендует dedicated с современным камнем и 32 ГБ ОЗУ

Расширить  

Видимо вы не учли тот факт что Python работает прилично медленнее и потребляет больше ресуров при выполнении одинаковой работы чем тот же PHP. Так что ваш пример как то неубедителен. И если уж говорить только с точки зрения производительности то Python тоже проигрывает. PHP не только на удаленных серверах работает но и домашнем ПК и и из консоли, да как угодно, если вы не знали конечно этих тонкостей, так что код на PHP отработает быстрее и меньшим количеством ресуров, и также в много потоке если нужно. Браузер лишь одна из точек обращения к нему и запуска, не более того, но не ограничивается браузером.

Ссылка на сообщение
Поделиться на других сайтах
  20.11.2023 в 13:09, alex32 сказал:

У меня есть, я их сам делаю. А вот вы даже примерно понятия не имеете, что и как происходит. Но при этом вы "знаете". Лол 🤣

Он не программист, он не знает, что такое "регулярное выражение". Но зато он знает, что такое ChatGPT 

Расширить  

Так, Александр! У нас с вами ещё незаконченный проект, с которого вы уже больше года назад слились, но отвечать по темам вы горазды)))

Ссылка на сообщение
Поделиться на других сайтах
  17.11.2023 в 04:02, Хоббит сказал:

Есть: ZennoPoster, BAS, A-Parser, Datacol. 

Есть: Python + Selenium + ChatGPT. 

Лучше пользоваться уже готовыми решениями чем изобретать велосипед. Ваш php и ТЗ вряд ли содержит все возможные развитие ситуации, на подобие "бан ip, защита от ботов, защита от парсеров, защита Cloudflare" и т.д.

Расширить  

На сколько я узнал у автора, там данные надо получать по API. Всё что вы написали, не нужно. Говорю же, не бегите впереди паровоза :)

Ссылка на сообщение
Поделиться на других сайтах

Self Parser посмотрите . Единственное автор этого парсера закрыл сайт где он раньше размещался и рабочие ли версии которые сейчас предлагаются в интернете я не могу вам точно сказать.

Изменено пользователем ZzzBep
Ссылка на сообщение
Поделиться на других сайтах

Присоединяйтесь к обсуждению

Вы можете опубликовать сообщение сейчас, а зарегистрироваться позже. Если у вас есть аккаунт, войдите в него для написания от своего имени.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

×
×
  • Создать...