[/b/] [/d/] [/tu/] [/a/] [/ph/] [/wa/] [/cg/] [/t/] [/p/]

[Burichan] [Futaba] [Greenhell] [Gurochan] [Photon] - [Home] [Manage] [Archive]

[Return]
Posting mode: Reply
Leave these fields empty (spam trap):
Name
Link
Subject
Comment
File
Verification
Password (for post and file deletion)
  • Supported file types are: GIF, JPG, PDF, PNG
  • Maximum file size allowed is 20480 KB.
  • Images greater than 200x200 pixels will be thumbnailed.

File: 1354032518229.jpg -(52920 B, 600x618) Thumbnail displayed, click image for full size.
52920 No.86104  

http://search-beta.ruscorpora.ru/ngram.xml?mode=main&t1=%D0%BA%D0%BE%D1%81%D0%BC%D0%BE%D1%81&start=1900&end=2010&smoothing=3
Не смог найти Антошу, который хотел смотреть статистику упоминания в печатных изданиях тех или иних событий. Вот тут можно посмотреть. Расстраивает, что нет нормировки по (или к) соотношению к количеству анализируемых изданий. Те. к ~1990 писать стали больше и почти всё перевешивает. Но можно уменьшить шаг, сузить временной интервал.

Сабж нашёл, так как хочу запилить велосипед распознования русске слова и какой частью речи оно является. А потом полазить пособирать статистику.

>> No.86105  
File: 1354034032181.jpg -(369920 B, 750x750) Thumbnail displayed, click image for full size.
369920

>>86104
Данные они похоже вот отсюда выгребвают: http://books.google.com/ngrams/ , там же есть ссылка на сырые данные, так же они в процентах графики строят, что наверное будет несколько более удобным.

>> No.86106  
File: 1354036786067.jpg -(79975 B, 600x600) Thumbnail displayed, click image for full size.
79975

Nope, данные отечественные.
ruscorpora.ru
10 июля 2012 года
Год назад был запущен сервис «Графики», аналогичный сервису Google Books Ngram Viewer: распределение найденных по точной форме слов и словосочетаний по годам. Теперь такой график можно построить по результатам произвольного запроса к основному корпусу (а не только по точным формам, как раньше). Для этого перейдите по ссылке «Распределение по годам» на странице с результатами поиска и дождитесь ответа. Кроме того, по соседней ссылке «Статистика» доступны таблицы с распределением найденных документам по авторам, жанрам, типам, тематике текста и т. д.

>> No.86107  
File: 1354038280414.png -(34714 B, 1530x352) Thumbnail displayed, click image for full size.
34714

данные доставляют

>> No.86109  
File: 1354038970907.png -(345578 B, 600x600) Thumbnail displayed, click image for full size.
345578

>>86106
Да, похоже ты прав, источники разные.
http://search-beta.ruscorpora.ru/ngram.xml?mode=main&t1=яндекс&start=1800&end=2012
http://books.google.com/ngrams/graph?content=яндекс&year_start=1800&year_end=2008&corpus=12

>> No.86113  
File: 1354043636833.png -(39831 B, 1347x528) Thumbnail displayed, click image for full size.
39831

Спасибо, аноны, это замечательно. Алсо, ОП, http://packages.python.org/pymorphy/

>> No.86118  
File: 1354045053253.jpg -(134454 B, 800x600) Thumbnail displayed, click image for full size.
134454

>>86113
Знаю. Но хочу попробовать adaBoost для обучения и надо углубится в java.

>> No.86129  
File: 1354074306906.jpg -(425230 B, 543x805) Thumbnail displayed, click image for full size.
425230

>>86104

> Расстраивает, что нет нормировки по (или к) соотношению к количеству анализируемых изданий.

Если сравнивать эту штуку с гуглем по предлогам то получается что одна единица там примерно соответствует 0,0001%



Delete Post []
Password

[/b/] [/d/] [/tu/] [/a/] [/ph/] [/wa/] [/cg/] [/t/] [/p/]