Задачи Apache Spark

Закрыт1 заявка405 просмотров

##Задача 1 Модернизируйте заготовку заменив все участки на ваш код для того, что бы:

вычислять и выводить на экран статистику по числу оценок для каждого фильма

вычислять и выводить на экран статистику по числу оценок для всех фильмов

Статистика для каждого фильма:

Marks for film 346: 1 -> 7, 2 -> 10, 3 -> 32, 4 -> 49, 5 -> 28

Marks for film 474: 1 -> 0, 2 -> 6, 3 -> 34, 4 -> 59, 5 -> 95

Marks for film 265: 1 -> 1, 2 -> 13, 3 -> 62, 4 -> 91, 5 -> 60

Marks for film 465: 1 -> 4, 2 -> 8, 3 -> 26, 4 -> 30, 5 -> 17

Marks for film 451: 1 -> 15, 2 -> 31, 3 -> 37, 4 -> 54, 5 -> 33

Marks for film 86: 1 -> 4, 2 -> 10, 3 -> 23, 4 -> 67, 5 -> 46

Marks for film 257: 1 -> 2, 2 -> 28, 3 -> 81, 4 -> 126, 5 -> 66

Marks for film 222: 1 -> 7, 2 -> 30, 3 -> 108, 4 -> 155, 5 -> 65

Marks for film 40: 1 -> 9, 2 -> 9, 3 -> 20, 4 -> 17, 5 -> 2

Marks for film 29: 1 -> 15, 2 -> 34, 3 -> 45, 4 -> 14, 5 -> 6

Для всех фильмов:

Marks for films ALL: 1 -> 6110, 2 -> 34174, 3 -> 27145, 4 -> 11370, 5 -> 21201

import collections

rdd = spark.sparkContext.textFile("/content/sample_data/ml-100k/u.data")

def printStat(inp):

print(f'Marks for film {ind}: 1 -> {marks[0]}, 2 -> {marks[1]}, 3 -> {marks[2]}, 4 -> {marks[3]}, 5 -> {marks[4]}')

for i in aggPairRDD.mapValues(lambda x: dict(collections.Counter(x))).collect():

printStat(i)

##Задача 2 Произведите подсчёт частоты встречаемости слов с использованием ApacheSpark RDD. Ячейка ниже скачивает текст. Вам требуется:

Очистить текст от знаков препинания и пустых строк

Перевести в нижний регистр и разделить по пробелам

Подсчитать наиболее часто встречающиеся символы

Использовать RDD

Пример вывода:

[('и', 2204),

('в', 1977),

('я', 1252),

('не', 1247),

('на', 1094),

('он', 755),

('как', 717),

('с', 693),

('что', 653),

('его', 502)]

!wget http://www.lib.ru/INOOLD/BALZAK/shagren.txt_Ascii.txt | iconv -f cp1251

i = 0

with open('/content/shagren.txt_Ascii.txt', encoding="cp1251") as inF, open('/content/shagren.txt_utf8.txt', "w") as outF:

for line in inF:

outF.write(line)

Apache Обработка данных

3 года назад

Гость

3 года в сервисе

Был

3 года назад

Заявки фрилансеров

Сашам

32 года

3 года в сервисе

Был

3 года назад

Похожие заказы
Нужно привести код из с++ на pascal
Требуется перевести код из языка программирования C++ на Pascal. Объем кода составляет примерно 30 строк. Ожидается точность и соблюдение синтаксиса языка Pascal.
C++
Контрольные, Задачи и Тесты4 заявки
Закрыт
3 года назад
Структурирование знаний
Необходимо разработать систему кредитных планов для банка, учитывающую такие критерии, как годовой доход, величина кредита и желаемый срок. Также требуется создать классификацию, которая поможет работнику банка определить подходящий кредитный план для каждого клиента, исходя из предложенных критериев.
Контрольные, Задачи и Тесты3 заявки
Закрыт
3 года назад
ОХРиОР контрольная
Необходима помощь в выполнении контрольной работы по ОХРиОР. Требуется решить задачи и тесты, желательно с подробными решениями. Мой вариант - 2.
Решение задач
Контрольные, Задачи и Тесты1 заявка
Закрыт
3 года назад
Контрольную работу
Требуется подготовка нескольких контрольных заданий для школьников 9 класса. Задания должны включать тесты и задачи по различным предметам. Ожидается качественное выполнение и соответствие образовательным стандартам.
Контрольные, Задачи и Тесты6 заявок
Закрыт
3 года назад
Нужно сделать контрольную работу
Необходимо выполнить контрольную работу, включающую две диаграммы. Предоставлены требования и образцы из презентации. Важно строго следовать указанным критериям и оформлению. Для более детального понимания доступно фото примера, которое поможет в работе.
Контрольные, Задачи и Тесты1 заявка
Закрыт
3 года назад
Доклад по истории
Требуется подготовить 6 докладов по истории, включая темы «Оттепель» в СССР, Великую отечественную войну, внешнюю политику и глобальные проблемы. Темы охватывают ключевые моменты и важные изобретения. Учебные материалы могут быть предоставлены для работы.
Контрольные, Задачи и Тесты6 заявок
Закрыт
3 года назад
Задание по физике (анализ сигналов)
Необходимо выполнить задачи по физике, связанные с анализом сигналов, из прикрепленного файла. Требуется составить подробный отчет по выполненным заданиям, включая результаты и объяснения. Убедитесь, что отчет соответствует стандартам и включает все необходимые детали.
Решение задач
Контрольные, Задачи и Тесты1 заявка
Закрыт
3 года назад
Скрипт в Linux
Необходимо разработать скрипт на Linux, который будет состоять минимум из 3 различных инструкций, не считая операторов if и for. Скрипт должен принимать хотя бы один входной параметр, проверка количества параметров осуществляется с помощью оператора if. Включите использование цикла for в вашу реализацию.
Linux
Контрольные, Задачи и Тестынет заявок
Закрыт
3 года назад
Решить задачу методом Лагранжа
Требуется решить задачу методом Лагранжа с двумя степенями свободы. Примеры и решения аналогичных задач прикреплены в PDF-файлах для ознакомления и оформления. Необходимы четкие расчеты и объяснения этапов решения.
Контрольные, Задачи и Тесты1 заявка
Закрыт
3 года назад
Теория вероятностей. Дискретная математика 3 задания.
Необходимо решить 3 задания по теории вероятностей и дискретной математике, варианты 4 и 13. Укажите цену за один и два варианта. Также требуется подготовить пояснения для собеседования с преподавателем.
Контрольные, Задачи и Тесты2 заявки
Закрыт
3 года назад