Коротких Виктор / ИТМО DWS / Stage 5 #263

vitekkor · 2023-11-21T12:11:20Z

No description provided.

This reverts commit 4ae0bff.

# Conflicts: # src/main/java/ru/vk/itmo/test/viktorkorotkikh/FactoryImpl.java # src/main/java/ru/vk/itmo/viktorkorotkikh/LSMDaoImpl.java # src/main/java/ru/vk/itmo/viktorkorotkikh/SSTable.java

This reverts commit ad1e904.

atimofeyev · 2023-12-02T13:22:43Z

src/main/java/ru/vk/itmo/viktorkorotkikh/MemTable.java

+            // entry already was in memTable, so we need to substructure subtract size of previous entry
+            memTableByteSize.addAndGet(-Utils.getEntrySize(previous));
+        }
+        memTableByteSize.addAndGet(Utils.getEntrySize(entry));


лучше было бы локально посчитать разницу и один раза прибвать в атомик. Добавление в атомик не дешевая оператция

atimofeyev · 2023-12-02T13:23:53Z

src/main/java/ru/vk/itmo/viktorkorotkikh/MemTable.java

+        if (memTableByteSize.get() >= flushThresholdBytes) {
+            throw new LSMDaoOutOfMemoryException();
+        }
+        Entry<MemorySegment> previous = storage.put(entry.key(), entry);


тут есть небольшая проблема: мы можем успеть вставить в мапу больше чем можно, потому что параллельные зпросы решат что место еще есть, хотя место будет только на один запрос

Согласен. Но я не могу придумать хорошего решения, чтобы удовлетворить это требование и то, которое выше:

лучше было бы локально посчитать разницу и один раза прибвать в атомик. Добавление в атомик не дешевая оператция

Наивное решение - сделать другое условие:

if (memTableByteSize.addAndGet(newEntrySize) - newEntrySize >= flushThresholdBytes) { memTableByteSize.addAndGet(-newEntrySize); throw new LSMDaoOutOfMemoryException(); }

Тут мы решим проблему с тем, что какие-то потоки успевают вставить, когда на самом деле не должны. Но тут возникает проблема с многочисленными вызовами addAndGet, потому что ниже на 62 строчке нам всё равно придётся проверить previous на null и вычесть (ну и вычитание при выполнении самого условия).

Вычитание убирать нехорошо, потому что тогда мы будем нечестно считать размер memTable:
Допустим, memTable заполнена под завязку и остался лишь свободный 1mb и фоново у нас идёт флаш другой полной memTable. Мы попытались сделать проверку для entry 5mb и получили эксепшн. Тогда поток, который после нас попытается вставить <1mb, тоже получит экспешн, хотя по идее он должен смочь вставить.

К тому же этот размер я использую при флаше, чтобы не итерироваться заново по всем записям в мапе и считать размер всех entity

atimofeyev · 2023-12-02T13:25:17Z

src/main/java/ru/vk/itmo/viktorkorotkikh/MemTable.java

+    }
+
+    public boolean isEmpty() {
+        return memTableByteSize.compareAndSet(0, 0);


зачем через CAS это делать? почему бы просто не get() == 0?

Исправил

atimofeyev · 2023-12-02T13:38:23Z

src/main/java/ru/vk/itmo/viktorkorotkikh/LSMDaoImpl.java

        }
+        SSTable.save(memTable, ssTables.size(), storagePath);


если параллельно вызвать close() будут проблемы, все потоки как раз почти одноверменно начнут выполнять SSTable.save() - скорее всего будет ошибка и мы потеряем данные

Исправил - добавил AtomicBoolean closed

atimofeyev · 2023-12-02T13:41:02Z

src/main/java/ru/vk/itmo/viktorkorotkikh/LSMDaoImpl.java

-        return newSSTables;
+    private void compactInBackground() {
+        try {
+            compactionLock.writeLock().lock();


а зачем тут compactionLock ну и во флаше получается?

Это нужно для того, чтобы параллельно не могли выполняться flush и compaction. Объективно, решение не самое лучше получилось - можно было сделать как Артём и выполнить это условие путём создания ExecutorService с одним рабочим потоком.

Ну либо разделить compaction на 2 стадии и залочить только стадию удаления sstable с диска и записью нового файла index.idx. Но это решение имеет много подводных камней - нужно не удалить возможно появившиеся после параллельного флаша новые sstable, нужно пределать механизм выдачи нового имени для sstable (сейчас это просто "sstable" + sstablesList.size() + ".db". Очевидно, если был параллельный флаш, то в будущем это приведёт к коллизии и мы этот параллельный флаш случайно перезапишем)

Я могу переделать это замечание

так у нас флаш и компакт идет в одном потоке, они не будут параллельно вызываться

Удивительно, но почему-то я считал, что у меня там не singleThreadExecutor, а newFixedThreadPool с 2-мя потоками. Я точно помню, что в какой-то момент у меня был именно private final ExecutorService bgExecutor = Executors.newFixedThreadPool(2);. Там как раз нужен был лок.

Видимо, из-за того, что я доделывал всё в последний момент, упустил из виду, что я в какой-то момент отказался от 2х потоков и указал singleThreadExecutor, и забыл лок убрать.

Так что да, вы абсолютно правы

atimofeyev · 2023-12-02T13:42:36Z

src/main/java/ru/vk/itmo/viktorkorotkikh/LSMDaoImpl.java

-            if (iterator.hasNext()) {
-                current = iterator.next();
+    private void tryToFlush(boolean tolerateToBackgroundFlushing) {
+        upsertLock.writeLock().lock();


для чего тут upsertLock.writeLock() берем?

Если у нас 2 потока одновременно вызывают флаш, то получится, что будет 2 параллельных фоновых флаша и мы потеряем данные на некоторое время:

memTable: [entity1, entity2,....] flushingMemTable: [] ↓ memTable: [] flushingMemTable: [entity1, entity2,....] ↓ memTable: [] flushingMemTable: []

То есть одна memTable будет вне зоны видимости dao во время записи данных на диск, после записи они появятся, но это плохая база данных получается.

Но моё решение тоже не идеально. Замена таблиц тут происходит в методе prepareFlush, который вызывается после того, как был отпущен лок в методе tryToFlush. В теории может случиться та ситуация, о которой я писал выше.
Тут виной всему суровый и беспощадный рефакторинг, который заменил atomicBoolean на lock

Ну или надо не atomicBoolean использовать, а просто делать вызов prepareFlush тут же сразу под локом, а не в runFlushInBackground

Исправил на последний вариант - вызов prepareFlush осуществляется в tryToFlush

atimofeyev · 2023-12-02T13:53:24Z

src/main/java/ru/vk/itmo/viktorkorotkikh/LSMDaoImpl.java

+            if (compactionFuture != null) {
+                await(compactionFuture);
+            }
+            bgExecutor.awaitTermination(1, TimeUnit.SECONDS);


маловатисто ждем, у нас бесконечная очередь для флаша и компакта, туда могло много тасок попасть, и секунды будет мало - потеря данных

туда могло много тасок попасть, и секунды будет мало - потеря данных

Туда не может попасть больше 2х заданий. Флаши у нас заданы логикой - автофлаши бросают эксепшн, ручные флаши просто делают return, если есть уже запущенный фалш. Компакшнов у нас тоже не может быть больше одного - при вызове метода мы отменяем предыдущий фьючер и запускаем задание на компакшн заново.

Причём Future для обоих видов заданий мы храним во flushFuture и compactionFuture, и мы дожидаемся выше их завершения
https://github.com/polis-vk/2023-nosql-lsm/pull/263/files#diff-79201a9f5547826a664aaebf9109694f27b9f047da9deda3ae6bc1800e3e5aeeR210
https://github.com/polis-vk/2023-nosql-lsm/pull/263/files#diff-79201a9f5547826a664aaebf9109694f27b9f047da9deda3ae6bc1800e3e5aeeR213

Так что потери данных тут нет

да, не заметил что фьючерсов дожидаемся, но все равно чего жалеть то, если все равно ожидаем что работы никакой нет, можно поставить и больше, может там на ГЦ втупим на 3 сек

atimofeyev · 2023-12-09T13:41:15Z

20 баллов

…inute

incubos · 2023-12-26T16:01:18Z

Проставлено в ведомость.

vitekkor and others added 30 commits October 31, 2023 16:08

stage-4: first working version

e93de0f

stage-4: add fault tolerance

e72da7f

stage-4: fix checkstyle

4ae394b

stage-4: minor fixes

819eddc

stage-4: use hasNoTombstones

ae4fa1b

Merge branch 'main' into stage-4

f870977

Merge branch 'main' into stage-4

e1b9d70

Merge branch 'main' into stage-4

69cdfb3

Merge branch 'main' into stage-4

3971d62

Merge branch 'main' into stage-4

6d30edb

Merge branch 'main' into stage-4

fbc9499

Merge branch 'main' into stage-4

493ed37

Merge remote-tracking branch 'upstream/main' into stage-4

44c1e94

stage-4: save compacted file with specific name

971b477

stage-5: first version

1d96e81

stage-5: fix codeclimate

b19c68f

stage-5: fix memTable

108bd2e

stage-5: remove STR

1ce4ae6

stage-5: fix codeclimate

2f53a6a

stage-5: fix codeclimate

43d986c

stage-5: fix codeclimate

a0f4917

stage-5: ver2

f5b750d

stage-5: ver3

bfc8963

stage-5: experimental testConcurrentRW_100_000_compact

4ae0bff

stage-5: make flushFuture volatile

6da952f

Merge branch 'main' into stage-5

348cc7e

Revert "stage-5: experimental testConcurrentRW_100_000_compact"

029d54a

This reverts commit 4ae0bff.

stage-5: tmp version

983b7f7

Merge remote-tracking branch 'upstream/main' into stage-5

8b5359f

# Conflicts: # src/main/java/ru/vk/itmo/test/viktorkorotkikh/FactoryImpl.java # src/main/java/ru/vk/itmo/viktorkorotkikh/LSMDaoImpl.java # src/main/java/ru/vk/itmo/viktorkorotkikh/SSTable.java

stage-5: fix codeclimate

cfc47da

vitekkor added 9 commits November 22, 2023 21:48

stage-5: remove useless log

5139031

stage-5: code cleanup

9d3d2d5

stage-5: fix comment

09b604f

stage-5: fix codeclimate

327fda0

stage-5: some refactoring

ad1e904

Merge remote-tracking branch 'upstream/main' into stage-5

51acd1a

Revert "stage-5: some refactoring"

f4d5e18

This reverts commit ad1e904.

stage-5: passed tests

207ec94

stage-5: code cleanup

0129235

incubos requested a review from vladimir-bf November 23, 2023 09:41

incubos assigned vladimir-bf Nov 23, 2023

vladimir-bf assigned atimofeyev and unassigned vladimir-bf Nov 29, 2023

atimofeyev reviewed Dec 2, 2023

View reviewed changes

vitekkor added 4 commits December 5, 2023 21:40

stage-5: fix some comments

5d119a3

stage-5: invoke prepareFlush in tryToFlushMethod

4233175

stage-5: rollback changes

955de1f

stage-5: fix codeclimate

fbf6458

vitekkor and others added 5 commits December 9, 2023 16:56

stage-5: remove compaction lock; await bgExecutor Termination for 1 m…

4a00ed2

…inute

Merge branch 'main' into stage-5

505ff91

Merge branch 'main' into stage-5

68fea2c

Merge branch 'main' into stage-5

87edbe6

Merge branch 'main' into stage-5

638a5f2

incubos merged commit 080e2a7 into polis-vk:main Dec 26, 2023
2 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Коротких Виктор / ИТМО DWS / Stage 5 #263

Коротких Виктор / ИТМО DWS / Stage 5 #263

vitekkor commented Nov 21, 2023

atimofeyev Dec 2, 2023

atimofeyev Dec 2, 2023

vitekkor Dec 5, 2023 •

edited

Loading

atimofeyev Dec 2, 2023

vitekkor Dec 5, 2023

atimofeyev Dec 2, 2023

vitekkor Dec 5, 2023

atimofeyev Dec 2, 2023

vitekkor Dec 5, 2023

atimofeyev Dec 9, 2023

vitekkor Dec 9, 2023 •

edited

Loading

atimofeyev Dec 2, 2023

vitekkor Dec 5, 2023

vitekkor Dec 5, 2023

vitekkor Dec 5, 2023

atimofeyev Dec 2, 2023

vitekkor Dec 5, 2023

atimofeyev Dec 9, 2023

atimofeyev commented Dec 9, 2023

incubos commented Dec 26, 2023

Коротких Виктор / ИТМО DWS / Stage 5 #263

Коротких Виктор / ИТМО DWS / Stage 5 #263

Conversation

vitekkor commented Nov 21, 2023

Choose a reason for hiding this comment

Choose a reason for hiding this comment

vitekkor Dec 5, 2023 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

vitekkor Dec 9, 2023 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

atimofeyev commented Dec 9, 2023

incubos commented Dec 26, 2023

vitekkor Dec 5, 2023 •

edited

Loading

vitekkor Dec 9, 2023 •

edited

Loading